Link:base-tts
BASE TTS是亞馬遜開發的大規模文字到語音合成模型,運用了10億引數的自動迴歸轉換器,可將文字轉換成語音程式碼,再透過卷積解碼器生成語音波形。該模型使用了超過10萬小時的公共語音資料進行訓練,實現了語音自然度的新狀態。還具有音素解離和壓縮等新穎的語音編碼技術。隨著模型規模的增大,BASE TTS展現出了處理複雜句子的自然語調能力。
需求人群:
["語音合成","語音助手","有聲讀物生成","視障人士輔助"]
使用場景示例:
將輸入的文字轉換為逼真的語音
為有聲書自動生成配音
為語音助手賦予更自然的語調
為視障人士朗讀文字
產品特色:
文字到語音轉換
10億引數自動迴歸轉換器
語音編碼技術
處理長句子的語調能力