BASE TTS:亞馬遜的大規模語音合成模型

Link:base-tts
BASE TTS是亞馬遜開發的大規模文字到語音合成模型,運用了10億引數的自動迴歸轉換器,可將文字轉換成語音程式碼,再透過卷積解碼器生成語音波形。該模型使用了超過10萬小時的公共語音資料進行訓練,實現了語音自然度的新狀態。還具有音素解離和壓縮等新穎的語音編碼技術。隨著模型規模的增大,BASE TTS展現出了處理複雜句子的自然語調能力。

需求人群:

["語音合成","語音助手","有聲讀物生成","視障人士輔助"]

使用場景示例:

將輸入的文字轉換為逼真的語音

為有聲書自動生成配音

為語音助手賦予更自然的語調

為視障人士朗讀文字

產品特色:

文字到語音轉換

10億引數自動迴歸轉換器

語音編碼技術

處理長句子的語調能力

返回頂端