Link:stability-ai-text-to-speech-models
Stability AI 高保真文字轉語音模型旨在提供對大規模資料集進行訓練的語音合成模型的自然語言引導。它透過標註不同的說話者身份、風格和錄音條件來進行自然語言引導。然後將此方法應用於45000小時的資料集,用於訓練語音語言模型。此外,該模型提出了提高音訊保真度的簡單方法,儘管完全依賴於發現的資料,但在很大程度上表現出色。
需求人群:
"適用於需要控制語音合成模型的說話者身份、風格和錄音條件的使用者。"
使用場景示例:
使用者A想要生成一個具有美國口音的女性聲音進行播報
使用者B需要一個帶有英國口音的男性聲音進行錄音
使用者C想要一個帶有南非口音的男性聲音進行播報
產品特色:
透過自然語言指導實現高保真文字轉語音
標註不同的說話者身份、風格和錄音條件
提供45000小時的資料集進行訓練
提出簡單方法提高音訊保真度