StyleTTS 2:人級別文字轉語音合成模型
StyleTTS 2 是一款文字轉語音(TTS)模型,使用大型語音語言模型(SLMs)進行風格擴散和對抗訓練,實現了人級別的 TTS 合成。它透過擴散模型將風格建模為潛在隨機變數,以生成最適合文字的風格,而無需參考語音。此外,我們使用大型預訓練的 SLMs(如 WavLM)作為判別器,並結合我們的創新可微持續時間建模進行端到端訓練,從而提高了語音的自然度。StyleTTS 2 在單說話人 LJSpeech 資料集上超越了人類錄音,並在多說話人 VCTK 資料集上與之匹配,得到了母語為英語的評審人員的認可。此外,當在 LibriTTS 資料集上進行訓練時,我們的模型優於先前公開可用的零樣本擴充套件模型。透過展示風格擴散和對抗訓練與大型 SLMs 的潛力,這項工作在單個和多說話人資料集上實現了一個人級別的 TTS 合成。