VoiceCraft:零樣本語音編輯和文字轉語音技術

VoiceCraft是一種基於令牌填充的神經編解碼器語言模型, 可實現領先的語音編輯和零樣本文字轉語音(TTS)效能。對於未見過的聲音, VoiceCraft只需幾秒鐘的語音樣本就能克隆該聲音或編輯錄音。該模型適用於有聲讀物、網路影片和播客等野外資料。