SeamlessM4T:一款基於多模態模型的語音翻譯產品,支援近100種語言的自動語音識別、語音翻譯、文字翻譯、語音合成等功能。
SeamlessM4T是一款基於多模態模型的語音翻譯產品,支援近100種語言的自動語音識別、語音翻譯、文字翻譯、語音合成等功能。該產品採用了全新的多工UnitY模型架構,能夠直接生成翻譯文字和語音。SeamlessM4T的自我監督語音編碼器w2v-BERT 2.0透過分析數百萬小時的多語言語音,學習如何在語音中找到結構和意義。該產品還提供了SONAR、SpeechLASER等多語言語音和文字資料集,以及fairseq2等序列建模工具包。SeamlessM4T的釋出,標誌著AI技術在實現語音翻譯方面取得了重大突破。