語音合成 Archives - Page 4 of 6 - AI書籤-全球ai人工智慧產品和服務

REECHO 睿聲：睿聲 – 超擬真瞬時語音克隆平臺

REECHO.AI 睿聲是一個超擬真的人工智慧語音克隆平臺。使用者可以上傳語音樣本,系統利用深度學習技術進行語音克隆,生成質量極高的 AI 語音,可以實現不同人物的語音風格轉換。該平臺提供語音創作、語音配音等服務,讓更多人可以透過 AI 技術參與語音內容的創作,降低創作門檻。平臺定位大眾化,提供免費使用基礎功能。

NaturalSpeech 3：NaturalSpeech 3是一個零樣本（Zero-Shot）語音合成系統，使用分解編解碼器和擴散模型生成自然語音

語音合成

NaturalSpeech 3旨在透過分解語音的不同屬性（如內容、韻律、音色和聲學細節）並分別生成它們來提高語音合成的質量、相似性和韻律。該系統設計了一個神經編解碼器，使用分解的向量量化（FVQ）來解耦語音波形，並提出了一個分解的擴散模型來根據相應的提示生成每個子空間的屬性。

EmotiVoice：情感驅動的多語音合成引擎

語音合成

EmotiVoice是一個功能強大、現代化的開源文字到語音引擎。它支援英語和中文，並擁有超過2000種不同的語音。最顯著的特點是情感合成，可以讓你創造具有各種情感的語音，包括快樂、興奮、悲傷、憤怒等。

EmotiVoice提供了一個易於使用的網頁介面，還提供了用於批次生成結果的指令碼介面。

主要功能點包括：
1. 支援英語和中文
2. 擁有超過2000種不同的語音
3. 提供情感合成功能

價格：免費
定位：面向開發者和研究人員。

SpeechLab是一款桌面客戶端，提供語音翻譯和語音合成功能。它能夠幫助使用者進行語音翻譯，將語言轉換成其他語言，同時還能夠合成語音，將文字轉換成自然流暢的語音。SpeechLab的優勢在於其高質量的語音合成技術，可以生成與人類聲音相似的合成語音。SpeechLab的定價為免費試用和付費訂閱兩種方式，具體定價可在官方網站上檢視。SpeechLab定位於幫助使用者跨越語言障礙，使內容在全球範圍內更容易獲得。

Respeecher Marketplace：利用AI實現語音轉換

語音合成, 語音轉換

Respeecher是一個基於AI的語音轉換工具,能夠實現不同人聲音之間的轉換。它採用深度神經網路技術,只需要提供少量樣本音訊,就可以訓練出目標人聲音的克隆版本。Respeecher的語音轉換效果非常逼真,可用於遊戲、影視配音等多種創作領域。它提供免費試用,支援上傳自己錄製的音訊進行語音轉換。主要功能包括語音轉換、語音塑造、語音配音等。

StyleTTS 2：人級別文字轉語音合成模型

文字轉語音, 語音合成

StyleTTS 2 是一款文字轉語音（TTS）模型，使用大型語音語言模型（SLMs）進行風格擴散和對抗訓練，實現了人級別的 TTS 合成。它透過擴散模型將風格建模為潛在隨機變數，以生成最適合文字的風格，而無需參考語音。此外，我們使用大型預訓練的 SLMs（如 WavLM）作為判別器，並結合我們的創新可微持續時間建模進行端到端訓練，從而提高了語音的自然度。StyleTTS 2 在單說話人 LJSpeech 資料集上超越了人類錄音，並在多說話人 VCTK 資料集上與之匹配，得到了母語為英語的評審人員的認可。此外，當在 LibriTTS 資料集上進行訓練時，我們的模型優於先前公開可用的零樣本擴充套件模型。透過展示風格擴散和對抗訓練與大型 SLMs 的潛力，這項工作在單個和多說話人資料集上實現了一個人級別的 TTS 合成。

REECHO 睿聲：睿聲 – 超擬真瞬時語音克隆平臺

NaturalSpeech 3：NaturalSpeech 3是一個零樣本（Zero-Shot）語音合成系統，使用分解編解碼器和擴散模型生成自然語音

EmotiVoice：情感驅動的多語音合成引擎

Speechlab：桌面客戶端，語音翻譯和語音合成

Respeecher Marketplace：利用AI實現語音轉換

StyleTTS 2：人級別文字轉語音合成模型

聲音復刻：高效化的輕量級音色定製方案

Video Translate：一鍵翻譯上傳影片,保持語音風格

Dubdub.ai：AI配音與語音表情

VideoDubber：AI 影片翻譯、語音合成