連結:https://github.com/BytedanceSpeech/seed-tts-eval/
seed-tts-eval 是一個用於評估模型零樣本語音生成能力的測試集,它提供了一個跨領網網域目標的客觀評估測試集,包含從英語和國語公共語料庫中提取的樣本,用於衡量模型在各種客觀指標上的表現。它使用了Common Voice資料集的1000個樣本和DiDiSpeech-2資料集的2000個樣本。
需求人群:
- 目標受眾為語音合成技術的研究者和開發者,他們可以利用seed-tts-eval模型來評估和改進他們的語音合成系統。
使用場景示例:
- 研究者使用seed-tts-eval評估新的語音合成模型的效能
- 開發者利用該測試集比較不同語音合成技術的效果
- 教育機構使用該測試集作為教學材料,教授語音合成技術
產品特色:
- 採用Common Voice和DiDiSpeech-2資料集樣本進行評估
- 使用Word Error Rate (WER)和Speaker Similarity (SIM)作為評估指標
- 為英語和國語分別採用Whisper-large-v3和Paraformer-zh作為自動語音辨識引擎
- 使用WavLM-large模型進行說話人相似度評估
- 提供測試集的下載連結
- 支援零樣本文本到語音(TTS)和聲音轉換(VC)任務的評估
使用教學:
訪問seed-tts-eval的GitHub頁面
閱讀README檔案瞭解如何安裝依賴和使用測試集
下載所需的測試集樣本
使用提供的評估程式碼進行模型效能的評估
根據評估結果最佳化語音合成模型