seed-tts-eval:用於評估模型零樣本語音生成能力的測試集

連結:https://github.com/BytedanceSpeech/seed-tts-eval/

seed-tts-eval 是一個用於評估模型零樣本語音生成能力的測試集,它提供了一個跨領網網域目標的客觀評估測試集,包含從英語和國語公共語料庫中提取的樣本,用於衡量模型在各種客觀指標上的表現。它使用了Common Voice資料集的1000個樣本和DiDiSpeech-2資料集的2000個樣本。

需求人群:

  • 目標受眾為語音合成技術的研究者和開發者,他們可以利用seed-tts-eval模型來評估和改進他們的語音合成系統。

使用場景示例:

  • 研究者使用seed-tts-eval評估新的語音合成模型的效能
  • 開發者利用該測試集比較不同語音合成技術的效果
  • 教育機構使用該測試集作為教學材料,教授語音合成技術

產品特色:

  • 採用Common Voice和DiDiSpeech-2資料集樣本進行評估
  • 使用Word Error Rate (WER)和Speaker Similarity (SIM)作為評估指標
  • 為英語和國語分別採用Whisper-large-v3和Paraformer-zh作為自動語音辨識引擎
  • 使用WavLM-large模型進行說話人相似度評估
  • 提供測試集的下載連結
  • 支援零樣本文本到語音(TTS)和聲音轉換(VC)任務的評估

使用教學:

訪問seed-tts-eval的GitHub頁面

閱讀README檔案瞭解如何安裝依賴和使用測試集

下載所需的測試集樣本

使用提供的評估程式碼進行模型效能的評估

根據評估結果最佳化語音合成模型

返回頂端