連結:https://stability.ai/news/introducing-stable-audio-open
Stable Audio Open是一個開源的文本到音訊模型,專為生成短音訊樣本、音效和製作元素而最佳化。它允許使用者透過簡單的文本提示生成高達47秒的高質量音訊資料,特別適用於創造鼓點、樂器即興演奏、環境聲音、擬音錄音等音樂製作和聲音設計。開源釋出的關鍵好處是使用者可以根據自己的自訂音訊資料微調模型。
需求人群:
- Stable Audio Open的目標受眾包括聲音設計師、音樂家和創意社群。它為這些使用者提供了一個強大的工具,可以透過文本提示快速生成所需的音訊樣本,從而加速音樂製作和聲音設計的過程,同時保持音訊的多樣性和創造性。
使用場景示例:
- 生成溫暖的模擬合成器琶音,逐漸上升的濾波截止和混響尾音
- 在處理過的工作室中播放的搖滾節奏,使用原聲套鼓進行會話鼓演奏
- 生成森林中夏日黃昏的黑鳥歌聲
產品特色:
- 生成高達47秒的高質量音訊樣本
- 建立鼓點、樂器即興演奏、環境聲音等
- 音訊樣本的風格轉換和音訊變體生成
- 使用者可以微調模型以適應自己的音訊資料
- 支援文本提示以生成特定風格的音訊
- 尊重創作者權利,使用FreeSound和Free Music Archive的音訊資料訓練
使用教學:
訪問Hugging Face網站下載Stable Audio Open模型權重
根據個人需求對模型進行微調以適應特定的音訊資料
使用文本提示生成所需的音訊樣本
探索模型的不同功能,如音訊樣本的風格轉換
加入Stable AI的社群,獲取反饋並參與進一步的研究和開發