Link:audiosep
AudioSep是一種基於自然語言查詢的開放領域音訊源分離模型。它由文字編碼器和分離模型兩個關鍵元件組成。我們在大規模多模態資料集上訓練AudioSep,並在許多工上廣泛評估其能力,包括音訊事件分離、樂器分離和語音增強。AudioSep表現出強大的分離效能和令人印象深刻的零樣本泛化能力,使用音訊標題或文字標籤作為查詢,大大優於以前的音訊查詢和語言查詢聲音分離模型。為了保證本工作的可重複性,我們將釋出原始碼、評估基準和預訓練模型。
需求人群:
"適用於音訊分離領域,可用於音訊處理、音訊編輯等領域"
使用場景示例:
使用AudioSep分離音訊中的吉他聲音
使用AudioSep分離音訊中的人聲
使用AudioSep分離音訊中的鋼琴聲音
產品特色:
基於自然語言查詢的音訊源分離
支援開放領域音訊概念分離
支援音訊事件分離、樂器分離和語音增強
具有強大的分離效能和零樣本泛化能力