AudioSep：基於自然語言查詢的開放領域音訊源分離模型

Link：audiosep
AudioSep是一種基於自然語言查詢的開放領域音訊源分離模型。它由文字編碼器和分離模型兩個關鍵元件組成。我們在大規模多模態資料集上訓練AudioSep，並在許多工上廣泛評估其能力，包括音訊事件分離、樂器分離和語音增強。AudioSep表現出強大的分離效能和令人印象深刻的零樣本泛化能力，使用音訊標題或文字標籤作為查詢，大大優於以前的音訊查詢和語言查詢聲音分離模型。為了保證本工作的可重複性，我們將釋出原始碼、評估基準和預訓練模型。

需求人群：

"適用於音訊分離領域，可用於音訊處理、音訊編輯等領域"

使用場景示例：

使用AudioSep分離音訊中的吉他聲音

使用AudioSep分離音訊中的人聲

使用AudioSep分離音訊中的鋼琴聲音

產品特色：

基於自然語言查詢的音訊源分離

支援開放領域音訊概念分離

支援音訊事件分離、樂器分離和語音增強

具有強大的分離效能和零樣本泛化能力