AudioSep:基於自然語言查詢的開放領域音訊源分離模型

AudioSep是一種基於自然語言查詢的開放領域音訊源分離模型。它由文字編碼器和分離模型兩個關鍵元件組成。我們在大規模多模態資料集上訓練AudioSep,並在許多工上廣泛評估其能力,包括音訊事件分離、樂器分離和語音增強。AudioSep表現出強大的分離效能和令人印象深刻的零樣本泛化能力,使用音訊標題或文字標籤作為查詢,大大優於以前的音訊查詢和語言查詢聲音分離模型。為了保證本工作的可重複性,我們將釋出原始碼、評估基準和預訓練模型。