音訊分離 Archives - AI書籤-全球ai人工智慧產品和服務

AudioSep：基於自然語言查詢的開放領域音訊源分離模型

AudioSep是一種基於自然語言查詢的開放領域音訊源分離模型。它由文字編碼器和分離模型兩個關鍵元件組成。我們在大規模多模態資料集上訓練AudioSep，並在許多工上廣泛評估其能力，包括音訊事件分離、樂器分離和語音增強。AudioSep表現出強大的分離效能和令人印象深刻的零樣本泛化能力，使用音訊標題或文字標籤作為查詢，大大優於以前的音訊查詢和語言查詢聲音分離模型。為了保證本工作的可重複性，我們將釋出原始碼、評估基準和預訓練模型。