DenseAV:一種自監督的視聽特徵對齊模型
DenseAV是一種新穎的雙編碼器定位架構,透過觀看影片學習高解析度、語義有意義的視聽對齊特徵。它能夠無需明確定位監督即可發現單詞的「意義」和聲音的「位置」,並且自動發現並區分這兩種關聯型別。DenseAV的定位能力來自於一種新的多頭特徵聚合運算子,它直接比較密集的影象和音訊表示進行對比學習。
DenseAV是一種新穎的雙編碼器定位架構,透過觀看影片學習高解析度、語義有意義的視聽對齊特徵。它能夠無需明確定位監督即可發現單詞的「意義」和聲音的「位置」,並且自動發現並區分這兩種關聯型別。DenseAV的定位能力來自於一種新的多頭特徵聚合運算子,它直接比較密集的影象和音訊表示進行對比學習。
AV-HuBERT是一個自監督表示學習框架,專門用於音視覺語音處理。它在LRS3音視覺語音基準測試中實現了最先進的唇讀、自動語音識別(ASR)和音視覺語音識別結果。該框架透過掩蔽多模態聚類預測來學習音視覺語音表示,並且提供了魯棒的自監督音視覺語音識別。