自監督學習

DenseAV：一種自監督的視聽特徵對齊模型

DenseAV是一種新穎的雙編碼器定位架構，透過觀看影片學習高解析度、語義有意義的視聽對齊特徵。它能夠無需明確定位監督即可發現單詞的「意義」和聲音的「位置」，並且自動發現並區分這兩種關聯型別。DenseAV的定位能力來自於一種新的多頭特徵聚合運算子，它直接比較密集的影象和音訊表示進行對比學習。

AV-HuBERT是一個自監督表示學習框架，專門用於音視覺語音處理。它在LRS3音視覺語音基準測試中實現了最先進的唇讀、自動語音識別（ASR）和音視覺語音識別結果。該框架透過掩蔽多模態聚類預測來學習音視覺語音表示，並且提供了魯棒的自監督音視覺語音識別。