自監督學習

DenseAV:一種自監督的視聽特徵對齊模型

DenseAV是一種新穎的雙編碼器定位架構,透過觀看影片學習高解析度、語義有意義的視聽對齊特徵。它能夠無需明確定位監督即可發現單詞的「意義」和聲音的「位置」,並且自動發現並區分這兩種關聯型別。DenseAV的定位能力來自於一種新的多頭特徵聚合運算子,它直接比較密集的影象和音訊表示進行對比學習。

返回頂端