AV-HuBERT:自監督學習框架,用於音視覺語音處理

AV-HuBERT是一個自監督表示學習框架,專門用於音視覺語音處理。它在LRS3音視覺語音基準測試中實現了最先進的唇讀、自動語音識別(ASR)和音視覺語音識別結果。該框架透過掩蔽多模態聚類預測來學習音視覺語音表示,並且提供了魯棒的自監督音視覺語音識別。