音視覺處理 Archives - AI書籤-全球ai人工智慧產品和服務

AV-HuBERT：自監督學習框架，用於音視覺語音處理

AV-HuBERT是一個自監督表示學習框架，專門用於音視覺語音處理。它在LRS3音視覺語音基準測試中實現了最先進的唇讀、自動語音識別（ASR）和音視覺語音識別結果。該框架透過掩蔽多模態聚類預測來學習音視覺語音表示，並且提供了魯棒的自監督音視覺語音識別。