VSP-LLM:結合視覺語音處理與大型語言模型的框架
VSP-LLM是一個結合視覺語音處理(Visual Speech Processing)與大型語言模型(LLMs)的框架,旨在透過LLMs的強大能力最大化上下文建模能力。VSP-LLM設計用於執行視覺語音識別和翻譯的多工,透過自監督視覺語音模型將輸入影片對映到LLM的輸入潛在空間。該框架透過提出一種新穎的去重方法和低秩介面卡(LoRA),可以高效地進行訓練。
VSP-LLM是一個結合視覺語音處理(Visual Speech Processing)與大型語言模型(LLMs)的框架,旨在透過LLMs的強大能力最大化上下文建模能力。VSP-LLM設計用於執行視覺語音識別和翻譯的多工,透過自監督視覺語音模型將輸入影片對映到LLM的輸入潛在空間。該框架透過提出一種新穎的去重方法和低秩介面卡(LoRA),可以高效地進行訓練。