Video-LLaVA:學習聯合視覺表示透過對齊前投影 機器學習, 視覺理解 Video-LLaVA 是一個用於學習聯合視覺表示的模型,透過對齊前投影進行訓練。它可以將影片和影象表示進行對齊,從而實現更好的視覺理解。該模型具有高效的學習和推理速度,適用於影片處理和視覺任務。