LLaVA:大型語言和視覺助手,實現多模態聊天和科學問答

Link:https://llava-vl.github.io

LLaVA是一種新型的端到端訓練的大型多模態模型,將視覺編碼器和Vicuna相結合,實現了令人印象深刻的聊天能力,模仿多模態GPT-4的精神,並在科學問答方面取得了新的最高準確率。LLaVA的使用場景包括日常使用者應用的多模態聊天和科學領域的多模態推理。LLaVA的資料、程式碼和檢查點僅限於研究用途,並遵循CLIP、LLaMA、Vicuna和GPT-4的許可協議。

需求人群:

LLaVA適用於需要進行多模態聊天和科學問答的場景,例如日常使用者應用和科學領域的推理。

使用場景示例:

  • LLaVA可以回答關於蒙娜麗莎的問題,包括畫作的作者、畫作的特點和儲存在哪裡等。
  • LLaVA可以進行光學字元識別(OCR),並提供有關識別結果的詳細描述。
  • LLaVA可以進行視覺推理,例如在OpenAI GPT-4技術報告中的兩個示例。

產品特色:

  • 將視覺編碼器和Vicuna相結合,實現多模態聊天和科學問答
  • 使用語言-only GPT-4生成多模態語言-影象指令跟隨資料
  • 透過兩個階段的指令調整過程,實現預訓練和微調
  • 在視覺聊天和科學問答方面取得了令人印象深刻的表現
  • 提供資料、程式碼和檢查點的開源
返回頂端