InternVL:開源視覺基礎模型

Link:https://github.com/OpenGVLab/InternVL

InternVL透過將ViT模型擴充套件到60億引數並與語言模型對齊,構建出目前最大的14B開源視覺基礎模型,在視覺感知、跨模態檢索、多模態對話等廣泛任務上取得了32項state-of-the-art效能。

需求人群:

  • 計算機視覺研究
  • 多模態應用開發

使用場景示例:

  • 使用InternViT-6B進行影象分類
  • 使用InternVL-C進行影象文字檢索
  • 使用InternVL-Chat進行視覺問答

產品特色:

  • 影象分類
  • 語義分割
  • 影片分類
  • 影象文字檢索
  • 視覺語言建模
返回頂端