Link:https://github.com/OpenGVLab/InternVL
InternVL透過將ViT模型擴充套件到60億引數並與語言模型對齊,構建出目前最大的14B開源視覺基礎模型,在視覺感知、跨模態檢索、多模態對話等廣泛任務上取得了32項state-of-the-art效能。
需求人群:
- 計算機視覺研究
- 多模態應用開發
使用場景示例:
- 使用InternViT-6B進行影象分類
- 使用InternVL-C進行影象文字檢索
- 使用InternVL-Chat進行視覺問答
產品特色:
- 影象分類
- 語義分割
- 影片分類
- 影象文字檢索
- 視覺語言建模