InternVL：開源視覺基礎模型

基礎模型開源

Link：https://github.com/OpenGVLab/InternVL

InternVL透過將ViT模型擴充套件到60億引數並與語言模型對齊,構建出目前最大的14B開源視覺基礎模型,在視覺感知、跨模態檢索、多模態對話等廣泛任務上取得了32項state-of-the-art效能。

需求人群：

計算機視覺研究
多模態應用開發

使用場景示例：

使用InternViT-6B進行影象分類
使用InternVL-C進行影象文字檢索
使用InternVL-Chat進行視覺問答

產品特色：

影象分類
語義分割
影片分類
影象文字檢索
視覺語言建模