視覺-語言模型 Archives - AI書籤-全球ai人工智慧產品和服務

Florence-2-base-ft：先進的視覺基礎模型，支援多種視覺和視覺-語言任務

Florence-2是由微軟開發的高階視覺基礎模型，採用基於提示的方法處理廣泛的視覺和視覺-語言任務。該模型能夠解釋簡單的文本提示，執行諸如影象描述、目標偵測和分割等任務。它利用FLD-5B資料集，包含54億個註釋，覆蓋1.26億張影象，精通多工學習。其序列到序列的架構使其在零樣本和微調設定中均表現出色，證明是一個有競爭力的視覺基礎模型。

PixelProse：大規模影象描述資料集，提供超過16M的合成影象描述

影象描述, 視覺-語言模型

PixelProse是一個由tomg-group-umd建立的大規模資料集，它利用先進的視覺-語言模型Gemini 1.0 Pro Vision生成了超過1600萬個詳細的影象描述。這個資料集對於開發和改進影象到文本的轉換技術具有重要意義，可以用於影象描述生成、視覺問答等任務。

EVE：編碼器自由的視覺-語言模型，高效且資料驅動

視覺-語言模型

EVE是一個編碼器自由的視覺-語言模型，由大連理工大學、北京人工智慧研究院和北京大學的研究人員共同開發。它在不同影象寬高比下展現出卓越的能力，效能超越了Fuyu-8B，並且接近模組化編碼器基礎的LVLMs。

RL4VLM：透過強化學習微調大型視覺-語言模型作為決策代理

強化學習, 視覺-語言模型

RL4VLM是一個開源專案，旨在透過強化學習微調大型視覺-語言模型，使其成為能夠做出決策的智慧代理。該專案由Yuexiang Zhai, Hao Bai, Zipeng Lin, Jiayi Pan, Shengbang Tong, Alane Suhr, Saining Xie, Yann LeCun, Yi Ma, Sergey Levine等研究人員共同開發。