Florence-2-base-ft:先進的視覺基礎模型,支援多種視覺和視覺-語言任務
Florence-2是由微軟開發的高階視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺-語言任務。該模型能夠解釋簡單的文本提示,執行諸如影象描述、目標偵測和分割等任務。它利用FLD-5B資料集,包含54億個註釋,覆蓋1.26億張影象,精通多工學習。其序列到序列的架構使其在零樣本和微調設定中均表現出色,證明是一個有競爭力的視覺基礎模型。
Florence-2是由微軟開發的高階視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺-語言任務。該模型能夠解釋簡單的文本提示,執行諸如影象描述、目標偵測和分割等任務。它利用FLD-5B資料集,包含54億個註釋,覆蓋1.26億張影象,精通多工學習。其序列到序列的架構使其在零樣本和微調設定中均表現出色,證明是一個有競爭力的視覺基礎模型。
PixelProse是一個由tomg-group-umd建立的大規模資料集,它利用先進的視覺-語言模型Gemini 1.0 Pro Vision生成了超過1600萬個詳細的影象描述。這個資料集對於開發和改進影象到文本的轉換技術具有重要意義,可以用於影象描述生成、視覺問答等任務。
EVE是一個編碼器自由的視覺-語言模型,由大連理工大學、北京人工智慧研究院和北京大學的研究人員共同開發。它在不同影象寬高比下展現出卓越的能力,效能超越了Fuyu-8B,並且接近模組化編碼器基礎的LVLMs。
RL4VLM是一個開源專案,旨在透過強化學習微調大型視覺-語言模型,使其成為能夠做出決策的智慧代理。該專案由Yuexiang Zhai, Hao Bai, Zipeng Lin, Jiayi Pan, Shengbang Tong, Alane Suhr, Saining Xie, Yann LeCun, Yi Ma, Sergey Levine等研究人員共同開發。