視覺-語言模型

Florence-2-base-ft:先進的視覺基礎模型,支援多種視覺和視覺-語言任務

Florence-2是由微軟開發的高階視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺-語言任務。該模型能夠解釋簡單的文本提示,執行諸如影象描述、目標偵測和分割等任務。它利用FLD-5B資料集,包含54億個註釋,覆蓋1.26億張影象,精通多工學習。其序列到序列的架構使其在零樣本和微調設定中均表現出色,證明是一個有競爭力的視覺基礎模型。

返回頂端