視覺模型

Florence-2-large:先進的視覺基礎模型,支援多種視覺和視覺-語言任務

Florence-2-large是由微軟開發的先進視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺-語言任務。該模型能夠解釋簡單的文本提示來執行如影象描述、目標偵測和分割等任務。它利用包含54億註釋的5.4億影象的FLD-5B資料集,精通多工學習。其序列到序列的架構使其在零樣本和微調設定中均表現出色,證明是一個有競爭力的視覺基礎模型。

Florence-2-base:先進的視覺基礎模型,支援多種視覺和視覺-語言任務

Florence-2是由微軟開發的高階視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺-語言任務。該模型能夠解釋簡單的文本提示,執行如描述、目標偵測和分割等任務。它利用包含54億個註釋的5.4億張影象的FLD-5B資料集,精通多工學習。模型的序列到序列架構使其在零樣本和微調設定中都表現出色,證明其為有競爭力的視覺基礎模型。

Florence-2:一種統一的視覺任務基礎模型

Florence-2是一個新型的視覺基礎模型,它透過統一的、基於提示的表示方式,能夠處理多種電腦視覺和視覺-語言任務。它設計為接受文本提示作為任務指令,並以文本形式生成期望的結果,無論是影象描述、目標偵測、定位還是分割。這種多工學習設定需要大規模、高質量的註釋資料。

AIM:大規模自迴歸影象模型預訓練

這篇論文介紹了AIM,這是一組使用自迴歸目標進行預訓練的視覺模型。這些模型受其文字對應物,即大型語言模型(LLMs)的啟發,並表現出類似的擴充套件特性。具體來說,我們強調了兩個關鍵發現:(1)視覺特徵的效能隨著模型容量和資料量的增加而提高,(2)目標函式的價值與模型在下游任務上的效能相關。我們透過在20億張影象上對70億引數的AIM進行預訓練,實現了在ImageNet-1k上使用凍結主幹達到84.0%的準確率。有趣的是,即使在這個規模上,我們觀察到效能沒有飽和的跡象,這表明AIM可能代表了訓練大規模視覺模型的新前沿。AIM的預訓練類似於LLMs的預訓練,並不需要任何影象特定的策略來穩定大規模訓練。

返回頂端