視覺模型 Archives - AI書籤-全球ai人工智慧產品和服務

LongVA：從語言到視覺的長上下文轉換模型

LongVA是一個能夠處理超過2000幀或超過200K視覺標記的長上下文轉換模型。它在Video-MME中的表現在7B模型中處於領先地位。該模型基於CUDA 11.8和A100-SXM-80G進行了測試，並且可以透過Hugging Face平臺進行快速啟動和使用。

Florence-2-large：先進的視覺基礎模型，支援多種視覺和視覺-語言任務

多工學習, 視覺模型

Florence-2-large是由微軟開發的先進視覺基礎模型，採用基於提示的方法處理廣泛的視覺和視覺-語言任務。該模型能夠解釋簡單的文本提示來執行如影象描述、目標偵測和分割等任務。它利用包含54億註釋的5.4億影象的FLD-5B資料集，精通多工學習。其序列到序列的架構使其在零樣本和微調設定中均表現出色，證明是一個有競爭力的視覺基礎模型。

Florence-2-base：先進的視覺基礎模型，支援多種視覺和視覺-語言任務

視覺模型, 多工學習

Florence-2是由微軟開發的高階視覺基礎模型，採用基於提示的方法處理廣泛的視覺和視覺-語言任務。該模型能夠解釋簡單的文本提示，執行如描述、目標偵測和分割等任務。它利用包含54億個註釋的5.4億張影象的FLD-5B資料集，精通多工學習。模型的序列到序列架構使其在零樣本和微調設定中都表現出色，證明其為有競爭力的視覺基礎模型。

Florence-2：一種統一的視覺任務基礎模型

多工學習, 視覺模型

Florence-2是一個新型的視覺基礎模型，它透過統一的、基於提示的表示方式，能夠處理多種電腦視覺和視覺-語言任務。它設計為接受文本提示作為任務指令，並以文本形式生成期望的結果，無論是影象描述、目標偵測、定位還是分割。這種多工學習設定需要大規模、高質量的註釋資料。

llama3v：基於llama3 8B的SOTA視覺模型

多模態學習, 視覺模型

llama3v是一個基於Llama3 8B和siglip-so400m的SOTA（State of the Art，即最先進技術）視覺模型。它是一個開源的VLLM（視覺語言多模態學習模型），在Huggingface上提供模型權重，支援快速本地推理，併發布了推理程式碼。

這篇論文介紹了AIM，這是一組使用自迴歸目標進行預訓練的視覺模型。這些模型受其文字對應物，即大型語言模型（LLMs）的啟發，並表現出類似的擴充套件特性。具體來說，我們強調了兩個關鍵發現：（1）視覺特徵的效能隨著模型容量和資料量的增加而提高，（2）目標函式的價值與模型在下游任務上的效能相關。我們透過在20億張影象上對70億引數的AIM進行預訓練，實現了在ImageNet-1k上使用凍結主幹達到84.0%的準確率。有趣的是，即使在這個規模上，我們觀察到效能沒有飽和的跡象，這表明AIM可能代表了訓練大規模視覺模型的新前沿。AIM的預訓練類似於LLMs的預訓練，並不需要任何影象特定的策略來穩定大規模訓練。

視覺模型

LongVA：從語言到視覺的長上下文轉換模型

Florence-2-large：先進的視覺基礎模型，支援多種視覺和視覺-語言任務

Florence-2-base：先進的視覺基礎模型，支援多種視覺和視覺-語言任務

Florence-2：一種統一的視覺任務基礎模型

llama3v：基於llama3 8B的SOTA視覺模型

AIM：大規模自迴歸影象模型預訓練