LongVA:從語言到視覺的長上下文轉換模型
LongVA是一個能夠處理超過2000幀或超過200K視覺標記的長上下文轉換模型。它在Video-MME中的表現在7B模型中處於領先地位。該模型基於CUDA 11.8和A100-SXM-80G進行了測試,並且可以透過Hugging Face平臺進行快速啟動和使用。
LongVA是一個能夠處理超過2000幀或超過200K視覺標記的長上下文轉換模型。它在Video-MME中的表現在7B模型中處於領先地位。該模型基於CUDA 11.8和A100-SXM-80G進行了測試,並且可以透過Hugging Face平臺進行快速啟動和使用。
Florence-2-large是由微軟開發的先進視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺-語言任務。該模型能夠解釋簡單的文本提示來執行如影象描述、目標偵測和分割等任務。它利用包含54億註釋的5.4億影象的FLD-5B資料集,精通多工學習。其序列到序列的架構使其在零樣本和微調設定中均表現出色,證明是一個有競爭力的視覺基礎模型。
Florence-2是由微軟開發的高階視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺-語言任務。該模型能夠解釋簡單的文本提示,執行如描述、目標偵測和分割等任務。它利用包含54億個註釋的5.4億張影象的FLD-5B資料集,精通多工學習。模型的序列到序列架構使其在零樣本和微調設定中都表現出色,證明其為有競爭力的視覺基礎模型。
Florence-2是一個新型的視覺基礎模型,它透過統一的、基於提示的表示方式,能夠處理多種電腦視覺和視覺-語言任務。它設計為接受文本提示作為任務指令,並以文本形式生成期望的結果,無論是影象描述、目標偵測、定位還是分割。這種多工學習設定需要大規模、高質量的註釋資料。
llama3v是一個基於Llama3 8B和siglip-so400m的SOTA(State of the Art,即最先進技術)視覺模型。它是一個開源的VLLM(視覺語言多模態學習模型),在Huggingface上提供模型權重,支援快速本地推理,併發布了推理程式碼。
這篇論文介紹了AIM,這是一組使用自迴歸目標進行預訓練的視覺模型。這些模型受其文字對應物,即大型語言模型(LLMs)的啟發,並表現出類似的擴充套件特性。具體來說,我們強調了兩個關鍵發現:(1)視覺特徵的效能隨著模型容量和資料量的增加而提高,(2)目標函式的價值與模型在下游任務上的效能相關。我們透過在20億張影象上對70億引數的AIM進行預訓練,實現了在ImageNet-1k上使用凍結主幹達到84.0%的準確率。有趣的是,即使在這個規模上,我們觀察到效能沒有飽和的跡象,這表明AIM可能代表了訓練大規模視覺模型的新前沿。AIM的預訓練類似於LLMs的預訓練,並不需要任何影象特定的策略來穩定大規模訓練。