AIM:大規模自迴歸影象模型預訓練

Link:aim
這篇論文介紹了AIM,這是一組使用自迴歸目標進行預訓練的視覺模型。這些模型受其文字對應物,即大型語言模型(LLMs)的啟發,並表現出類似的擴充套件特性。具體來說,我們強調了兩個關鍵發現:(1)視覺特徵的效能隨著模型容量和資料量的增加而提高,(2)目標函式的價值與模型在下游任務上的效能相關。我們透過在20億張影象上對70億引數的AIM進行預訓練,實現了在ImageNet-1k上使用凍結主幹達到84.0%的準確率。有趣的是,即使在這個規模上,我們觀察到效能沒有飽和的跡象,這表明AIM可能代表了訓練大規模視覺模型的新前沿。AIM的預訓練類似於LLMs的預訓練,並不需要任何影象特定的策略來穩定大規模訓練。

需求人群:

"適用於大規模影象資料的自迴歸預訓練,以及需要訓練大規模視覺模型的場景。"

使用場景示例:

用於自動駕駛系統中的大規模影象識別

在醫學影像分析中的大規模資料預訓練

應用於智慧監控系統的大規模視覺模型訓練

產品特色:

自迴歸影象模型預訓練

大規模視覺模型訓練

效能最佳化和擴充套件

返回頂端