AIM：大規模自迴歸影象模型預訓練

Link：aim
這篇論文介紹了AIM，這是一組使用自迴歸目標進行預訓練的視覺模型。這些模型受其文字對應物，即大型語言模型（LLMs）的啟發，並表現出類似的擴充套件特性。具體來說，我們強調了兩個關鍵發現：（1）視覺特徵的效能隨著模型容量和資料量的增加而提高，（2）目標函式的價值與模型在下游任務上的效能相關。我們透過在20億張影象上對70億引數的AIM進行預訓練，實現了在ImageNet-1k上使用凍結主幹達到84.0%的準確率。有趣的是，即使在這個規模上，我們觀察到效能沒有飽和的跡象，這表明AIM可能代表了訓練大規模視覺模型的新前沿。AIM的預訓練類似於LLMs的預訓練，並不需要任何影象特定的策略來穩定大規模訓練。

需求人群：

"適用於大規模影象資料的自迴歸預訓練，以及需要訓練大規模視覺模型的場景。"

使用場景示例：

用於自動駕駛系統中的大規模影象識別

在醫學影像分析中的大規模資料預訓練

應用於智慧監控系統的大規模視覺模型訓練

產品特色：

自迴歸影象模型預訓練

大規模視覺模型訓練

效能最佳化和擴充套件

AIM：大規模自迴歸影象模型預訓練

其他相關AI產品