Google Vision Transformer:基於 Transformer 的影象識別模型

Link:google-vision-transformer
Google Vision Transformer 是一款基於 Transformer 編碼器的影象識別模型,使用大規模影象資料進行預訓練,可用於影象分類等任務。該模型在 ImageNet-21k 資料集上進行了預訓練,並在 ImageNet 資料集上進行了微調,具備良好的影象特徵提取能力。該模型透過將影象切分為固定大小的影象塊,併線性嵌入這些影象塊來處理影象資料。同時,模型在輸入序列前新增了位置編碼,以便在 Transformer 編碼器中處理序列資料。使用者可以透過在預訓練的編碼器之上新增線性層進行影象分類等任務。Google Vision Transformer 的優勢在於其強大的影象特徵學習能力和廣泛的適用性。該模型免費提供使用。

需求人群:

適用於影象分類、目標檢測和影象分割等場景

產品特色:

基於 Transformer 的影象特徵提取

支援影象分類等任務

預訓練模型可用於遷移學習

適用於大規模影象資料

返回頂端