Florence-2-large:先進的視覺基礎模型,支援多種視覺和視覺-語言任務

連結:https://huggingface.co/microsoft/Florence-2-large

Florence-2-large是由微軟開發的先進視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺-語言任務。該模型能夠解釋簡單的文本提示來執行如影象描述、目標偵測和分割等任務。它利用包含54億註釋的5.4億影象的FLD-5B資料集,精通多工學習。其序列到序列的架構使其在零樣本和微調設定中均表現出色,證明是一個有競爭力的視覺基礎模型。

需求人群:

“Florence-2-large模型適合需要進行影象分析和理解的開發者和研究人員。無論是在學術研究中探索視覺辨識的前沿,還是在商業應用中實作影象內容的自動標註和描述,該模型都能提供強大的支援。”

使用場景示例:

在社交媒體上自動為圖片生成描述性文字。

為電子商務網站提供商品圖片的目標偵測和分類服務。

在自動駕駛領網網域中,用於道路和交通標誌的辨識。

產品特色:

影象描述:根據影象內容生成描述性文本。

目標偵測:辨識影象中的物體並標註其位置。

分割:區分影象中的不同區網網域,如物體和背景。

密集區網網域描述:為影象中的密集區網網域生成詳細描述。

區網網域提議:提出影象中可能包含物體的區網網域。

OCR:從影象中辨識和提取文本。

OCR與區網網域:結合區網網域資訊進行文本辨識。

使用教學:

匯入必要的庫,如requests、PIL、Image和transformers。

使用AutoModelForCausalLM和AutoProcessor從預訓練模型中載入Florence-2-large模型。

定義需要執行的任務提示,例如影象描述或目標偵測。

載入或獲取需要處理的影象資料。

透過模型和處理器將文本提示和影象資料轉換為模型可接受的輸入格式。

呼叫模型的generate方法生成結果。

使用處理器的batch_decode方法將生成的ID轉換為文本。

根據任務型別,使用後處理方法解析生成的文本,獲取最終結果。

返回頂端