ml-ferret:端到端MLLM,實現精準引用和定位

Link:ml-ferret
ml-ferret是一個端到端的機器學習語言模型(MLLM),能夠接受各種形式的引用並響應性地在多模態環境中進行精準定位。它結合了混合區域表示和空間感知的視覺取樣器,支援細粒度和開放詞彙的引用和定位。此外,ml-ferret還包括GRIT資料集(約110萬個樣本)和Ferret-Bench評估基準。

需求人群:

"多模態學習、機器視覺、AI研究、資料分析"

使用場景示例:

AI研究中的多模態資料分析

機器視覺系統的訓練和最佳化

高階資料處理和模式識別

產品特色:

混合區域表示

空間感知視覺取樣器

細粒度和開放詞彙的引用定位

包含大規模GRIT資料集

Ferret-Bench多模態評估基準

返回頂端