Link:ml-ferret
ml-ferret是一個端到端的機器學習語言模型(MLLM),能夠接受各種形式的引用並響應性地在多模態環境中進行精準定位。它結合了混合區域表示和空間感知的視覺取樣器,支援細粒度和開放詞彙的引用和定位。此外,ml-ferret還包括GRIT資料集(約110萬個樣本)和Ferret-Bench評估基準。
需求人群:
"多模態學習、機器視覺、AI研究、資料分析"
使用場景示例:
AI研究中的多模態資料分析
機器視覺系統的訓練和最佳化
高階資料處理和模式識別
產品特色:
混合區域表示
空間感知視覺取樣器
細粒度和開放詞彙的引用定位
包含大規模GRIT資料集
Ferret-Bench多模態評估基準