連結:https://video-mme.github.io
Video-MME是一個專注於多模態大型語言模型(MLLMs)在影片分析領網網域效能評估的基準測試。它填補了現有評估方法中對MLLMs處理連續視覺資料能力的空白,為研究者提供了一個高質量和全面的評估平臺。該基準測試覆蓋了不同長度的影片,並針對MLLMs的核心能力進行了評估。
需求人群:
Video-MME的目標受眾是人工智慧領網網域的研究者和開發者,特別是那些專注於影片理解和多模態互動的專業人士。它為這些使用者提供了一個標準化的測試平臺,幫助他們評估和改進自己的MLLMs模型。
使用場景示例:
- Gemini 1.5 Pro在不同影片長度和子類別別別中的準確度評分
- GPT-4o和GPT-4V在影片分析任務中的表現對比
- LLaVA-NeXT-Video模型在不同影片任務中的評分結果
產品特色:
- 提供短、中、長影片的準確度評分
- 包含6個主要領網網域和30個子類別別別的影片型別
- 全面覆蓋影片長度和任務型別
- 新收集並由人工標註的資料,非現有影片資料集
- 提供影片類別層級和影片時長及任務型別分佈的統計資訊
- 與其他基準測試進行比較,突出Video-MME的獨特優勢