Video-MME:首個全面評估多模態大型語言模型在影片分析中的效能基準

連結:https://video-mme.github.io

Video-MME是一個專注於多模態大型語言模型(MLLMs)在影片分析領網網域效能評估的基準測試。它填補了現有評估方法中對MLLMs處理連續視覺資料能力的空白,為研究者提供了一個高質量和全面的評估平臺。該基準測試覆蓋了不同長度的影片,並針對MLLMs的核心能力進行了評估。

需求人群:

Video-MME的目標受眾是人工智慧領網網域的研究者和開發者,特別是那些專注於影片理解和多模態互動的專業人士。它為這些使用者提供了一個標準化的測試平臺,幫助他們評估和改進自己的MLLMs模型。

使用場景示例:

  • Gemini 1.5 Pro在不同影片長度和子類別別別中的準確度評分
  • GPT-4o和GPT-4V在影片分析任務中的表現對比
  • LLaVA-NeXT-Video模型在不同影片任務中的評分結果

產品特色:

  • 提供短、中、長影片的準確度評分
  • 包含6個主要領網網域和30個子類別別別的影片型別
  • 全面覆蓋影片長度和任務型別
  • 新收集並由人工標註的資料,非現有影片資料集
  • 提供影片類別層級和影片時長及任務型別分佈的統計資訊
  • 與其他基準測試進行比較,突出Video-MME的獨特優勢
返回頂端