VideoPrism:影片理解基礎模型

Link:videoprism
VideoPrism是一個通用的影片編碼模型,能夠在各種影片理解任務上取得領先的效能,包括分類、定位、檢索、字幕生成和問答等。其創新點在於預訓練的資料集非常大且多樣,包含3600萬高質量的影片-文字對,以及5.82億帶有嘈雜文字的影片剪輯。預訓練採用兩階段策略,先利用對比學習匹配影片和文字,然後預測遮蔽的影片塊,充分利用不同的監督訊號。一個固定的VideoPrism模型可以直接適配到下游任務,並在30個影片理解基準上重新整理狀態最優成績。

需求人群:

"- 影片分類、定位\n- 影片檢索\n- 影片字幕生成\n- 影片問答\n- 科學影片分析"

使用場景示例:

"- 利用VideoPrism進行影片分類,實現動作識別\n- 應用VideoPrism提取影片特徵,檢索相似影片\n- 基於VideoPrism為影片自動生成描述文字\n- 與語言模型結合,構建影片問答系統"

產品特色:

– 預訓練資料包含3600萬高質量影片-文字對,5820萬帶嘈雜文字的影片剪輯,資料規模最大、質量最高
– 採用兩階段預訓練策略,對比學習匹配影片和文字,預測遮蔽的影片塊
– 一個固定模型直接適配下游任務,無需調參和微調
– 在30個影片理解基準上重新整理最優記錄

返回頂端