Large World Models:大型世界模型,理解影片與語言

Link:large-world-models
Large World Models是一個利用RingAttention技術訓練的神經網路,專注於處理長影片和語言序列,以理解人類知識和多模態世界。它透過大規模資料集訓練,實現了前所未有的上下文大小,並開源了一系列70億引數的模型,能夠處理超過100萬標記的文字和影片。

需求人群:

["影片內容分析","長文字生成","多模態資料研究"]

使用場景示例:

分析超過1小時的YouTube影片內容

基於文字提示生成影象和影片

回答關於複雜多模態世界的問題

產品特色:

長影片理解

長文書處理

多模態學習

視覺-語言互動

返回頂端