Unified-IO 2:統一的多模態生成模型

Link:unified-io-2
Unified-IO 2是一個統一的多模態生成模型,能夠理解和生成影象、文字、音訊和動作。它使用單個編碼器-解碼器Transformer模型,將不同模式(影象、文字、音訊、動作等)的輸入和輸出都表示為一個共享的語義空間進行處理。該模型從頭開始在大規模的多模態預訓練語料上進行訓練,使用了多模態的去噪目標進行最佳化。為了學會廣泛的技能,該模型還在120個現有資料集上進行微調,這些資料集包含提示和資料增強。Unified-IO 2在GRIT基準測試中達到了最先進的效能,在30多個基準測試中都取得了強勁的結果,包括影象生成和理解、文字理解、影片和音訊理解以及機器人操作。

需求人群:

"通用人工智慧"

使用場景示例:

根據提示描述並生成影象

理解影片中的內容

根據音訊生成文字描述

產品特色:

影象 caption

執行自由形式指令

影象編輯

對象檢測

語義分割

表面法線估計

基於影象的音訊生成

返回頂端