Link:unified-io-2
Unified-IO 2是一個統一的多模態生成模型,能夠理解和生成影象、文字、音訊和動作。它使用單個編碼器-解碼器Transformer模型,將不同模式(影象、文字、音訊、動作等)的輸入和輸出都表示為一個共享的語義空間進行處理。該模型從頭開始在大規模的多模態預訓練語料上進行訓練,使用了多模態的去噪目標進行最佳化。為了學會廣泛的技能,該模型還在120個現有資料集上進行微調,這些資料集包含提示和資料增強。Unified-IO 2在GRIT基準測試中達到了最先進的效能,在30多個基準測試中都取得了強勁的結果,包括影象生成和理解、文字理解、影片和音訊理解以及機器人操作。
需求人群:
"通用人工智慧"
使用場景示例:
根據提示描述並生成影象
理解影片中的內容
根據音訊生成文字描述
產品特色:
影象 caption
執行自由形式指令
影象編輯
對象檢測
語義分割
表面法線估計
基於影象的音訊生成