Link:https://huggingface.co/papers/2401.13388
UNIMO-G是一個簡單的多模態條件擴散框架,用於處理交錯的文字和視覺輸入。它包括兩個核心元件:用於編碼多模態提示的多模態大語言模型(MLLM)和用於基於編碼的多模態輸入生成影象的條件去噪擴散網路。我們利用兩階段訓練策略來有效地訓練該框架:首先在大規模文字-影象對上進行預訓練,以開發條件影象生成能力,然後使用多模態提示進行指導調整,以實現統一影象生成能力。我們採用了精心設計的資料處理流程,包括語言接地和影象分割,用於構建多模態提示。UNIMO-G在文字到影象生成和零樣本主題驅動合成方面表現出色,並且在生成涉及多個影象實體的複雜多模態提示的高保真影象方面非常有效。
需求人群:
- UNIMO-G可用於文字到影象生成、零樣本主題驅動合成等場景。
使用場景示例:
- 使用UNIMO-G模型生成包含多個影象實體的複雜多模態提示的高保真影象。
- 利用UNIMO-G進行文字到影象的生成。
- UNIMO-G在零樣本主題驅動合成方面表現出色。
產品特色:
- 處理交錯的文字和視覺輸入
- 生成影象
- 預訓練和指導調整的兩階段訓練策略
- 語言接地和影象分割的資料處理流程