生成編輯框架 Archives - AI書籤-全球ai人工智慧產品和服務

RPG-DiffusionMaster：文字到影象生成/編輯框架

RPG-DiffusionMaster是一個全新的無需訓練的文字到影象生成/編輯框架，利用多模態LLM的鏈式推理能力增強文字到影象擴散模型的組合性。該框架採用MLLM作為全域性規劃器，將複雜影象生成過程分解為多個子區域內的簡單生成任務。同時提出了互補的區域擴散以實現區域化的組合生成。此外，在提出的RPG框架中閉環地整合了文字引導的影象生成和編輯，從而增強了泛化能力。大量實驗證明，RPG-DiffusionMaster在多類別對象組合和文字-影象語義對齊方面優於DALL-E 3和SDXL等最先進的文字到影象擴散模型。特別地，RPG框架與各種MLLM架構（例如MiniGPT-4）和擴散骨幹（例如ControlNet）相容性廣泛。