Link:gligen
GLIGEN是一個開放式的基於文字提示的影象生成模型,它可以基於文字描述和邊界框等限定條件生成影象。該模型透過凍結預訓練好的文字到影象Diffusion模型的引數,並在其中插入新的資料來實現。這種模組化設計可以高效地進行訓練,並具有很強的推理靈活性。GLIGEN可以支援開放世界的有條件影象生成,對新出現的概念和佈局也具有很強的泛化能力。
需求人群:
["條件影象生成","影象編輯","影象修復"]
使用場景示例:
輸入文字描述“一隻大貓坐在椅子右邊”,以及貓的邊界框,生成貓的影象
輸入汽車影象作為樣式遷移條件,生成具有相似風格汽車的新影象
利用影象的語義分割圖作為條件,生成遵循語義圖的新影象
產品特色:
基於文字描述和邊界框生成影象
支援計劃取樣,平衡生成質量和條件約束
支援基於影象的樣式遷移生成