GLIGEN:開放式基於提示的影象生成

Link:gligen
GLIGEN是一個開放式的基於文字提示的影象生成模型,它可以基於文字描述和邊界框等限定條件生成影象。該模型透過凍結預訓練好的文字到影象Diffusion模型的引數,並在其中插入新的資料來實現。這種模組化設計可以高效地進行訓練,並具有很強的推理靈活性。GLIGEN可以支援開放世界的有條件影象生成,對新出現的概念和佈局也具有很強的泛化能力。

需求人群:

["條件影象生成","影象編輯","影象修復"]

使用場景示例:

輸入文字描述“一隻大貓坐在椅子右邊”,以及貓的邊界框,生成貓的影象

輸入汽車影象作為樣式遷移條件,生成具有相似風格汽車的新影象

利用影象的語義分割圖作為條件,生成遵循語義圖的新影象

產品特色:

基於文字描述和邊界框生成影象

支援計劃取樣,平衡生成質量和條件約束

支援基於影象的樣式遷移生成

返回頂端