LayerDiffusion:用SD直接生成透明的 PNG 圖片
LayerDiffusion 是一種使大規模預訓練潛在擴散模型能夠生成透明影象的方法。該方法允許生成單個透明影象或多個透明圖層。它學習了一種 “潛在透明度”,將 Alpha 通道透明度編碼到預訓練潛在擴散模型的潛在空間中。透過將新增的透明度調節為潛在偏移,最小程度地改變預訓練模型的原始潛在分佈,以保留大型擴散模型的生產就緒質量。透過調整潛在空間對其進行微調,可以將任何潛在擴散模型轉換為透明影象生成器。我們使用人機協作收集的 100 萬個透明影象層對對模型進行訓練。我們展示了潛在透明度可以應用於不同的開源影象生成器,或者適應於各種條件控制系統,實現前景 / 背景條件圖層生成,聯合圖層生成,圖層內容結構控制等應用。使用者研究發現,在大多數情況下(97%),使用者更喜歡我們本地生成的透明內容,而不是之前的臨時解決方案,比如生成然後摳圖。使用者還報告說,我們生成的透明影象的質量與 Adobe Stock 等真實商業透明資產相媲美。