影象合成

MagicClothing:基於LDM的服裝驅動影象合成AI

MagicClothing是一種基於潛在擴散模型(LDM)的新型網路架構,專門用於服裝驅動的影象合成任務。它能夠根據文本提示生成穿著特定服裝的定製化角色影象,同時確保服裝細節的保留和對文本提示的忠實呈現。

UltraPixel:超高畫質影象合成技術的新高峰

UltraPixel是一種先進的超高畫質影象合成技術,旨在推動影象解析度達到新的高度。這項技術由香港科技大學(廣州)、華為諾亞方舟實驗室、馬克斯·普朗克資訊學研究所等機構共同研發。它在影象合成、文本到影象的轉換、個性化定製等方面具有顯著優勢,能夠生成高達4096×4096解析度的影象,滿足專業影象處理和視覺藝術的需求。

Masked Diffusion Transformer (MDT):Masked Diffusion Transformer是影象合成的最新技術,為ICCV 2023的SOTA(State of the Art)

MDT透過引入掩碼潛在模型方案來顯式增強擴散機率模型(DPMs)在影象中對象部分之間關係學習的能力。MDT在訓練期間在潛在空間中操作,掩蔽某些標記,然後設計一個不對稱的擴散變換器來從未掩蔽的標記中預測掩蔽的標記,同時保持擴散生成過程。MDTv2進一步透過更有效的宏 巨集 巨集網路結構和訓練策略提高了MDT的效能。

InstantID:秒速零拍照生成身份保留

InstantID是一種基於強大擴散模型的解決方案,能夠在各種風格下使用單張面部影象進行影象個性化處理,同時確保高保真度。我們設計了一個新穎的IdentityNet,透過施加強大的語義和弱空間條件,將面部和地標影象與文字提示整合,引導影象生成。InstantID在實際應用中表現出色,並且能夠與流行的預訓練文字到影象擴散模型(如SD1.5和SDXL)無縫整合,作為一個可適配的外掛。我們的程式碼和預訓練檢查點將在此URL上提供。

Trajectory Consistency Distillation (TCD):提高文字到影象合成質量的一致性蒸餾技術

TCD是一種用於文字到影象合成的一致性蒸餾技術,它透過軌跡一致性函式(TCF)和策略性隨機取樣(SSS)來減少合成過程中的錯誤。TCD在低NFE(噪聲自由能量)時顯著提高影象質量,並在高NFE時保持比教師模型更詳細的結果。TCD不需要額外的判別器或LPIPS監督,即可在低NFE和高NFE時均保持優越的生成質量。

Orthogonal Finetuning (OFT):OFT可有效穩定微調文字到影象擴散模型

Controlling Text-to-Image Diffusion研究瞭如何有效引導或控制強大的文字到影象生成模型進行各種下游任務。提出了正交微調(OFT)方法,可以保持模型的生成能力。OFT可以保持神經元之間的超球面能量不變,防止模型坍塌。作者考慮了兩種重要的微調任務:主體驅動生成和可控生成。結果表明,OFT方法在生成質量和收斂速度上優於現有方法。

返回頂端