PixArt-Sigma:4K文字到影象生成的擴散變換器
PixArt-Sigma是一個基於PyTorch的模型定義、預訓練權重和推理/取樣程式碼的集合,用於探索4K文本到影象生成的弱到強訓練擴散變換器。它支援從低解析度到高解析度的影象生成,提供了多種功能和優勢,如快速體驗、使用者友好的程式碼庫和多種模型選擇。
PixArt-Sigma是一個基於PyTorch的模型定義、預訓練權重和推理/取樣程式碼的集合,用於探索4K文本到影象生成的弱到強訓練擴散變換器。它支援從低解析度到高解析度的影象生成,提供了多種功能和優勢,如快速體驗、使用者友好的程式碼庫和多種模型選擇。
ID-Aligner 是一種用於增強身份保留文本到影象生成的反饋學習框架,它透過獎勵反饋學習來解決身份特徵保持、生成影象的審美吸引力以及與LoRA和Adapter方法的相容性問題。該方法利用面部偵測和辨識模型的反饋來提高生成的身份保留,並透過人類標註偏好資料和自動構建的反饋來提供審美調整訊號。
AsyncDiff 是一種用於並行化擴散模型的非同步去噪加速方案,它透過將噪音預測模型分割成多個元件並分配到不同的設備上,實作了模型的並行處理。這種方法顯著減少了推理延遲,同時對生成質量的影響很小。AsyncDiff 支援多種擴散模型,包括 Stable Diffusion 2.1、Stable Diffusion 1.5、Stable Diffusion x4 Upscaler、Stable Diffusion XL 1.0、ControlNet、Stable Video Diffusion 和 AnimateDiff。
Stable Diffusion 3 Medium是Stability AI迄今為止釋出的最先進文本到影象生成模型。它具有2億引數,提供出色的細節、色彩和光照效果,支援多種風格。模型對長文本和複雜提示的理解能力強,能夠生成具有空間推理、構圖元素、動作和風格的影象。
SDXL Flash是由SD社群與Project Fluently合作推出的文本到影象生成模型。它在保持生成影象質量的同時,提供了比LCM、Turbo、Lightning和Hyper更快的處理速度。該模型基於Stable Diffusion XL技術,透過最佳化步驟和CFG(Guidance)引數,實作了影象生成的高效率和高質量。
Slicedit是一種零樣本影片編輯技術,它利用文本到影象的擴散模型,並結合時空切片來增強影片編輯中的時序一致性。該技術能夠保留原始影片的結構和運動,同時符合目標文本描述。透過廣泛的實驗,證明了Slicedit在編輯真實世界影片方面具有明顯優勢。