文本到影象

PixArt-Sigma:4K文字到影象生成的擴散變換器

PixArt-Sigma是一個基於PyTorch的模型定義、預訓練權重和推理/取樣程式碼的集合,用於探索4K文本到影象生成的弱到強訓練擴散變換器。它支援從低解析度到高解析度的影象生成,提供了多種功能和優勢,如快速體驗、使用者友好的程式碼庫和多種模型選擇。

ID-Aligner:一種用於增強身份保留文字到影象生成的反饋學習框架

ID-Aligner 是一種用於增強身份保留文本到影象生成的反饋學習框架,它透過獎勵反饋學習來解決身份特徵保持、生成影象的審美吸引力以及與LoRA和Adapter方法的相容性問題。該方法利用面部偵測和辨識模型的反饋來提高生成的身份保留,並透過人類標註偏好資料和自動構建的反饋來提供審美調整訊號。

AsyncDiff:非同步去噪並行化擴散模型

AsyncDiff 是一種用於並行化擴散模型的非同步去噪加速方案,它透過將噪音預測模型分割成多個元件並分配到不同的設備上,實作了模型的並行處理。這種方法顯著減少了推理延遲,同時對生成質量的影響很小。AsyncDiff 支援多種擴散模型,包括 Stable Diffusion 2.1、Stable Diffusion 1.5、Stable Diffusion x4 Upscaler、Stable Diffusion XL 1.0、ControlNet、Stable Video Diffusion 和 AnimateDiff。

SDXL Flash:高效能的文本到影象生成模型

SDXL Flash是由SD社群與Project Fluently合作推出的文本到影象生成模型。它在保持生成影象質量的同時,提供了比LCM、Turbo、Lightning和Hyper更快的處理速度。該模型基於Stable Diffusion XL技術,透過最佳化步驟和CFG(Guidance)引數,實作了影象生成的高效率和高質量。

返回頂端