文本到影象 Archives - AI書籤-全球ai人工智慧產品和服務

PixArt-Sigma：4K文字到影象生成的擴散變換器

PixArt-Sigma是一個基於PyTorch的模型定義、預訓練權重和推理/取樣程式碼的集合，用於探索4K文本到影象生成的弱到強訓練擴散變換器。它支援從低解析度到高解析度的影象生成，提供了多種功能和優勢，如快速體驗、使用者友好的程式碼庫和多種模型選擇。

ID-Aligner：一種用於增強身份保留文字到影象生成的反饋學習框架

文本到影象, 身份保留

ID-Aligner 是一種用於增強身份保留文本到影象生成的反饋學習框架，它透過獎勵反饋學習來解決身份特徵保持、生成影象的審美吸引力以及與LoRA和Adapter方法的相容性問題。該方法利用面部偵測和辨識模型的反饋來提高生成的身份保留，並透過人類標註偏好資料和自動構建的反饋來提供審美調整訊號。

AsyncDiff 是一種用於並行化擴散模型的非同步去噪加速方案，它透過將噪音預測模型分割成多個元件並分配到不同的設備上，實作了模型的並行處理。這種方法顯著減少了推理延遲，同時對生成質量的影響很小。AsyncDiff 支援多種擴散模型，包括 Stable Diffusion 2.1、Stable Diffusion 1.5、Stable Diffusion x4 Upscaler、Stable Diffusion XL 1.0、ControlNet、Stable Video Diffusion 和 AnimateDiff。

Stable Diffusion 3 Medium：先進的文本到影象AI模型，實作高質量影象生成

影象生成, 文本到影象

Stable Diffusion 3 Medium是Stability AI迄今為止釋出的最先進文本到影象生成模型。它具有2億引數，提供出色的細節、色彩和光照效果，支援多種風格。模型對長文本和複雜提示的理解能力強，能夠生成具有空間推理、構圖元素、動作和風格的影象。

SDXL Flash：高效能的文本到影象生成模型

影象生成, 文本到影象

SDXL Flash是由SD社群與Project Fluently合作推出的文本到影象生成模型。它在保持生成影象質量的同時，提供了比LCM、Turbo、Lightning和Hyper更快的處理速度。該模型基於Stable Diffusion XL技術，透過最佳化步驟和CFG（Guidance）引數，實作了影象生成的高效率和高質量。

Slicedit：使用時空切片基於文本的影片編輯技術，

影片編輯, 文本到影象

Slicedit是一種零樣本影片編輯技術，它利用文本到影象的擴散模型，並結合時空切片來增強影片編輯中的時序一致性。該技術能夠保留原始影片的結構和運動，同時符合目標文本描述。透過廣泛的實驗，證明了Slicedit在編輯真實世界影片方面具有明顯優勢。

文本到影象

PixArt-Sigma：4K文字到影象生成的擴散變換器

ID-Aligner：一種用於增強身份保留文字到影象生成的反饋學習框架

AsyncDiff：非同步去噪並行化擴散模型

Stable Diffusion 3 Medium：先進的文本到影象AI模型，實作高質量影象生成

SDXL Flash：高效能的文本到影象生成模型

Slicedit：使用時空切片基於文本的影片編輯技術，