PIXART:4K文字到影象生成的擴散變換器模型(Diffusion Transformer)

Link:pixart
PIXART-Σ是一個直接生成4K解析度影象的擴散變換器模型,相較於前身PixArt-α,它提供了更高的影象保真度和與文字提示更好的對齊。PIXART-Σ的關鍵特性包括高效的訓練過程,它透過結合更高質量的資料,從“較弱”的基線模型進化到“更強”的模型,這一過程被稱為“弱到強訓練”。PIXART-Σ的改進包括使用更高質量的訓練資料和高效的標記壓縮。

需求人群:

"適用於需要生成高解析度影象的應用,如電影、遊戲和高質量視覺內容製作。"

使用場景示例:

建立高解析度的電影海報和壁紙

為遊戲設計高質量的視覺內容

根據文字描述生成藝術作品

產品特色:

4K文字到影象生成

弱到強訓練過程

高效的標記壓縮

返回頂端