LlamaGen:自迴歸模型在可擴充影象生成領網域的新突破

LlamaGen是一個新的影象生成模型家族,它將大型語言模型的原始下一個token預測範式應用於視覺生成領網域。該模型透過適當的擴充,無需對視覺訊號的歸納偏差即可實作最先進的影象生成效能。LlamaGen重新審視了影象分詞器的設計空間、影象生成模型的可擴充性屬性以及它們的訓練資料質量。