SF-V:一種單步影片生成模型,實作高質量影片合成
SF-V是一種基於擴散的影片生成模型,透過對抗訓練最佳化預訓練模型,實作了單步生成高質量影片的能力。這種模型在保持影片資料的時間和空間依賴性的同時,顯著降低了去噪過程的計算成本,為實時影片合成和編輯鋪平了道路。
SF-V是一種基於擴散的影片生成模型,透過對抗訓練最佳化預訓練模型,實作了單步生成高質量影片的能力。這種模型在保持影片資料的時間和空間依賴性的同時,顯著降低了去噪過程的計算成本,為實時影片合成和編輯鋪平了道路。
Lumiere是一個文字到影片擴散模型,旨在合成展現真實、多樣和連貫運動的影片,解決影片合成中的關鍵挑戰。我們引入了一種空時U-Net架構,可以一次性生成整個影片的時間持續,透過模型的單次傳遞。這與現有的影片模型形成對比,後者合成遠距離的關鍵幀,然後進行時間超解析度處理,這種方法本質上使得全域性時間一致性難以實現。透過部署空間和(重要的是)時間的下采樣和上取樣,並利用預訓練的文字到影象擴散模型,我們的模型學會直接生成多個時空尺度下的全幀率、低解析度影片。我們展示了最先進的文字到影片生成結果,並展示了我們的設計輕鬆促進了各種內容創作任務和影片編輯應用,包括影象到影片、影片修補和風格化生成。
Snap影片是一個影片優先的模型,透過延伸EDM框架系統地解決影片生成域中的運動保真度、視覺質量和可擴充套件性等挑戰。該模型利用幀間的冗餘資訊,提出了一個可伸縮的transformer架構,將空間和時間維度作為一個高度壓縮的1D潛在向量,從而有效地進行空間時間聯合建模,合成時間連貫性強、運動複雜的影片。這種架構使模型可以高效訓練,達到數十億引數規模,在多項基準測試中取得最優效果。