影片合成

Lumiere:影片生成的時空擴散模型

Lumiere是一個文字到影片擴散模型,旨在合成展現真實、多樣和連貫運動的影片,解決影片合成中的關鍵挑戰。我們引入了一種空時U-Net架構,可以一次性生成整個影片的時間持續,透過模型的單次傳遞。這與現有的影片模型形成對比,後者合成遠距離的關鍵幀,然後進行時間超解析度處理,這種方法本質上使得全域性時間一致性難以實現。透過部署空間和(重要的是)時間的下采樣和上取樣,並利用預訓練的文字到影象擴散模型,我們的模型學會直接生成多個時空尺度下的全幀率、低解析度影片。我們展示了最先進的文字到影片生成結果,並展示了我們的設計輕鬆促進了各種內容創作任務和影片編輯應用,包括影象到影片、影片修補和風格化生成。

Snap Video:Snap影片:用於文字到影片合成的可擴充套件空間時間轉換器

Snap影片是一個影片優先的模型,透過延伸EDM框架系統地解決影片生成域中的運動保真度、視覺質量和可擴充套件性等挑戰。該模型利用幀間的冗餘資訊,提出了一個可伸縮的transformer架構,將空間和時間維度作為一個高度壓縮的1D潛在向量,從而有效地進行空間時間聯合建模,合成時間連貫性強、運動複雜的影片。這種架構使模型可以高效訓練,達到數十億引數規模,在多項基準測試中取得最優效果。

返回頂端