文字到影片

MorphStudio:幫助使用者透過文字提示創造出獨特的影片

Morph Studio是一個基於人工智慧的文字到影片生成平臺。它使用先進的演演算法,可以透過使用者提供的文字提示,自動生成高質量的影片。Morph Studio使創作者可以將自己的創意快速實現成動態的視覺內容。它極大地降低了影片製作的門檻,使用者無需具備專業技能和昂貴裝置,就可以創造出獨特的影片作品。此外,Morph Studio還提供了強大的自定義功能,使用者可以調整生成影片的長度、解析度、樣式等引數,輸出結果更符合自己的需求。總之,這是一款極具創新和顛覆性的人工智慧產品。

Sora AI Video:Sora AI 開發的純文字到影片生成模型

Sora 是 OpenAI 開發的文字到影片生成模型,能夠根據文字描述生成長達1分鐘的逼真影象序列。它具有理解和模擬物理世界運動的能力,目標是訓練出幫助人們解決需要實物互動的問題的模型。Sora 可以解釋長篇提示,根據文字輸入生成各種人物、動物、景觀和城市景象。它的缺點是難以準確描繪複雜場景的物理學以及理解因果關係。

Hotshot – ACT 1:文字到影片合成系統,賦予世界透過影片分享他們的想象力的能力

ACT 1(Advanced Cinematic Transformer)是一個由Hotshot Research開發的直接文字到影片合成系統,它能夠生成高畫質晰度的影片,具有多種寬高比且無水印,提供引人入勝的使用者體驗。該系統透過使用大規模高解析度文字影片語料庫進行訓練,以實現高保真度的空間對齊、時間對齊和審美質量。

Lumiere:影片生成的時空擴散模型

Lumiere是一個文字到影片擴散模型,旨在合成展現真實、多樣和連貫運動的影片,解決影片合成中的關鍵挑戰。我們引入了一種空時U-Net架構,可以一次性生成整個影片的時間持續,透過模型的單次傳遞。這與現有的影片模型形成對比,後者合成遠距離的關鍵幀,然後進行時間超解析度處理,這種方法本質上使得全域性時間一致性難以實現。透過部署空間和(重要的是)時間的下采樣和上取樣,並利用預訓練的文字到影象擴散模型,我們的模型學會直接生成多個時空尺度下的全幀率、低解析度影片。我們展示了最先進的文字到影片生成結果,並展示了我們的設計輕鬆促進了各種內容創作任務和影片編輯應用,包括影象到影片、影片修補和風格化生成。

Text-to-Video Generation:更好的文字到影片生成評價工具

該產品是一種用於評價文字到影片生成質量的工具。它引入了一種新的評價指標,即文字到影片評分(T2VScore)。該評分整合了兩個關鍵標準:(1)文字-影片對齊,用於審查影片在呈現給定文字描述方面的忠實度;(2)影片質量,評估影片的整體制作水平。此外,為了評估提出的指標並促進未來對其的改進,該產品提供了TVGE資料集,收集了對2,543個文字到影片生成影片在這兩個標準上的人類判斷。對TVGE資料集的實驗表明,提出的T2VScore在為文字到影片生成提供更好的評價指標方面表現出優越性。

MagicVideo-V2:多階段高美感影片生成

MagicVideo-V2是一個整合了文字到影象模型、影片運動生成器、參考影象嵌入模組和幀插值模組的端到端影片生成管道。其架構設計使得MagicVideo-V2能夠生成外觀美觀、高解析度的影片,具有出色的保真度和平滑性。透過大規模使用者評估,它展現出比Runway、Pika 1.0、Morph、Moon Valley和Stable Video Diffusion等領先的文字到影片系統更優越的效能。

SparseCtrl:為文字到影片擴散模型新增稀疏控制

SparseCtrl是為了增強對文字到影片生成的控制性而開發的,它能夠靈活地結合稀疏訊號進行結構控制,只需一個或少量輸入。它包括一個額外的條件編碼器來處理這些稀疏訊號,同時不影響預訓練的文字到影片模型。該方法相容各種形式,包括素描、深度和RGB影象,為影片生成提供更實用的控制,並推動故事板、深度渲染、關鍵幀動畫和插值等應用。大量實驗證明了SparseCtrl在原始和個性化文字到影片生成器上的泛化能力。

返回頂端