文本到影片 Archives - AI書籤-全球ai人工智慧產品和服務

Kling AI：文本到影片的革命性生成模型

Kling AI是由快手科技開發的文本到影片生成模型，能夠根據文本提示生成高度逼真的影片。它具有高效的影片生成能力，長達2分鐘的30幀每秒影片，以及3D時空聯合注意機制和物理世界模擬等先進技術，使其在AI影片生成領網域具有顯著的競爭優勢。

ShareGPT4Video系列旨在透過密集且精確的字幕來促進大型影片-語言模型(LVLMs)的影片理解以及文本到影片模型(T2VMs)的影片生成。該系列包括：1) ShareGPT4Video，2) ShareCaptioner-Video，3) ShareGPT4Video-8B。

VideoTetris是一個新穎的框架，它實作了文本到影片的生成，特別適用於處理包含多個對象或對象數量動態變化的複雜影片生成場景。該框架透過空間時間組合擴散技術，精確地遵循複雜的文本語義，並透過操作和組合去噪網路的空間和時間注意力圖來實作。

Dream Machine是由Luma Labs開發的一款先進的人工智慧模型，旨在快速從文本和圖片生成高質量的、逼真的影片。這個高度可擴充且高效的變換模型直接在影片上訓練，使其能夠產生物理上準確、一致且充滿事件的鏡頭。

Follow-Your-Pose是一個文本到影片生成的模型，它利用姿勢資訊和文本描述來生成可編輯、可控制姿勢的角色影片。這項技術在數字人物創作領網域具有重要應用價值，解決了缺乏綜合資料集和影片生成先驗模型的限制。透過兩階段訓練方案，結合預訓練的文本到影象模型，實作了姿勢可控的影片生成。

Open-Sora-Plan是一個由北京大學元組團隊開發的文本到影片生成模型。v1.1.0版本在影片生成質量和持續時間上進行了顯著改進，包括更優的壓縮視覺表示、更高的生成質量和更長的影片生成能力。