Link:vlogger
VLOGGER是一種從單張人物輸入影象生成文字和音訊驅動的講話人類影片的方法,它建立在最近生成擴散模型的成功基礎上。我們的方法包括1)一個隨機的人類到3D運動擴散模型,以及2)一個新穎的基於擴散的架構,透過時間和空間控制增強文字到影象模型。這種方法能夠生成長度可變的高質量影片,並且透過對人類面部和身體的高階表達方式輕鬆可控。與以前的工作不同,我們的方法不需要為每個人訓練,也不依賴於人臉檢測和裁剪,生成完整的影象(而不僅僅是面部或嘴唇),並考慮到正確合成交流人類所需的廣泛場景(例如可見的軀幹或多樣性主體身份)。
需求人群:
"適用於需要從單張靜態影象生成動態影片的場景,如影片編輯、形象替換等。"
使用場景示例:
生成真實人體影片
編輯現有影片內容
影片翻譯
產品特色:
文字和音訊驅動的影片生成
高質量影片生成
可控性高
身體運動模擬
面部和姿勢控制
