擴散模型

Make-Your-Anchor:基於擴散模型的2D虛擬形象生成框架

Make-Your-Anchor是一個基於擴散模型的2D虛擬形象生成框架。它只需一段1分鐘左右的影片素材就可以自動生成具有精確上身和手部動作的主播風格影片。該系統採用了一種結構引導的擴散模型來將3D網格狀態渲染成人物外觀。透過兩階段訓練策略,有效地將運動與特定外觀相繫結。為了生成任意長度的時序影片,將frame-wise擴散模型的2D U-Net擴充套件到3D形式,並提出簡單有效的批重疊時序去噪模組,從而突破推理時的影片長度限制。最後,引入了一種基於特定身份的面部增強模組,提高輸出影片中面部區域的視覺質量。實驗表明,該系統在視覺質量、時序一致性和身份保真度方面均優於現有技術。

DragonDiffusion:基於擴散模型實現的圖片編輯方案

DragonDiffusion 是一種基於擴散模型的精細化圖片編輯方案,支援對象移動、對象調整大小、對象外觀替換和內容拖拽等多種編輯模式。透過特徵對應損失將編輯訊號轉化為梯度,修改擴散模型的中間表示。特徵對應損失考慮了語義和幾何對齊的多個尺度,並新增了跨分支自注意力機制以保持原始影象和編輯結果的一致性。

InstructVideo:文字到影片的指導生成模型

InstructVideo 是一種透過人類反饋用獎勵微調來指導文字到影片的擴散模型的方法。它透過編輯的方式進行獎勵微調,減少了微調成本,同時提高了微調效率。它使用已建立的影象獎勵模型,透過分段稀疏取樣和時間衰減獎勵的方式提供獎勵訊號,顯著提高了生成影片的視覺質量。InstructVideo 不僅能夠提高生成影片的視覺質量,還能保持較強的泛化能力。欲瞭解更多資訊,請訪問官方網站。

返回頂端