擴散模型

Make-Your-Anchor：基於擴散模型的2D虛擬形象生成框架

影片生成, 擴散模型

Make-Your-Anchor是一個基於擴散模型的2D虛擬形象生成框架。它只需一段1分鐘左右的影片素材就可以自動生成具有精確上身和手部動作的主播風格影片。該系統採用了一種結構引導的擴散模型來將3D網格狀態渲染成人物外觀。透過兩階段訓練策略,有效地將運動與特定外觀相繫結。為了生成任意長度的時序影片,將frame-wise擴散模型的2D U-Net擴充套件到3D形式,並提出簡單有效的批重疊時序去噪模組,從而突破推理時的影片長度限制。最後,引入了一種基於特定身份的面部增強模組,提高輸出影片中面部區域的視覺質量。實驗表明,該系統在視覺質量、時序一致性和身份保真度方面均優於現有技術。

DragonDiffusion：基於擴散模型實現的圖片編輯方案

圖片編輯, 擴散模型

DragonDiffusion 是一種基於擴散模型的精細化圖片編輯方案，支援對象移動、對象調整大小、對象外觀替換和內容拖拽等多種編輯模式。透過特徵對應損失將編輯訊號轉化為梯度，修改擴散模型的中間表示。特徵對應損失考慮了語義和幾何對齊的多個尺度，並新增了跨分支自注意力機制以保持原始影象和編輯結果的一致性。

DistriFusion：加速高解析度擴散模型推理

影象生成, 擴散模型

DistriFusion是一個訓練不需要的演演算法,可以利用多個GPU來加速擴散模型推理,而不會犧牲影象質量。DistriFusion可以根據使用的裝置數量減少延遲,同時保持視覺保真度。

Diffusion Model with Perceptual Loss：基於感知損失的擴散模型

感知損失, 擴散模型

該論文介紹了一種基於感知損失的擴散模型，透過將感知損失直接納入擴散訓練中來提高樣本質量。對於有條件生成，該方法僅改善樣本質量而不會影響條件輸入，因此不會犧牲樣本多樣性。對於無條件生成，這種方法也能提高樣本質量。論文詳細介紹了方法的原理和實驗結果。

InstructVideo：文字到影片的指導生成模型

擴散模型, 文字到影片

InstructVideo 是一種透過人類反饋用獎勵微調來指導文字到影片的擴散模型的方法。它透過編輯的方式進行獎勵微調，減少了微調成本，同時提高了微調效率。它使用已建立的影象獎勵模型，透過分段稀疏取樣和時間衰減獎勵的方式提供獎勵訊號，顯著提高了生成影片的視覺質量。InstructVideo 不僅能夠提高生成影片的視覺質量，還能保持較強的泛化能力。欲瞭解更多資訊，請訪問官方網站。