WonderWorld:從單張圖片生成互動式3D場景

WonderWorld是一個創新的3D場景擴充框架,允許使用者基於單張輸入圖片和使用者指定的文本探索和塑造虛擬環境。它透過快速高斯體素和引導擴散的深度估計方法,顯著減少了計算時間,生成幾何一致的擴充,使3D場景的生成時間少於10秒,支援實時使用者互動和探索。

MeshAnything:3D資產的自動生成工具

MeshAnything是一個利用自迴歸變換器進行藝術家級網格生成的模型,它可以將任何3D表示形式的資產轉換為藝術家建立的網格(AMs),這些網格可以無縫應用於3D行業。它透過較少的面數生成網格,顯著提高了儲存、渲染和模擬效率,同時實作了與先前方法相當的精度。

HunyuanDiT-v1.1:多解析度擴散變換器,支援中英文

HunyuanDiT-v1.1是由騰訊Hunyuan團隊開發的一款多解析度擴散變換模型,它具備精細的中英文理解能力。該模型透過精心設計的變換器結構、文本編碼器和位置編碼,結合從頭開始構建的完整資料管道,實作資料的迭代最佳化。HunyuanDiT-v1.1能夠執行多輪多模態對話,根據上下文生成和細化影象。

UniAnimate:高效生成一致性人物影片動畫的模型

UniAnimate是一個用於人物影象動畫的統一影片擴散模型框架。它透過將參考影象、姿勢指導和噪音影片對映到一個共同的特徵空間,以減少最佳化難度並確保時間上的連貫性。UniAnimate能夠處理長序列,支援隨機噪音輸入和首幀條件輸入,顯著提高了生成長期影片的能力。

LVBench:長影片理解基準測試

LVBench是一個專門設計用於長影片理解的基準測試,旨在推動多模態大型語言模型在理解數小時長影片方面的能力,這對於長期決策制定、深入電影留言和討論、現場體育解說等實際應用至關重要。

返回頂端