React Flow:互動式流程圖編輯器

React Flow是一個基於React的互動式流程圖編輯器,它允許使用者透過簡潔的介面建立和編輯流程圖。它支援節點和邊的拖拽、選擇、刪除等操作,為使用者提供了一種直觀且靈活的方式來展示和處理流程。

Gen-3 Alpha:開創高保真、可控影片生成新領網域

Gen-3 Alpha 是 Runway 訓練的一系列模型中的首個,它在新的基礎設施上訓練,專為大規模多模態訓練而建。它在保真度、一致性和動作方面相較於 Gen-2 有重大改進,並朝著構建通用世界模型邁進了一步。該模型能夠生成具有豐富動作、手勢和情感的表達性人物角色,為敘事提供了新的機會。

Chatty Bots:與AI聊天機器人進行個性化對話

Chatty Bots是一個提供AI聊天機器人的平臺,使用者可以與具有獨特個性的虛擬伴侶進行互動,這些機器人旨在娛樂、資訊傳遞和愉悅使用者。使用者可以將喜歡的機器人新增到Discord或Slack中,享受更加個性化和便捷的聊天體驗。

InstantX:AI內容生成研究組織

InstantX是一個專注於AI內容生成的獨立研究組織,致力於文本到影象的生成技術。其研究專案包括風格保持的文本到影象生成(InstantStyle)和零樣本身份保持生成(InstantID)。該組織透過GitHub社群進行專案更新和交流,推動AI在影象生成領網域的應用和發展。

HOI-Swap:影片編輯中的手-物互動意識

HOI-Swap是一個基於擴散模型的影片編輯框架,專注於處理影片編輯中手與物體互動的複雜性。該模型透過自監督訓練,能夠在單幀中實作物體交換,並學習根據物體屬性變化調整手的互動模式,如手的抓握方式。第二階段將單幀編輯擴充到整個影片序列,透過運動對齊和影片生成,實作高質量的影片編輯。

Hallo:基於擴散模型的肖像影象動畫技術

Hallo是一個由復旦大學開發的肖像影象動畫技術,它利用擴散模型生成逼真且動態的肖像動畫。與傳統依賴引數模型的中間面部表示不同,Hallo採用端到端的擴散範式,並引入了一個分層的音訊驅動視覺合成模組,以增強音訊輸入和視覺輸出之間的對齊精度,包括嘴唇、表情和姿態運動。

VideoTetris:文本到影片生成的創新框架

VideoTetris是一個新穎的框架,它實作了文本到影片的生成,特別適用於處理包含多個對象或對象數量動態變化的複雜影片生成場景。該框架透過空間時間組合擴散技術,精確地遵循複雜的文本語義,並透過操作和組合去噪網路的空間和時間注意力圖來實作。

Visual Sketchpad:多模態語言模型的視覺推理工具

Visual Sketchpad 是一種為多模態大型語言模型(LLMs)提供視覺草圖板和繪圖工具的框架。它允許模型在進行規劃和推理時,根據自己繪製的視覺工件進行操作。與以往使用文本作為推理步驟的方法不同,Visual Sketchpad 使模型能夠使用線條、框、標記等更接近人類繪圖方式的元素進行繪圖,從而更好地促進推理。

返回頂端