Chatty Bots:與AI聊天機器人進行個性化對話

Chatty Bots是一個提供AI聊天機器人的平臺,使用者可以與具有獨特個性的虛擬伴侶進行互動,這些機器人旨在娛樂、資訊傳遞和愉悅使用者。使用者可以將喜歡的機器人新增到Discord或Slack中,享受更加個性化和便捷的聊天體驗。

InstantX:AI內容生成研究組織

InstantX是一個專注於AI內容生成的獨立研究組織,致力於文本到影象的生成技術。其研究專案包括風格保持的文本到影象生成(InstantStyle)和零樣本身份保持生成(InstantID)。該組織透過GitHub社群進行專案更新和交流,推動AI在影象生成領網域的應用和發展。

HOI-Swap:影片編輯中的手-物互動意識

HOI-Swap是一個基於擴散模型的影片編輯框架,專注於處理影片編輯中手與物體互動的複雜性。該模型透過自監督訓練,能夠在單幀中實作物體交換,並學習根據物體屬性變化調整手的互動模式,如手的抓握方式。第二階段將單幀編輯擴充到整個影片序列,透過運動對齊和影片生成,實作高質量的影片編輯。

Hallo:基於擴散模型的肖像影象動畫技術

Hallo是一個由復旦大學開發的肖像影象動畫技術,它利用擴散模型生成逼真且動態的肖像動畫。與傳統依賴引數模型的中間面部表示不同,Hallo採用端到端的擴散範式,並引入了一個分層的音訊驅動視覺合成模組,以增強音訊輸入和視覺輸出之間的對齊精度,包括嘴唇、表情和姿態運動。

VideoTetris:文本到影片生成的創新框架

VideoTetris是一個新穎的框架,它實作了文本到影片的生成,特別適用於處理包含多個對象或對象數量動態變化的複雜影片生成場景。該框架透過空間時間組合擴散技術,精確地遵循複雜的文本語義,並透過操作和組合去噪網路的空間和時間注意力圖來實作。

Visual Sketchpad:多模態語言模型的視覺推理工具

Visual Sketchpad 是一種為多模態大型語言模型(LLMs)提供視覺草圖板和繪圖工具的框架。它允許模型在進行規劃和推理時,根據自己繪製的視覺工件進行操作。與以往使用文本作為推理步驟的方法不同,Visual Sketchpad 使模型能夠使用線條、框、標記等更接近人類繪圖方式的元素進行繪圖,從而更好地促進推理。

GoMate:基於RAG框架的可靠輸入和可信輸出系統

GoMate是一個基於Retrieval-Augmented Generation (RAG)框架的模型,專注於提供可靠輸入和可信輸出。它透過結合檢索和生成技術,提高資訊檢索和文本生成的準確性和可靠性。GoMate適用於需要高效、準確資訊處理的領網域,如自然語言處理、知識問答等。

Tencent EMMA:多模態文本到影象生成模型

EMMA是一個基於最前沿的文本到影象擴散模型ELLA構建的新型影象生成模型,能夠接受多模態提示,透過創新的多模態特徵聯結器設計,有效整合文本和補充模態資訊。該模型透過凍結原始T2I擴散模型的所有引數,並僅調整一些額外層,揭示了預訓練的T2I擴散模型可以秘密接受多模態提示的有趣特性。

返回頂端