多模態學習

MyGO:多模態知識圖譜補全工具

MyGO是一個用於多模態知識圖譜補全的工具,它透過將離散模態資訊作為細粒度的標記來處理,以提高補全的準確性。MyGO利用transformers庫對文本標記進行嵌入,進而在多模態資料集上進行訓練和評估。它支援自訂資料集,並且提供了訓練腳本以復現實驗結果。

Bunny:輕量級但功能強大的多模態模型家族

Bunny 是一系列輕量級但功能強大的多模態模型,提供多種即插即用的視圖編碼器和語言主幹網路。透過從更廣泛的資料來源進行精選選擇,構建更豐富的訓練資料,以補償模型尺寸的減小。Bunny-v1.0-3B 模型在效能上超越了同類大小甚至更大的 MLLMs(7B)模型,並與 13B 模型效能相當。

4M:多模態和多工模型訓練框架

4M是一個用於訓練多模態和多工模型的框架,能夠處理多種視覺任務,並且能夠進行多模態條件生成。該模型透過實驗分析展示了其在視覺任務上的通用性和可擴充性,為多模態學習在視覺和其他領網域的進一步探索奠定了基礎。

emo-visual-data:表情包視覺標註資料集

emo-visual-data 是一個公開的表情包視覺標註資料集,它透過使用 glm-4v 和 step-free-api 專案完成的視覺標註,收集了5329個表情包。這個資料集可以用於訓練和測試多模態大模型,對於理解影象內容和文本描述之間的關係具有重要意義。

返回頂端