MyGO:多模態知識圖譜補全工具
MyGO是一個用於多模態知識圖譜補全的工具,它透過將離散模態資訊作為細粒度的標記來處理,以提高補全的準確性。MyGO利用transformers庫對文本標記進行嵌入,進而在多模態資料集上進行訓練和評估。它支援自訂資料集,並且提供了訓練腳本以復現實驗結果。
MyGO是一個用於多模態知識圖譜補全的工具,它透過將離散模態資訊作為細粒度的標記來處理,以提高補全的準確性。MyGO利用transformers庫對文本標記進行嵌入,進而在多模態資料集上進行訓練和評估。它支援自訂資料集,並且提供了訓練腳本以復現實驗結果。
Bunny 是一系列輕量級但功能強大的多模態模型,提供多種即插即用的視圖編碼器和語言主幹網路。透過從更廣泛的資料來源進行精選選擇,構建更豐富的訓練資料,以補償模型尺寸的減小。Bunny-v1.0-3B 模型在效能上超越了同類大小甚至更大的 MLLMs(7B)模型,並與 13B 模型效能相當。
llava-llama-3-8b-v1_1是一個由XTuner最佳化的LLaVA模型,它基於meta-llama/Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336,並透過ShareGPT4V-PT和InternVL-SFT進行了微調。該模型專為影象和文本的結合處理而設計,具有強大的多模態學習能力,適用於各種下游部署和評估工具包。
4M是一個用於訓練多模態和多工模型的框架,能夠處理多種視覺任務,並且能夠進行多模態條件生成。該模型透過實驗分析展示了其在視覺任務上的通用性和可擴充性,為多模態學習在視覺和其他領網域的進一步探索奠定了基礎。
VideoLLaMA2-7B-Base 是由 DAMO-NLP-SG 開發的大型影片語言模型,專注於影片內容的理解與生成。該模型在視覺問答和影片字幕生成方面展現出卓越的效能,透過先進的空間時間建模和音訊理解能力,為使用者提供了一種新的影片內容分析工具。
emo-visual-data 是一個公開的表情包視覺標註資料集,它透過使用 glm-4v 和 step-free-api 專案完成的視覺標註,收集了5329個表情包。這個資料集可以用於訓練和測試多模態大模型,對於理解影象內容和文本描述之間的關係具有重要意義。
llama3v是一個基於Llama3 8B和siglip-so400m的SOTA(State of the Art,即最先進技術)視覺模型。它是一個開源的VLLM(視覺語言多模態學習模型),在Huggingface上提供模型權重,支援快速本地推理,併發布了推理程式碼。