視覺語言模型

InternLM-XComposer-2.5:一款多功能大型視覺語言模型

InternLM-XComposer-2.5是一款支援長上下文輸入和輸出的多功能大型視覺語言模型。它在各種文本影象理解和創作應用中表現出色,實作了與GPT-4V相當的水平,但僅使用了7B的LLM後端。該模型透過24K交錯影象文本上下文進行訓練,能夠無縫擴充到96K長上下文,透過RoPE外推。這種長上下文能力使其在需要廣泛輸入和輸出上下文的任務中表現突出。

DriveVLM:自動駕駛與視覺語言模型的融合

DriveVLM是一個自動駕駛系統,它利用視覺語言模型(VLMs)來增強場景理解和規劃能力。該系統透過獨特的推理模組組合,包括場景描述、場景分析和分層規劃,以提高對複雜和長尾場景的理解。此外,為了解決VLMs在空間推理和計算需求上的侷限性,提出了DriveVLM-Dual,這是一個混合系統,結合了DriveVLM的優勢和傳統自動駕駛流程。

SpatialVLM:給視覺語言模型賦予空間推理能力

SpatialVLM是一個由谷歌DeepMind開發的視覺語言模型,能夠對空間關係進行理解和推理。它透過大規模合成資料的訓練,獲得了像人類一樣直觀地進行定量空間推理的能力。這不僅提高了其在空間VQA任務上的表現,還為鏈式空間推理和機器人控制等下游任務開啟 打開了新的可能。

MouSi:多模態視覺語言模型

MouSi是一種多模態視覺語言模型,旨在解決當前大型視覺語言模型(VLMs)面臨的挑戰。它採用整合專家技術,將個體視覺編碼器的能力進行協同,包括影象文字匹配、OCR、影象分割等。該模型引入融合網路來統一處理來自不同視覺專家的輸出,並在影象編碼器和預訓練LLMs之間彌合差距。此外,MouSi還探索了不同的位置編碼方案,以有效解決位置編碼浪費和長度限制的問題。實驗結果表明,具有多個專家的VLMs表現出比孤立的視覺編碼器更出色的效能,並隨著整合更多專家而獲得顯著的效能提升。

CheXagent:基於視覺語言基礎模型的胸部X光解讀

CheXagent是一個基於視覺語言基礎模型的胸部X光解讀工具。它利用臨床大型語言模型來解析放射學報告,視覺編碼器用於表示X光影象,並設計了一個網路來橋接視覺和語言模態。此外,CheXagent還引入了CheXbench,一個旨在系統評估基於視覺語言基礎模型在8個臨床相關的胸部X光解讀任務上的效能的新型基準。經過廣泛的定量評估和與五名專家放射科醫生的定性評審,CheXagent在CheXbench任務上的表現優於先前開發的通用和醫學領域的基礎模型。

返回頂端