Visual Sketchpad:多模態語言模型的視覺推理工具
Visual Sketchpad 是一種為多模態大型語言模型(LLMs)提供視覺草圖板和繪圖工具的框架。它允許模型在進行規劃和推理時,根據自己繪製的視覺工件進行操作。與以往使用文本作為推理步驟的方法不同,Visual Sketchpad 使模型能夠使用線條、框、標記等更接近人類繪圖方式的元素進行繪圖,從而更好地促進推理。
Visual Sketchpad 是一種為多模態大型語言模型(LLMs)提供視覺草圖板和繪圖工具的框架。它允許模型在進行規劃和推理時,根據自己繪製的視覺工件進行操作。與以往使用文本作為推理步驟的方法不同,Visual Sketchpad 使模型能夠使用線條、框、標記等更接近人類繪圖方式的元素進行繪圖,從而更好地促進推理。
Cantor是一個多模態鏈式思維(CoT)框架,它透過感知決策架構,將視覺上下文獲取與邏輯推理相結合,解決複雜的視覺推理任務。Cantor首先作為一個決策生成器,整合視覺輸入來分析影象和問題,確保與實際情境更緊密的對齊。
Cola是一種使用語言模型(LM)來聚合2個或更多視覺-語言模型(VLM)輸出的方法。我們的模型組裝方法被稱為Cola(COordinative LAnguage model or visual reasoning)。Cola在LM微調(稱為Cola-FT)時效果最好。Cola在零樣本或少樣本上下文學習(稱為Cola-Zero)時也很有效。除了效能提升外,Cola還對VLM的錯誤更具魯棒性。我們展示了Cola可以應用於各種VLM(包括大型多模態模型如InstructBLIP)和7個資料集(VQA v2、OK-VQA、A-OKVQA、e-SNLI-VE、VSR、CLEVR、GQA),並且它始終提高了效能。