SpatialVLM:給視覺語言模型賦予空間推理能力

SpatialVLM是一個由谷歌DeepMind開發的視覺語言模型,能夠對空間關係進行理解和推理。它透過大規模合成資料的訓練,獲得了像人類一樣直觀地進行定量空間推理的能力。這不僅提高了其在空間VQA任務上的表現,還為鏈式空間推理和機器人控制等下游任務開啟 打開了新的可能。