Link:spatialvlm
SpatialVLM是一個由谷歌DeepMind開發的視覺語言模型,能夠對空間關係進行理解和推理。它透過大規模合成資料的訓練,獲得了像人類一樣直觀地進行定量空間推理的能力。這不僅提高了其在空間VQA任務上的表現,還為鏈式空間推理和機器人控制等下游任務開啟 打開了新的可能。
需求人群:
"空間VQA、鏈式空間推理、機器人控制"
使用場景示例:
判斷兩個物體哪個離攝像頭更近
估計兩個物體之間的水平距離
判斷桌子上是否形成等邊三角形
產品特色:
定性空間關係推理
定量距離和尺寸估計
支援鏈式多步空間推理
為機器人控制提供獎勵