DriveVLM:自動駕駛與視覺語言模型的融合

連結:https://tsinghua-mars-lab.github.io/DriveVLM/

DriveVLM是一個自動駕駛系統,它利用視覺語言模型(VLMs)來增強場景理解和規劃能力。該系統透過獨特的推理模組組合,包括場景描述、場景分析和分層規劃,以提高對複雜和長尾場景的理解。此外,為瞭解決VLMs在空間推理和計算需求上的侷限性,提出了DriveVLM-Dual,這是一個混合系統,結合了DriveVLM的優勢和傳統自動駕駛流程。在nuScenes資料集和SUP-AD資料集上的實驗表明,DriveVLM和DriveVLM-Dual在處理複雜和不可預測的駕駛條件方面非常有效。最終,DriveVLM-Dual在生產車輛上進行了部署,驗證了其在現實世界自動駕駛環境中的有效性。

需求人群:

  • DriveVLM的目標受眾包括自動駕駛領網網域的研究人員和工程師,以及希望提高自動駕駛系統場景理解和規劃能力的企業和組織。該技術特別適合需要處理城市環境中複雜和長尾場景的自動駕駛系統。

使用場景示例:

  • 在城市環境中,DriveVLM能夠辨識並處理複雜的道路條件和微妙的人類行為。
  • DriveVLM-Dual在生產車輛上的部署,展示了其在真實世界自動駕駛環境中的實用性。
  • 在nuScenes資料集上的實驗,證明瞭DriveVLM在處理複雜和不可預測的駕駛條件方面的有效性。

產品特色:

  • 接受影象序列作為輸入,透過基於推理的思考鏈(CoT)機制輸出分層規劃預測。
  • 可選地結合傳統的3D感知和軌跡規劃模組,實作空間推理能力和實時軌跡規劃。
  • 資料探勘和註釋流程,構建場景理解資料集。
  • 使用註釋者團隊進行場景註釋,包括場景描述、場景分析和規劃。
  • 在nuScenes資料集和SUP-AD資料集上進行實驗,驗證系統的有效性。
  • DriveVLM-Dual在生產車輛上部署,驗證其在現實世界自動駕駛環境中的有效性。

使用教學:

1. 準備影象序列作為輸入資料。

2. 將影象序列輸入DriveVLM模型。

3. 利用DriveVLM的推理機制進行場景描述、分析和規劃。

4. 根據需要,可選地結合3D感知和軌跡規劃模組。

5. 從DriveVLM模型獲取分層規劃預測結果。

6. 在實際自動駕駛環境中部署DriveVLM-Dual,驗證其效果。

返回頂端