DigiRL:使用自主強化學習訓練野外設備控制代理

DigiRL是一個創新的線上強化學習演算法,用於訓練能夠在野外環境中控制設備的智慧代理。它透過自主價值評估模型(VLM)來解決開放式的、現實世界中的Android任務。DigiRL的主要優點包括能夠利用現有的非最優離線資料集,並透過離線到線上的強化學習來鼓勵代理從自身的嘗試和錯誤中學習。