Link:mobile-agent
Mobile-Agent是一款自主多模移動裝置代理,利用多模大語言模型(MLLM)技術,首先利用視覺感知工具準確識別和定位應用程式前端介面中的視覺和文字元素。基於感知的視覺環境,它自主規劃和分解複雜操作任務,並透過逐步操作來導航移動應用程式。與之前依賴於應用程式的XML檔案或移動系統後設資料的解決方案不同,Mobile-Agent以視覺為中心的方式在各種移動操作環境中具有更大的適應性,從而消除了對特定系統定製的必要性。為了評估Mobile-Agent的效能,我們引入了Mobile-Eval,這是一個用於評估移動裝置操作的基準。基於Mobile-Eval,我們對Mobile-Agent進行了全面評估。實驗結果表明,Mobile-Agent實現了顯著的準確性和完成率。即使在具有挑戰性的指令下,例如多應用程式操作,Mobile-Agent仍然可以完成要求。
需求人群:
"Mobile-Agent可用於自動化移動裝置操作,評估移動裝置效能,提高移動應用程式的適應性。"
使用場景示例:
自動化移動裝置操作:Mobile-Agent可用於自動化執行移動應用程式中的任務,提高效率。
移動裝置效能評估:利用Mobile-Agent進行移動裝置操作評估,以提高效能。
提高移動應用程式適應性:Mobile-Agent可幫助移動應用程式在不同環境中實現更大的適應性。
產品特色:
利用多模大語言模型技術
利用視覺感知工具準確識別和定位應用程式前端介面中的視覺和文字元素
自主規劃和分解複雜操作任務
透過逐步操作來導航移動應用程式
具有更大的適應性,消除了對特定系統定製的必要性
引入了Mobile-Eval,用於評估移動裝置操作的基準