Link:ufo
UFO是一個用於Windows作業系統互動的UI聚焦雙Agent框架。它透過自然語言理解使用者請求,並在一個或跨多個應用程式內無縫導航和操作來執行這些請求。該框架包含AppAgent和ActAgent兩個agent。AppAgent負責根據使用者請求選擇應用程式。ActAgent負責在選定的應用程式內迭代執行操作,直到任務成功完成。兩者都利用GPT-Vision的多模態功能來理解應用程式的UI並滿足使用者的請求。
需求人群:
"可用於讓計算機代替使用者操作Windows系統內的應用程式,提高工作效率,縮短任務時間。"
使用場景示例:
讓UFO刪除PowerPoint所有幻燈片的註釋
用UFO從Word中提取文字,描述一張圖片,寫一封郵件併傳送出去
用UFO在Excel表格中彙總資料
產品特色:
支援自然語言理解使用者請求
可在一個或多個應用程式內操作
包含選擇應用程式的AppAgent
包含在應用程式內執行操作的ActAgent
利用GPT-Vision理解應用程式UI