多模態模型 Archives - AI書籤-全球ai人工智慧產品和服務

WebVoyager：基於大型多模態模型構建端到端網路代理

WebVoyager是一款創新的大型多模態模型（LMM）驅動的網路代理，能夠透過與現實世界的網站互動，端到端完成使用者指令。我們提出了一種新的網路代理評估協議，以解決開放式網路代理任務的自動評估挑戰，利用GPT-4V的強大多模態理解能力。我們從15個廣泛使用的網站收集了真實世界任務，用於評估我們的代理。我們展示了WebVoyager實現了55.7%的任務成功率，明顯超過了GPT-4（所有工具）和WebVoyager（僅文字）設定的效能，突顯了WebVoyager在實際應用中的卓越能力。我們發現我們提出的自動評估與人類判斷達成了85.3%的一致性，為在真實世界環境中進一步發展網路代理鋪平了道路。

多模態模型

Multimodal-Maestro：更有效的提示大型多模態模型，釋放潛能

WebVoyager：基於大型多模態模型構建端到端網路代理