Multimodal-Maestro:更有效的提示大型多模態模型,釋放潛能
Multimodal-Maestro為您提供更多對大型多模態模型的控制,以獲得您想要的輸出。透過更有效的提示策略,您可以讓多模態模型執行您以前不知道(或認為不可能)的任務。想知道它是如何工作的嗎?試試我們的HF空間! 該專案仍在建設中,API可能會發生變化。
Multimodal-Maestro為您提供更多對大型多模態模型的控制,以獲得您想要的輸出。透過更有效的提示策略,您可以讓多模態模型執行您以前不知道(或認為不可能)的任務。想知道它是如何工作的嗎?試試我們的HF空間! 該專案仍在建設中,API可能會發生變化。
WebVoyager是一款創新的大型多模態模型(LMM)驅動的網路代理,能夠透過與現實世界的網站互動,端到端完成使用者指令。我們提出了一種新的網路代理評估協議,以解決開放式網路代理任務的自動評估挑戰,利用GPT-4V的強大多模態理解能力。我們從15個廣泛使用的網站收集了真實世界任務,用於評估我們的代理。我們展示了WebVoyager實現了55.7%的任務成功率,明顯超過了GPT-4(所有工具)和WebVoyager(僅文字)設定的效能,突顯了WebVoyager在實際應用中的卓越能力。我們發現我們提出的自動評估與人類判斷達成了85.3%的一致性,為在真實世界環境中進一步發展網路代理鋪平了道路。