Octopus:基於環境反饋的視覺語言程式設計工具
Octopus是一款基於環境反饋的視覺語言程式設計工具,能夠高效地解析代理的視覺和文字任務目標,制定複雜的動作序列,並生成可執行程式碼。Octopus的設計允許代理處理廣泛的任務,從模擬器中的日常瑣事到複雜影片遊戲中的複雜互動。Octopus透過利用GPT-4來控制探索代理生成訓練資料,即動作藍圖和相應的可執行程式碼,在我們的實驗環境OctoVerse中進行訓練。我們還收集反饋,以允許強化學習與環境反饋(RLEF)的增強訓練方案。透過一系列實驗,我們闡明瞭Octopus的功能並呈現了令人信服的結果,提出的RLEF證明了提高代理決策的效果。透過開源我們的模型架構、模擬器和資料集,我們希望激發更多的創新並促進更廣泛的體驗AI社區中的協作應用。