Eureka:人類級獎勵設計演算法,透過編碼大型語言模型實現

Link:eureka
Eureka是一種人類級獎勵設計演算法,透過編碼大型語言模型實現。它利用最先進的語言模型(如GPT-4)的零樣本生成、編寫程式碼和上下文改進能力,對獎勵程式碼進行進化最佳化。生成的獎勵可以用於透過強化學習獲得複雜的技能。Eureka生成的獎勵函式在29個開源強化學習環境中,包括10種不同的機器人形態,優於人類專家設計的獎勵函式。Eureka還能夠靈活地改進獎勵函式,以提高生成獎勵的質量和安全性。透過與課程學習相結合,使用Eureka獎勵函式,我們首次展示了一個模擬的Shadow Hand能夠進行旋轉筆的技巧,熟練地以快速的速度在圓圈中操縱筆。

需求人群:

"適用於需要進行獎勵設計和強化學習的任務"

產品特色:

利用大型語言模型進行獎勵設計

透過進化最佳化生成複雜的獎勵函式

使用生成的獎勵函式進行強化學習

返回頂端