Starling-7B:增強 LLM 的可用性和安全性

Link:starling-7b
Starling-7B 是一個由強化學習從 AI 反饋(RLAIF)訓練的開放大型語言模型(LLM)。它透過我們的新 GPT-4 標記排序資料集 Nectar 和新的獎勵訓練和策略調優流程充分發揮了作用。Starling-7B 在使用 GPT-4 作為評委的 MT Bench 中得分為 8.09,在 MT-Bench 上超過了目前所有模型,除了 OpenAI 的 GPT-4 和 GPT-4 Turbo。我們在 HuggingFace 上釋出了排名資料集 Nectar、獎勵模型 Starling-RM-7B-alpha 和語言模型 Starling-LM-7B-alpha,以及 LMSYS Chatbot Arena 中的線上演示。請期待我們即將釋出的程式碼和論文,其中將提供有關整個過程的更多詳細資訊。

需求人群:

"用於聊天和問答場景"

產品特色:

基於 AI 反饋的強化學習

最佳化 LLM 的可用性和安全性

提供高質量的排名資料集和獎勵模型

返回頂端