Starling-7B：增強 LLM 的可用性和安全性

Link：starling-7b
Starling-7B 是一個由強化學習從 AI 反饋（RLAIF）訓練的開放大型語言模型（LLM）。它透過我們的新 GPT-4 標記排序資料集 Nectar 和新的獎勵訓練和策略調優流程充分發揮了作用。Starling-7B 在使用 GPT-4 作為評委的 MT Bench 中得分為 8.09，在 MT-Bench 上超過了目前所有模型，除了 OpenAI 的 GPT-4 和 GPT-4 Turbo。我們在 HuggingFace 上釋出了排名資料集 Nectar、獎勵模型 Starling-RM-7B-alpha 和語言模型 Starling-LM-7B-alpha，以及 LMSYS Chatbot Arena 中的線上演示。請期待我們即將釋出的程式碼和論文，其中將提供有關整個過程的更多詳細資訊。

需求人群：

"用於聊天和問答場景"

產品特色：

基於 AI 反饋的強化學習

最佳化 LLM 的可用性和安全性

提供高質量的排名資料集和獎勵模型

Starling-7B：增強 LLM 的可用性和安全性

其他相關AI產品