C3PO：基於使用者反饋的 LLM 模型對齊技術

Link：c3po
C3PO 是一種基於使用者反饋的 LLM 模型對齊技術，可以從單個反饋句子中對 LLM 進行調整，避免過度概括化。該技術提供了參考實現、相關基準線和必要元件，方便研究論文中提出的技術。

需求人群：

"用於從單個句子的使用者反饋中微調 LLM 模型，實現更符合使用者偏好且不過度概括化的結果。"

產品特色：

從反饋中樣本化相關類別、提示和完成

訓練基準模型以微調每個反饋

比較方法和基準響應

其他相關AI產品