HelpSteer2:用於訓練高效能獎勵模型的開源資料集

HelpSteer2是由NVIDIA釋出的一個開源資料集,旨在支援訓練能夠對齊模型以使其更加有幫助、事實正確和連貫,同時在響應的複雜性和冗餘度方面具有可調節性。該資料集與Scale AI合作建立,當與Llama 3 70B基礎模型一起使用時,在RewardBench上達到了88.8%的表現,是截至2024年6月12日最佳的獎勵模型之一。