Link:lmsys-chatbot-arena-leaderboard
LMSys 聊天機器人競技場排行榜是一個用於評估大型語言模型 (LLM) 效能的眾包開放平臺。它利用 Elo 排名系統對 LLM 進行排名,排名依據是超過 30 萬使用者投票的結果。使用者可以在網站上與不同的 LLM 進行互動,並根據其對話質量進行投票。該排行榜可用於追蹤不同 LLM 的發展趨勢,併為研究人員和開發者提供基準測試工具。
需求人群:
"LMSys 聊天機器人競技場排行榜可用於以下用途:\n * 研究人員和開發者可以利用該平臺來評估和比較不同 LLM 的效能,並追蹤其發展趨勢。\n * 企業可以利用該排行榜來選擇效能最佳的 LLM 用於開發聊天機器人或其他人工智慧應用。\n * 普通使用者可以利用該平臺來體驗不同 LLM 的功能,並參與到 LLM 效能評測過程中。"
使用場景示例:
使用者可以在排行榜上找到效能最佳的 LLM,並與之進行對話,體驗其聊天和生成文字的能力。
研究人員可以比較不同 LLM 在問答、摘要生成等不同任務上的表現。
開發者可以利用排行榜來選擇最適合其應用需求的 LLM。
產品特色:
比較不同大型語言模型 (LLM) 的效能
利用 Elo 排名系統進行客觀評估
為使用者提供與不同 LLM 進行互動的平臺
收集使用者投票資料,以便持續更新排行榜