LMSYS Chatbot Arena Leaderboard：大型語言模型 (LLM) 效能評測的眾包開放平臺

Link：lmsys-chatbot-arena-leaderboard
LMSys 聊天機器人競技場排行榜是一個用於評估大型語言模型 (LLM) 效能的眾包開放平臺。它利用 Elo 排名系統對 LLM 進行排名，排名依據是超過 30 萬使用者投票的結果。使用者可以在網站上與不同的 LLM 進行互動，並根據其對話質量進行投票。該排行榜可用於追蹤不同 LLM 的發展趨勢，併為研究人員和開發者提供基準測試工具。

需求人群：

"LMSys 聊天機器人競技場排行榜可用於以下用途：\n * 研究人員和開發者可以利用該平臺來評估和比較不同 LLM 的效能，並追蹤其發展趨勢。\n * 企業可以利用該排行榜來選擇效能最佳的 LLM 用於開發聊天機器人或其他人工智慧應用。\n * 普通使用者可以利用該平臺來體驗不同 LLM 的功能，並參與到 LLM 效能評測過程中。"

使用場景示例：

使用者可以在排行榜上找到效能最佳的 LLM，並與之進行對話，體驗其聊天和生成文字的能力。

研究人員可以比較不同 LLM 在問答、摘要生成等不同任務上的表現。

開發者可以利用排行榜來選擇最適合其應用需求的 LLM。

產品特色：

比較不同大型語言模型 (LLM) 的效能

利用 Elo 排名系統進行客觀評估

為使用者提供與不同 LLM 進行互動的平臺

收集使用者投票資料，以便持續更新排行榜