Deepmark AI 是一款用於評估大型語言模型(LLM)的基準工具,可在自己的資料上對各種任務特定指標進行評估。它與 GPT、Anthropic、GPT-3.5 Turbo、Cohere、AI21 等領先的生成式 AI API 進行預整合。
Link:https://github.com/IngestAI/deepmark
需求人群:
- Deepmark AI 適用於 Generative AI 構建者,可以根據特定用例的需求,透過迭代評估任務特定指標,識別出最可預測、可靠和經濟有效的生成式 AI 模型。
使用場景示例:
- 在自定義資料集上評估不同的生成式 AI 模型
- 對生成式 AI 模型的準確性進行測試
- 評估生成式 AI 模型的成本效益
產品特色:
- 可靠性評估
- 準確性評估
- 成本分析
- 相關性評估
- 延遲評估
- 失敗率評估