Deepmark AI :評估大型語言模型(LLM)的基準工具,對各種任務特定指標進行評估

Deepmark AI 是一款用於評估大型語言模型(LLM)的基準工具,可在自己的資料上對各種任務特定指標進行評估。它與 GPT、Anthropic、GPT-3.5 Turbo、Cohere、AI21 等領先的生成式 AI API 進行預整合。

Link:https://github.com/IngestAI/deepmark

需求人群:

  • Deepmark AI 適用於 Generative AI 構建者,可以根據特定用例的需求,透過迭代評估任務特定指標,識別出最可預測、可靠和經濟有效的生成式 AI 模型。

使用場景示例:

  • 在自定義資料集上評估不同的生成式 AI 模型
  • 對生成式 AI 模型的準確性進行測試
  • 評估生成式 AI 模型的成本效益

產品特色:

  • 可靠性評估
  • 準確性評估
  • 成本分析
  • 相關性評估
  • 延遲評估
  • 失敗率評估
返回頂端