Link:promptfoo
promptfoo是一個用於評估LLM prompt質量和進行測試的庫。它能夠幫助您建立測試用例,設定評估指標,並與現有的測試和CI流程整合。promptfoo還提供了一個Web Viewer,讓您可以輕鬆地比較不同的prompt和模型輸出。它被用於服務超過1000萬使用者的LLM應用程式。
需求人群:
用於評估LLM prompt質量和進行測試
使用場景示例:
評估LLM生成的文字是否準確
測試不同的prompt對模型輸出的影響
比較不同模型在相同prompt下的表現
產品特色:
建立測試用例列表
使用內建的評估指標或自定義指標
比較不同的prompt和模型輸出