基準 Archives - AI書籤-全球ai人工智慧產品和服務

promptbench：統一的語言模型評估框架

PromptBench是一個基於Pytorch的Python包,用於評估大型語言模型(LLM)。它為研究人員提供了使用者友好的API,以便對LLM進行評估。主要功能包括:快速模型效能評估、提示工程、對抗提示評估以及動態評估等。優勢是使用簡單,可以快速上手評估已有資料集和模型,也可以輕鬆定製自己的資料集和模型。定位為LLM評估的統一開源庫。