Unitxt:靈活、可共享、可重複使用的生成式AI資料準備和評估工具
Unitxt是一款創新的庫,專為生成式語言模型量身定製,用於定製文字資料準備和評估。Unitxt與HuggingFace和LM-eval-harness等常用庫進行原生整合,並將處理流程拆分為模組化元件,實現了易定製和共享。這些元件包括模型特定格式、任務提示等全面的資料集處理定義。Unitxt-Catalog集中了這些元件,促進了現代文字資料工作流中的協作和探索。除了是一款工具,Unitxt還是一個社區驅動的平臺,賦予使用者協作構建、分享和推進他們的資料流水線的能力。