fastc:輕量級文本分類工具,使用大型語言模型嵌入

連結:https://github.com/EveripediaNetwork/fastc

fastc是一個基於大型語言模型嵌入的簡單且輕量級的文本分類工具。它專注於CPU執行,使用高效的模型如deepset/tinyroberta-6l-768d生成嵌入。透過餘弦相似度分類代替微調,實作文本分類。它還可以在不增加額外開銷的情況下,使用相同的模型執行多個分類器。

需求人群:

  • 目標受眾為需要進行文本分類的開發者和資料科學家,尤其適合對計算資源有限制或希望快速部署文本分類模型的場景。

使用場景示例:

  • 社交媒體情緒分析,快速判斷使用者留言的情感傾向。
  • 產品留言分類,自動將使用者反饋歸類為正面或負面。
  • 資訊文章主題分類,將資訊自動分發到相應的主題欄目。

產品特色:

  • 專注於CPU執行,使用高效的模型生成嵌入。
  • 使用餘弦相似度進行文本分類,無需微調。
  • 支援多分類器執行,共享同一模型的嵌入。
  • 支援模型訓練和匯出,方便未來使用。
  • 可以將模型釋出到HuggingFace模型庫。
  • 支援從目錄或HuggingFace載入預訓練模型。
  • 提供類預測功能,包括單條和批量預測。

使用教學:

安裝fastc庫:透過Python的包管理工具pip安裝fastc。

準備資料集:收集並整理用於訓練分類器的文本資料。

訓練模型:使用fastc提供的SentenceClassifier類來訓練文本分類器。

儲存模型:訓練完成後,使用save_model方法儲存模型以供後續使用。

載入模型:透過SentenceClassifier類載入本地或HuggingFace上的預訓練模型。

進行預測:使用predict_one或predict方法對新文本進行情感分類預測。

返回頂端