Tele-FLM:52B引數的開源多語言大型語言模型

連結:https://huggingface.co/CofeAI/Tele-FLM

Tele-FLM(亦稱FLM-2)是一個52億引數的開源多語言大型語言模型,具有穩定高效的預訓練範式和增強的事實判斷能力。基於解碼器僅變換器架構,已在大約2T的token上進行訓練。Tele-FLM在同等規模上展現出優越的效能,有時甚至超越了更大的模型。除了分享模型權重外,我們還提供了核心設計、工程實踐和訓練細節,期待它們對學術界和工業界社群都有所裨益。

需求人群:

  • Tele-FLM主要面向需要處理和生成多語言文本的開發者和研究人員,特別是那些在自然語言處理領網網域尋求高效、高效能模型的專業人士。

使用場景示例:

  • 用於生成特定領網網域的文本摘要。
  • 在問答系統中提供準確的資訊檢索和回答。
  • 作為聊天機器人的後端,提供流暢的對話體驗。

產品特色:

  • 基於變換器架構的解碼器僅模型,最佳化了事實判斷能力。
  • 支援多種語言,包括英語和中文。
  • 提供核心設計和工程實踐,方便社群使用和學習。
  • 訓練資料包含多個領網網域,覆蓋廣泛的知識。
  • 採用3D並行訓練技術,提高訓練效率。
  • 在多個評估基準上展現出良好的效能。

使用教學:

1. 匯入torch和transformers庫。

2. 使用AutoTokenizer和AutoModelForCausalLM從預訓練模型中載入tokenizer和模型。

3. 將輸入文本透過tokenizer轉換為模型可理解的格式。

4. 將轉換後的輸入資料傳送到模型的設備上。

5. 使用model.generate方法生成文本。

6. 使用tokenizer.decode方法將生成的文本解碼回可讀格式。

7. 列印最終生成的文本。

返回頂端