連結:https://huggingface.co/CofeAI/Tele-FLM
Tele-FLM(亦稱FLM-2)是一個52億引數的開源多語言大型語言模型,具有穩定高效的預訓練範式和增強的事實判斷能力。基於解碼器僅變換器架構,已在大約2T的token上進行訓練。Tele-FLM在同等規模上展現出優越的效能,有時甚至超越了更大的模型。除了分享模型權重外,我們還提供了核心設計、工程實踐和訓練細節,期待它們對學術界和工業界社群都有所裨益。
需求人群:
- Tele-FLM主要面向需要處理和生成多語言文本的開發者和研究人員,特別是那些在自然語言處理領網網域尋求高效、高效能模型的專業人士。
使用場景示例:
- 用於生成特定領網網域的文本摘要。
- 在問答系統中提供準確的資訊檢索和回答。
- 作為聊天機器人的後端,提供流暢的對話體驗。
產品特色:
- 基於變換器架構的解碼器僅模型,最佳化了事實判斷能力。
- 支援多種語言,包括英語和中文。
- 提供核心設計和工程實踐,方便社群使用和學習。
- 訓練資料包含多個領網網域,覆蓋廣泛的知識。
- 採用3D並行訓練技術,提高訓練效率。
- 在多個評估基準上展現出良好的效能。
使用教學:
1. 匯入torch和transformers庫。
2. 使用AutoTokenizer和AutoModelForCausalLM從預訓練模型中載入tokenizer和模型。
3. 將輸入文本透過tokenizer轉換為模型可理解的格式。
4. 將轉換後的輸入資料傳送到模型的設備上。
5. 使用model.generate方法生成文本。
6. 使用tokenizer.decode方法將生成的文本解碼回可讀格式。
7. 列印最終生成的文本。