連結:https://huggingface.co/Skywork/Skywork-MoE-Base-FP8
Skywork-MoE是一個具有146億引數的高效能混合專家(MoE)模型,擁有16個專家和22億啟用引數。該模型從Skywork-13B模型的密集型檢查點初始化而來。引入了兩種創新技術:門控邏輯歸一化,增強專家多樣化;自適應輔助損失係數,允許層特定的輔助損失係數調整。Skywork-MoE在各種流行基準測試中,如C-Eval、MMLU、CMMLU、GSM8K、MATH和HumanEval,展現出與引數更多或啟用引數更多的模型相當的或更優越的效能。
需求人群:
- Skywork-MoE模型適合需要處理大規模語言模型訓練和推理的研究人員和開發者。它提供了高效的引數利用和強大的計算效能,尤其適合在資源受限或需要快速推理的場景中使用。
使用場景示例:
- 研究人員使用Skywork-MoE進行自然語言處理任務的模型訓練和測試。
- 企業利用Skywork-MoE模型進行產品文檔的自動生成和問答系統開發。
- 教育機構採用Skywork-MoE模型輔助教學內容的自動生成和學生作業的自動批改。
產品特色:
- 具有146億引數的大規模MoE模型
- 16個專家和22億啟用引數
- 門控邏輯歸一化技術
- 自適應輔助損失係數調整
- 在多個基準測試中表現出色
- 支援fp8精度執行,最佳化資源利用