Skywork-MoE-Base-FP8:146億引數的高效能MoE模型

連結:https://huggingface.co/Skywork/Skywork-MoE-Base-FP8

Skywork-MoE是一個具有146億引數的高效能混合專家(MoE)模型,擁有16個專家和22億啟用引數。該模型從Skywork-13B模型的密集型檢查點初始化而來。引入了兩種創新技術:門控邏輯歸一化,增強專家多樣化;自適應輔助損失係數,允許層特定的輔助損失係數調整。Skywork-MoE在各種流行基準測試中,如C-Eval、MMLU、CMMLU、GSM8K、MATH和HumanEval,展現出與引數更多或啟用引數更多的模型相當的或更優越的效能。

需求人群:

  • Skywork-MoE模型適合需要處理大規模語言模型訓練和推理的研究人員和開發者。它提供了高效的引數利用和強大的計算效能,尤其適合在資源受限或需要快速推理的場景中使用。

使用場景示例:

  • 研究人員使用Skywork-MoE進行自然語言處理任務的模型訓練和測試。
  • 企業利用Skywork-MoE模型進行產品文檔的自動生成和問答系統開發。
  • 教育機構採用Skywork-MoE模型輔助教學內容的自動生成和學生作業的自動批改。

產品特色:

  • 具有146億引數的大規模MoE模型
  • 16個專家和22億啟用引數
  • 門控邏輯歸一化技術
  • 自適應輔助損失係數調整
  • 在多個基準測試中表現出色
  • 支援fp8精度執行,最佳化資源利用
返回頂端