Skywork-MoE:146億引數的高效能MoE模型

連結:https://github.com/SkyworkAI/Skywork-MoE

Skywork-MoE是一個具有146億引數的高效能混合專家(MoE)模型,包含16個專家和22億啟用引數。該模型從Skywork-13B模型的密集型檢查點初始化而來,並引入了兩種創新技術:門控邏輯歸一化增強專家多樣化,以及自適應輔助損失係數允許層特定的輔助損失係數調整。Skywork-MoE在效能上與引數更多或啟用引數更多的模型如Grok-1、DBRX、Mistral 8*22和Deepseek-V2相當或更優。

需求人群:

Skywork-MoE模型適合需要處理大規模語言模型訓練和推理的研究人員和開發者。它的高引數量和專家多樣化技術使其在處理複雜語言任務時表現出色,同時自適應輔助損失係數的調整能力允許模型針對特定層進行最佳化,提高模型效能和效率。

使用場景示例:

  • 在C-Eval、MMLU、CMMLU等流行基準測試上的評估
  • 使用HuggingFace進行Skywork-MoE-Base模型的推理示例
  • 基於vLLM的Skywork-MoE-Base模型快速部署示例

產品特色:

  • Gating Logit Normalization技術,增強專家多樣化
  • Adaptive Auxiliary Loss Coefficients技術,允許層特定的輔助損失係數調整
  • 與Hugging Face、ModelScope、Wisemodel等平臺相容
  • 支援在8xA100/A800或更高GPU硬體配置上進行推理
  • 提供vLLM模型推理的快速部署方法
  • 支援fp8精度,可在8*4090上執行Skywork-MoE-Base模型
  • 提供詳細的技術報告和社群許可協定
返回頂端