Skywork-MoE-Base:1460億引數的高效能混合專家模型

連結:https://huggingface.co/Skywork/Skywork-MoE-Base

Skywork-MoE-Base是一個具有1460億引數的高效能混合專家(MoE)模型,由16個專家組成,並啟用了220億引數。該模型從Skywork-13B模型的密集型檢查點初始化而來,並引入了兩種創新技術:門控邏輯歸一化增強專家多樣化,以及自適應輔助損失係數,允許針對層特定調整輔助損失係數。Skywork-MoE在各種流行基準測試中表現出與引數更多或啟用引數更多的模型相當的或更優越的效能。

需求人群:

  • Skywork-MoE-Base模型適用於需要處理大規模語言模型推理的開發者和研究人員。其高效能和創新技術使其成為進行復雜文本生成和分析任務的理想選擇。

使用場景示例:

  • 用於生成關於中國各省份省會的詳細描述
  • 進行多輪對話生成,如連續提問各省省會
  • 快速部署用於研究和開發新的語言模型應用

產品特色:

  • 具有1460億引數的大規模混合專家模型
  • 16個專家和220億啟用引數
  • 引入門控邏輯歸一化和自適應輔助損失係數兩種創新技術
  • 在多個基準測試中表現優越
  • 支援Hugging Face模型推理
  • 提供基於vLLM的快速部署方法
  • 支援本地環境和Docker部署
返回頂端