Skywork-MoE-Base:1460億引數的高效能混合專家模型

Skywork-MoE-Base是一個具有1460億引數的高效能混合專家(MoE)模型,由16個專家組成,並啟用了220億引數。該模型從Skywork-13B模型的密集型檢查點初始化而來,並引入了兩種創新技術:門控邏輯歸一化增強專家多樣化,以及自適應輔助損失係數,允許針對層特定調整輔助損失係數。