Skywork-MoE:146億引數的高效能MoE模型
Skywork-MoE是一個具有146億引數的高效能混合專家(MoE)模型,包含16個專家和22億啟用引數。該模型從Skywork-13B模型的密集型檢查點初始化而來,並引入了兩種創新技術:門控邏輯歸一化增強專家多樣化,以及自適應輔助損失係數允許層特定的輔助損失係數調整。
Skywork-MoE是一個具有146億引數的高效能混合專家(MoE)模型,包含16個專家和22億啟用引數。該模型從Skywork-13B模型的密集型檢查點初始化而來,並引入了兩種創新技術:門控邏輯歸一化增強專家多樣化,以及自適應輔助損失係數允許層特定的輔助損失係數調整。