Skywork-MoE-Base-FP8:146億引數的高效能MoE模型
Skywork-MoE是一個具有146億引數的高效能混合專家(MoE)模型,擁有16個專家和22億啟用引數。該模型從Skywork-13B模型的密集型檢查點初始化而來。引入了兩種創新技術:門控邏輯歸一化,增強專家多樣化;自適應輔助損失係數,允許層特定的輔助損失係數調整。
Skywork-MoE是一個具有146億引數的高效能混合專家(MoE)模型,擁有16個專家和22億啟用引數。該模型從Skywork-13B模型的密集型檢查點初始化而來。引入了兩種創新技術:門控邏輯歸一化,增強專家多樣化;自適應輔助損失係數,允許層特定的輔助損失係數調整。