MoE模型

DeepSeek Chat：基於2千億MoE模型的領先AI技術，提供超低價格和越級場景體驗

DeepSeek-V2是一款基於2千億引數量的MoE（Mixture of Experts）模型的AI技術產品，它在對話官網和API上全面上線，提供領先效能和超低價格。該產品在中文綜合能力（AlignBench）和英文綜合能力（MT-Bench）的評測中表現出色，與GPT-4-Turbo等閉源模型處於同一梯隊。

Skywork-MoE：146億引數的高效能MoE模型

MoE模型, 大規模語言模型

Skywork-MoE是一個具有146億引數的高效能混合專家(MoE)模型，包含16個專家和22億啟用引數。該模型從Skywork-13B模型的密集型檢查點初始化而來，並引入了兩種創新技術：門控邏輯歸一化增強專家多樣化，以及自適應輔助損失係數允許層特定的輔助損失係數調整。