Skywork-MoE-Base-FP8：146億引數的高效能MoE模型

連結：https://huggingface.co/Skywork/Skywork-MoE-Base-FP8

Skywork-MoE是一個具有146億引數的高效能混合專家(MoE)模型，擁有16個專家和22億啟用引數。該模型從Skywork-13B模型的密集型檢查點初始化而來。引入了兩種創新技術：門控邏輯歸一化，增強專家多樣化；自適應輔助損失係數，允許層特定的輔助損失係數調整。Skywork-MoE在各種流行基準測試中，如C-Eval、MMLU、CMMLU、GSM8K、MATH和HumanEval，展現出與引數更多或啟用引數更多的模型相當的或更優越的效能。

需求人群：

Skywork-MoE模型適合需要處理大規模語言模型訓練和推理的研究人員和開發者。它提供了高效的引數利用和強大的計算效能，尤其適合在資源受限或需要快速推理的場景中使用。

使用場景示例：

研究人員使用Skywork-MoE進行自然語言處理任務的模型訓練和測試。
企業利用Skywork-MoE模型進行產品文檔的自動生成和問答系統開發。
教育機構採用Skywork-MoE模型輔助教學內容的自動生成和學生作業的自動批改。

產品特色：

具有146億引數的大規模MoE模型
16個專家和22億啟用引數
門控邏輯歸一化技術
自適應輔助損失係數調整
在多個基準測試中表現出色
支援fp8精度執行，最佳化資源利用