混合專家模型 Archives - AI書籤-全球ai人工智慧產品和服務

Skywork-MoE-Base：1460億引數的高效能混合專家模型

Skywork-MoE-Base是一個具有1460億引數的高效能混合專家(MoE)模型，由16個專家組成，並啟用了220億引數。該模型從Skywork-13B模型的密集型檢查點初始化而來，並引入了兩種創新技術：門控邏輯歸一化增強專家多樣化，以及自適應輔助損失係數，允許針對層特定調整輔助損失係數。

phixtral-2x2_8：混合專家模型，效能優於單個專家模型

文字生成, 混合專家模型

phixtral-2x2_8是第一個由兩個microsoft/phi-2模型製作的混合專家模型，受到mistralai/Mixtral-8x7B-v0.1架構的啟發。其效能優於每個單獨的專家模型。該模型在AGIEval、GPT4All、TruthfulQA、Bigbench等多個評估指標上表現優異。它採用了自定義版本的mergekit庫（mixtral分支）和特定配置。使用者可以在Colab notebook上以4位精度在免費的T4 GPU上執行Phixtral。模型大小為4.46B引數，張量型別為F16。