Megatron-LM:大規模訓練 Transformer 模型的持續研究

Link:megatron-lm
Megatron-LM 是由 NVIDIA 應用深度學習研究團隊開發的一種強大的大規模 Transformer 模型。該產品用於大規模訓練 Transformer 語言模型的持續研究。我們使用混合精度,高效的模型並行和資料並行,以及多節點的 Transformer 模型(如 GPT、BERT 和 T5)的預訓練。

需求人群:

"適用於訓練大規模語言模型的研究和實踐場景"

產品特色:

高效訓練大規模語言模型

模型並行和資料並行支援

支援 GPT、BERT 和 T5 等 Transformer 模型

返回頂端