YaFSDP:高效的分散式資料並行框架,專為大型語言模型設計
YaFSDP是一個分散式資料並行框架,專為與transformer類神經網路結構良好協作而設計。它在預訓練大型語言模型(Large Language Models, LLMs)時比傳統的FSDP快20%,並且在高記憶體壓力條件下表現更佳。YaFSDP旨在減少通訊和記憶體操作的開銷。
YaFSDP是一個分散式資料並行框架,專為與transformer類神經網路結構良好協作而設計。它在預訓練大型語言模型(Large Language Models, LLMs)時比傳統的FSDP快20%,並且在高記憶體壓力條件下表現更佳。YaFSDP旨在減少通訊和記憶體操作的開銷。