劉振海 – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Fri, 07 Mar 2025 09:12:52 +0000
zh-CN
hourly
1
196178272 -
基于 1F1B 的 MoE A2A 通信計算 Overlap
http://www.open-lab.net/zh-cn/blog/1f1b-moe-a2a-computing-overlap/
Fri, 07 Mar 2025 09:10:13 +0000
http://www.open-lab.net/zh-cn/blog/?p=13059
Continued]]>
在 MoE 模型的訓練過程中,EP rank 之間的 A2A 通信在端到端時間中占據了相當大比重,對訓練效率影響很大,特別是對于 Fine-grained MoE model,EP size 會比較大,跨機通信基本無法避免。那么要如何減少 EP A2A 對整體訓練效率的影響呢? 關于如何用計算掩蓋 EP A2A 通信,我們注意到目前有以下這些研究(不完全統計): 以上方案有各自的不足之處: 我們分析認為, Deepseek DualPipe 調度核心亮點是實現了 batch 之間 EP A2A 通信和 attention 、mlp 計算 overlap 的精細化調度, 從而使得跨機 EP 成為可行的分布式策略。
Source
]]>
13059
人人超碰97caoporen国产