劉振海 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Fri, 07 Mar 2025 09:12:52 +0000 zh-CN hourly 1 196178272 基于 1F1B 的 MoE A2A 通信計算 Overlap http://www.open-lab.net/zh-cn/blog/1f1b-moe-a2a-computing-overlap/ Fri, 07 Mar 2025 09:10:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=13059 Continued]]> 在 MoE 模型的訓練過程中,EP rank 之間的 A2A 通信在端到端時間中占據了相當大比重,對訓練效率影響很大,特別是對于 Fine-grained MoE model,EP size 會比較大,跨機通信基本無法避免。那么要如何減少 EP A2A 對整體訓練效率的影響呢? 關于如何用計算掩蓋 EP A2A 通信,我們注意到目前有以下這些研究(不完全統計): 以上方案有各自的不足之處: 我們分析認為, Deepseek DualPipe 調度核心亮點是實現了 batch 之間 EP A2A 通信和 attention 、mlp 計算 overlap 的精細化調度, 從而使得跨機 EP 成為可行的分布式策略。

Source

]]>
13059
人人超碰97caoporen国产