劉宏斌 – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Fri, 07 Mar 2025 09:12:52 +0000
zh-CN
hourly
1
196178272 -
基于 1F1B 的 MoE A2A 通信計算 Overlap
http://www.open-lab.net/zh-cn/blog/1f1b-moe-a2a-computing-overlap/
Fri, 07 Mar 2025 09:10:13 +0000
http://www.open-lab.net/zh-cn/blog/?p=13059
Continued]]>
在 MoE 模型的訓練過程中,EP rank 之間的 A2A 通信在端到端時間中占據了相當大比重,對訓練效率影響很大,特別是對于 Fine-grained MoE model,EP size 會比較大,跨機通信基本無法避免。那么要如何減少 EP A2A 對整體訓練效率的影響呢? 關于如何用計算掩蓋 EP A2A 通信,我們注意到目前有以下這些研究(不完全統計): 以上方案有各自的不足之處: 我們分析認為, Deepseek DualPipe 調度核心亮點是實現了 batch 之間 EP A2A 通信和 attention 、mlp 計算 overlap 的精細化調度, 從而使得跨機 EP 成為可行的分布式策略。
Source
]]>
13059
-
FP8 訓練的挑戰及最佳實踐
http://www.open-lab.net/zh-cn/blog/fp8-challenges-best-practices/
Thu, 24 Oct 2024 09:08:20 +0000
http://www.open-lab.net/zh-cn/blog/?p=11585
Continued]]>
本文主要介紹了FP8數據格式在大型模型訓練中的應用、挑戰及最佳實踐,展示了FP8在提升訓練速度和效率方面的潛力和實際效果。 一、FP8 格式 在介紹 FP8 格式之前,我們需要回答一個問題:為什么需要討論 FP8?從圖中可以看出,近年來大模型所需的算力急劇增長,從 GPT-1 到 GPT-3,再到類似 GPT-4 的 GPT MOE 1.8T,算力需求增長了數萬倍。這種增長速度的背后是硬件算力的提升。訓練過程中的一個重要指標是訓練時間。如果訓練一個模型需要半年甚至一年,這在實際操作中是不可行的,因為實際訓練時間可能是理論值的兩到三倍。因此,算力基礎設施的提升是大模型迅速發展的基礎。 從算力角度來看,近年來 GPU 的單卡算力提升了大約一千倍,這包括工藝制程的改進、硬件結構的優化以及更低的訓練精度。隨著 FP8 的引入,
Source
]]>
11585
人人超碰97caoporen国产