deepseek – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Fri, 11 Jul 2025 03:45:58 +0000
zh-CN
hourly
1
196178272 -
突破延遲極限:在 NVIDIA Blackwell GPU 上優化 DeepSeek-R1 的性能
http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-gpu-deepseek-r1-optimization/
Fri, 11 Jul 2025 03:20:06 +0000
http://www.open-lab.net/zh-cn/blog/?p=14556
Continued]]>
近年來,大語言邏輯推理模型取得了顯著進步,但也帶來了新的部署挑戰。其中,因復雜的“思考與邏輯推理”過程而引起的輸出序列長度 (OSL) 的加長已成為一大難題。OSL 的加長提高了對 token 間延遲 (Token-to-Token Latency, TTL) 的要求,往往會引發并發限制。在最極端的情況下,實時應用會面臨單并發(最小延遲場景)這一特別棘手的問題。 本文將探討 TensorRT-LLM 如何基于 8 個 NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延遲場景中的性能紀錄:在 GTC 2025 前將 67 token / 秒 (TPS) 的速度提升至 253 TPS(提速 3.7 倍),而目前這一速度已達 368 TPS(提速 5.5 倍)。 實現配置 一、工作負載配置文件 輸入序列長度 (ISL):
Source
]]>
14556
-
基于 1F1B 的 MoE A2A 通信計算 Overlap
http://www.open-lab.net/zh-cn/blog/1f1b-moe-a2a-computing-overlap/
Fri, 07 Mar 2025 09:10:13 +0000
http://www.open-lab.net/zh-cn/blog/?p=13059
Continued]]>
在 MoE 模型的訓練過程中,EP rank 之間的 A2A 通信在端到端時間中占據了相當大比重,對訓練效率影響很大,特別是對于 Fine-grained MoE model,EP size 會比較大,跨機通信基本無法避免。那么要如何減少 EP A2A 對整體訓練效率的影響呢? 關于如何用計算掩蓋 EP A2A 通信,我們注意到目前有以下這些研究(不完全統計): 以上方案有各自的不足之處: 我們分析認為, Deepseek DualPipe 調度核心亮點是實現了 batch 之間 EP A2A 通信和 attention 、mlp 計算 overlap 的精細化調度, 從而使得跨機 EP 成為可行的分布式策略。
Source
]]>
13059
人人超碰97caoporen国产