創建先進的大語言模型 (LLM) 的過程始于預訓練過程。預訓練最先進的模型具有很高的計算要求,因為熱門的開放權重模型具有數百億到數千億個參數,并使用數萬億個令牌進行訓練。模型智能隨著模型參數數量和訓練數據集大小的增加而增長,訓練模型所需的計算量也在增加,因此需要更高性能的訓練集群來解鎖更智能、更強大的模型,同時控制訓練時間。
預訓練模型后,可以對其進行后訓練,以進一步增強其功能。例如,企業可以使用自己的專有數據集定制預訓練模型,以提高該組織特定用例的知識水平和響應準確性。其他后訓練技術可用于增加支持的上下文長度,以及增強具有推理能力的模型。總體而言,雖然單個模型的后訓練計算密集程度可能比現在的預訓練模型低,但隨著研究人員尋找提高模型能力的新方法,以及許多組織可以自定義模型,后訓練模型的計算密集程度也在快速增長。
MLPerf Training v5.0 是長期運行的 MLPerf Training 系列基準測試的最新版本,用于測量平臺將模型訓練到預定質量值的速度。該基準測試套件目前由七個基準測試組成,涵蓋多個領域:LLM 預訓練、LLM 微調、文本生成圖像、推薦系統、圖神經網絡、自然語言處理和物體檢測。
在最新一輪 MLPerf 訓練中,NVIDIA 平臺在所有七個基準測試中提供了最快的訓練時間。
基準測試 | 訓練時間 (分鐘) |
LLM 預訓練 ( Llama 3.1 405B) | 20.8 |
LLM 微調 ( Llama 2 70B-LoRA) | 0.56 |
文本轉圖像 ( Stable Diffusion v2) | 1.04 |
Graph Neural Network (R-GAT) | 0.84 |
Recommender (DLRM-DCNv2) | 0.7 |
自然語言處理 (BERT) | 0.3 |
Object Detection (RetinaNet) | 1.4 |
MLPerf Training v5.0 結果于 2025 年 6 月 4 日從 www.mlcommons.org 的以下條目中檢索到:5.0-0010 (NVIDIA) 、5.0 – 0074 (NVIDIA) 、5.0 – 0076 (NVIDIA) 、5.0 – 0077 (NVIDIA) 、5.0 – 0087 (SuperMicro) 。MLPerf 名稱和徽標均為 MLCommons 協會在美國和其他國家 地區的商標。保留所有權利。嚴禁未經授權使用。有關更多信息,請參閱 www.mlcommons.org。
本輪也標志著首批使用 NVIDIA GB200 NVL72 機架級擴展系統的 MLPerf 訓練提交,NVIDIA 以及許多 NVIDIA 合作伙伴都取得了出色的結果。本文將詳細介紹這些結果及其實現方式。
NVIDIA Blackwell 為 LLM 預訓練提供巨大助力
與上一代 NVIDIA Hopper 架構相比,NVIDIA Blackwell 采用了許多架構創新。這些進步包括顯著提高每個 GPU 的計算性能,以及第五代 NVLink 和 NVLink Switch 等技術,這些技術增加了 GPU 之間的帶寬,并顯著擴展了 NVLink 域的大小,使模型開發者能夠更快地訓練模型。
這些突破包括新的第二代 Transformer 引擎、更快、更寬的 NVIDIA NVLink 互連以及更高帶寬和更大容量的 HBM3e 顯存。這些架構功能通過 NVIDIA 軟件堆棧中的許多創新激活,在使用 512 個 GPU 運行 Llama 3.1 405B 基準測試時,與 Hopper 相比,GB200 NVL72 的訓練速度提高了 2.2 倍。借助 Llama 3.1 405B 預訓練基準,GB200 NVL72 可實現高達 1960 TFLOPS 的訓練吞吐量。
基準測試 | # GPUs | Hopper | Blackwell | Blackwell Speedup |
Llama 3.1 405B | 512 | 269.12 min. | 121.09 min. | 2.2x |
?
GB200 NVL72 系統配備 72 個 Blackwell GPU,通過 GPU 和 GB200 NVL72 機架中的 NVLink Switch 芯片上的 NVLink 連接在單個 NVLink 域上。NVIDIA 和合作伙伴提交的 GB200 NVL72 使用針對 GB200 NVL72 系統拓撲優化的模型并行映射,以更大限度地提高訓練吞吐量。
Blackwell 在主流 AI 數據格式方面的峰值計算性能也遠高于 Hopper。為了利用這種更高的計算性能,NVIDIA cuBLAS 庫 (具有關鍵的線性代數運算,包括通用矩陣乘法 (GEMM)) 已針對 Blackwell 架構進行優化,并針對 GB200 NVL72 進行了額外調優。
另一個重要的優化是使用 CUDA 圖形在每個 GPU 上處理 LLM 的完整向前 – 向后圖形,而不是每個 Transformer 層使用一個圖形。這允許跨 Transformer 層重復使用 GPU 顯存,從而顯著減少與使用 CUDA 圖形相關的顯存占用。它還有助于更大限度地減少執行期間的主機 CPU 用度,這是在驅動超快的 Blackwell GPU 時的關鍵優化。隨著訓練跨數千個 GPU 進行擴展,以及每個 GPU 執行的工作量減少,通過 CUDA Graphs 消除主機用度也顯著提高了 LLM 的可擴展性。
接下來,為了提高 GB200 NVL72 上的 GPU 利用率,NVIDIA 在本輪提交的結果中重點介紹了 GEMM 和 GPU 到 GPU 通信操作的優化重疊執行。其中包括使用 CUDA 流優先級功能,在通信核函數與數學核函數同時運行時提高調度器級別的通信核函數的優先級;以及使用基于復制引擎的實現來減少散點和全聚函數 (用于張量并行 (TP)) ,以在數學運算處于關鍵路徑時盡可能減少 TP 集合的 SM 要求。這些優化可通過 NVIDIA 軟件堆棧 (包括 NeMo、Megatron-Core、Transformer 引擎和 cuBLAS 庫) 獲得。
GB200 NVL72 系統的 NVLink 域大小是上一代 Hopper 架構的 9 倍。為了優化性能并提供出色的可擴展性,NVIDIA 在 Megatron-Core 訓練庫中實施了一項功能,允許對并行映射進行靈活排序。特別是,除了 Megatron-Core 支持的現有 Tensor Parallel-Context Parallel-Data Parallel-Pipeline Parallel (TP-CP-DP-PP) 映射之外,現在還支持 TP-CP-PP-DP (或“DP-Last”) 。在以本次提交所用的比例 ( 512 至 2496 個 GPU) 運行 Llama 3.1 405B 基準測試時,這對于基于 GB200 NVL72 的系統是最佳選擇。
最后,本輪提交的作品在向后傳遞中使用了增強的 Flash Attention 內核,該內核可更仔細地管理 GPU 寄存器使用情況,以最大限度地減少寄存器溢出。從 v9.9.0 開始,您可以直接通過 cuDNN 獲得優化。由于雙向上下文并行,注意力執行被分成兩個 GPU,每個 GPU 可處理多達 4096 個序列。借助此優化,使用因果掩碼和序列長度為 4096 的注意力反向核函數可將速度提高 1.3 倍。
Blackwell 加速 LLM 微調
許多組織會自定義現有的預訓練模型,為特定任務或應用領域提供高準確性。MLPerf Training v5.0 加入了 LLM 微調基準測試,該基準測試將低秩自適應 (LoRA) 技術應用于 Llama 2 70B。更快的模型微調使組織能夠更快速地部署針對其特定用例定制的模型,從而縮短部署時間。
與上一輪中使用搭載 8 個 NVIDIA H100 Tensor Core GPU 的 NVIDIA DGX H100 系統提交的 NVIDIA 測試結果相比,8 個 Blackwell GPU 作為 GB200 NVL72 系統的一部分運行,可將訓練時間縮短 2.5 倍。
基準測試 | # GPUs | Hopper | Blackwell | Blackwell Speedup |
Llama 2 70B LoRA | 8 | 27.93 min. | 11.14 min. | 2.51x |
?
相較于 Hopper,每個 Blackwell GPU 的計算性能可大幅提升速度,此外,Blackwell 更大的內存容量還可讓整個 Llama 2 70B 模型適應單個 GPU。這有助于減少模型并行通信的數量,進而提高每個 GPU 的吞吐量。
NVIDIA 提交作品中的 SwiGLU 輸入也以 FP8 格式而不是較大的 BF16 格式存儲,這進一步減少了內存占用。該優化與上述更大的顯存容量相結合,可完全通過數據并行進行訓練,從而避免所有模型并行通信用度。
此提交作品還受益于作為 cuDNN 一部分的增強型均方根層歸一化 (RMSNorm) 內核。RMSNorm 是最新 LLM 中使用的關鍵運算,可隨著模型的增長提高穩定性。
最后,在結果提交后,NVIDIA 實施了額外的優化,提高了 Hopper 和 Blackwell GPU 的性能。這些優化均計劃在 NVIDIA NeMo Framework 25.07 版本中進行。
Llama 2 70B LoRA | # GPUs | June 2025 Unverified Result |
加速與驗證結果對比 |
NVIDIA H200 | 8 | 21.84 min. | 10% |
Blackwell (GB200 NVL72) | 8 | 10.34 min. | 8% |
?
Blackwell 增強文本轉圖像預訓練
在 Stable Diffusion v2 預訓練基準測試中,與上一輪使用 H100 Tensor Core GPU 提交的 NVIDIA 結果相比,GB200 NVL72 的每個 GPU 性能提高了 2.6 倍,并創下了新的大規模性能記錄。
基準測試 | # GPUs | Hopper | Blackwell | Blackwell Speedup |
Stable Diffusion v2 | 8 | 33.97 min. | 12.86 min. | 2.64x |
?
這些出色結果的背后是幾項關鍵優化。
首先是經過改進的 Apex GroupNorm 內核,可減少內存占用并提高性能。接下來,NVIDIA 在本輪提交的結果中,通過在 Apex DistributedAdam 內核中管線化 reduce-scatter 和 AllReduce 操作,改進了數據并行通信。最后,通過增加分布式優化器組大小以在 NVLink 域中使用 72 個 GPU,NVIDIA 本輪提交的結果在 72 個 GPU 規模的提交以及 512 個 GPU 的最大規模下實現了更高的性能。
Blackwell 加速圖形神經網絡訓練性能
在基于 R-GAT 的 R – GAT 訓練測試中,與使用 H100 Tensor Core GPU 的 NVIDIA 提交相比,使用 GB200 NVL72 的 NVIDIA 提交的每個 GPU 性能提高了 2.2 倍。
基準測試 | # GPUs | Hopper | Blackwell | Blackwell Speedup |
GNN | 8 | 11.18 min. | 4.97 min. | 2.25x |
?
這些結果是通過許多優化實現的,包括擴展 CUDA 圖形的范圍以包括優化器,從而降低 CPU 開銷。
我們還融合了幾個受延遲限制的小型復制操作,這些操作是通過 Triton 內核為 CUDA 圖形設置數據緩沖區所需的,從而顯著減少啟動復制操作的開銷。
要點
隨著 AI 模型從訓練和后訓練過渡到部署,這些性能提升可以縮短解決問題的時間,并最終實現價值。更高的性能可以支持訓練更大、更復雜的基礎模型,為更強大的推理模型奠定基礎。
要在 NVIDIA MLPerf v5.0 提交的 Llama 2 70B LoRA 微調和 Llama 405B 預訓練中重現這些結果,請參閱為 LLM 基準測試重現 NVIDIA MLPerf v5.0 訓練分數。提交庫還包含 README 文件,用于重現所有基準測試的分數。例如,請參閱 Llama 2 70B LoRA 微調基準和 Llama 3.1 405B 基準測試。