隨著模型規模的擴大以及使用更多數據進行訓練,它們的能力也隨之提升,實用性也隨之提升。為了快速訓練這些模型,需要在數據中心規模上提供更高的性能。NVIDIA Blackwell 平臺在 2024 年 GTC 大會上推出,現已全面投產,集成了七類芯片:GPU、CPU、DPU、NVLink Switch 芯片、InfiniBand Switch 和 Ethernet Switch。Blackwell 平臺在每個 GPU 的性能方面實現了巨大飛躍,旨在支持創建更大規模的 AI 集群,從而推動下一代 LLM 的開發。
在最新一輪的 MLPerf 訓練 (一套 AI 訓練基準測試) 中,NVIDIA 使用 Blackwell 平臺首次提交了基準測試預覽類別的測試結果。這些結果表明,在每個 MLPerf 訓練基準測試中,與基于 Hopper 的提交相比,每個加速器的提升幅度很大。亮點包括 GPT-3 預訓練的每個 GPU 性能提升 2 倍,以及 Llama 2 70B 低等級適應 (LoRA) 微調的 2.2 倍。NVIDIA 還在本輪的每項 MLPerf 訓練基準測試中提交了在 Blackwell 上運行的結果,與 Hopper 相比,全面實現了堅實的提升。
提交的每個系統均包含 8 個 Blackwell GPU,運行時熱設計功耗(TDP)為 1,000W,并使用第五代 NVLink 和最新的 NVLink Switch 進行連接。這些節點使用 NVIDIA ConnectX-7 SuperNIC 和 NVIDIA Quantum-2 InfiniBand 交換機進行連接。展望未來,GB200 NVL72 具有更多的計算能力、擴展的 NVLink 域、更高的內存帶寬和容量,并與 NVIDIA Grace CPU 緊密集成。與 HGX B200 相比,GB200 NVL72 預計可提供更高的每個 GPU 性能,并通過 ConnectX-8 SuperNIC 和新的 Quantum-X800 交換機實現高效擴展。
在本文中,我們將更深入地了解這些出色的結果。
增強 Blackwell 的軟件堆棧?
每一代新平臺,NVIDIA 都會廣泛地共同設計硬件和軟件,使開發者能夠實現出色的工作負載性能。Blackwell GPU 架構在 Tensor Core 計算吞吐量和內存帶寬方面實現了巨大的飛躍。NVIDIA 軟件堆棧的許多方面都得到了增強,以便在本輪 MLPerf 訓練中利用 Blackwell 顯著改進的功能,包括:
- 優化的 GEMMs、卷積和多頭注意力 :我們開發了新的內核,旨在高效利用 Blackwell GPU 架構中更快、更高效的 Tensor Cores。
- 更高效的計算和通信重疊 :架構和軟件增強功能允許在多 GPU 執行期間更好地利用可用的 GPU 資源。
- 提高內存帶寬利用率 :作為 cuDNN 庫的一部分,我們開發了新軟件,該軟件利用了 Hopper 架構中首次引入的 Tensor Memory Accelerator(TMA)功能,提高了 HBM 帶寬在包括 normalizations 在內的多項操作中的利用率。
- 性能更強的并行映射 :Blackwell GPU 引入更大的 HBM 容量,可實現語言模型的并行映射,從而更高效地利用硬件資源。
此外,為了提高 Hopper 的性能,我們增強了 cuBLAS ,支持更靈活的平鋪選項并改進了數據局部性。 cuDNN 中的優化的 Blackwell 多頭注意力核和卷積核利用了 cuDNN Runtime Fusion Engines。 NVIDIA Transformer Engine 庫有助于通過上述優化組合實現語言模型的優化性能。
Blackwell 架構中的許多創新、上述優化以及此處未介紹的軟件堆棧的許多其他增強功能相結合,有助于實現全面出色的性能提升。改進后的翻譯內容中,修正了標點符號,保持了原文的語義和結構。由于沒有出現 Names、LLM 模型和公式,因此無需進行替換
Blackwell 為 LLM 預訓練帶來了巨大的飛躍
MLPerf 訓練套件包含基于 OpenAI 開發的 GPT-3 模型的 LLM 預訓練基準測試。此測試旨在展示最先進的基礎模型訓練性能。在第四次提交的作品中,Blackwell 得出的每個 GPU 的性能是 Hopper 的兩倍。另外,與基于 NVIDIA Ampere 架構的 HGX A100(未經 MLCommons 驗證)收集的結果相比,每個 GPU 的性能提高了約 12 倍。

此外,由于 HGX B200 中每個 Blackwell GPU 的 HBM3e 顯存更大、帶寬更高,因此僅使用 64 個 GPU 即可運行 GPT-3 基準測試,而不會影響每個 GPU 的性能。與此同時,要使用 HGX H100 實現每個 GPU 的最佳性能,需要 256 個 GPU(32 臺 HGX H100 服務器)的提交規模。更高的每個 GPU 計算吞吐量與更大、更快速的高帶寬顯存相結合,使 GPT-3 175B 基準測試能夠在更少的 GPU 上運行,同時實現出色的每個 GPU 性能。
Blackwell 加速 LLM 微調?
隨著功能齊全的大型社區 LLMs(例如 Meta 的 Llama 家族模型)的出現,企業可以使用大量功能強大的預訓練模型。這些模型可以通過微調來提高特定任務的性能。MLPerf Training 最近添加了一項 LLM 微調基準測試,該基準測試對 Llama 2 70B 模型應用低等級自適應(LoRA)–一種參數高效微調(PEFT)。

在 LLM 微調基準測試中,與 HGX H100 服務器相比,單個 HGX B200 服務器的性能提升了 2.2 倍。這意味著,組織可以使用 Blackwell 比 Hopper 更快地自定義 LLM,從而縮短部署時間并最終實現價值。
Blackwell 在每個基準測試中提交的結果?
NVIDIA 在每個基準測試中都使用 Blackwell 提交了結果,實現了全面的顯著性能提升。
基準測試 | Blackwell 每 GPU 性能提升 與 最新 H100 性能對比 |
LLM LoRA 微調 | 2.2 倍 |
LLM 預訓練 | 2.0 倍 |
圖神經網絡 | 2.0 倍 |
文本轉圖像 | 1.7 倍 |
推薦系統 | 1.6 倍 |
物體檢測 | 1.6 倍 |
自然語言處理 | 1.4 倍 |
Hopper 繼續提供卓越性能?
NVIDIA Hopper 架構在 MLPerf Training v4.1 中的可用解決方案中繼續提供最高性能,無論是在標準化的每個加速器還是在規模上都是如此。例如,在 GPT-3 175B 基準測試中,自 MLPerf Training v3.0 基準測試中首次提交 Hopper(其結果于 2023 年 6 月發布)以來,每個加速器的 Hopper 性能提高了 1.3 倍。
除了改善每個 GPU 的交付性能外,NVIDIA 還顯著提高了擴展效率,使用 11,616 個 H100GPU 實現 GPT-3 175B 提交,從而繼續保持整體性能和提交規模的基準記錄。
NVIDIA 還使用 HGX H200 平臺提交了結果。NVIDIA H200 Tensor Core GPU 采用與 NVIDIA H100 Tensor Core GPU 相同的 Hopper 架構,配備 HBM3e 內存,提供 1.8 倍的內存容量和 1.4 倍的內存帶寬。在 Llama 2 70B 低等級適應性(LoRA)基準測試中,使用 H200 的 NVIDIA 8-GPU 提交的性能比 H100 提高了約 16%。
要點?
與 Hopper 平臺相比,NVIDIA Blackwell 平臺實現了顯著的性能飛躍,尤其是對于 LLM 預訓練和 LLM 微調,這些 MLPerf 訓練結果證明了這一點。另外,自推出以來,Hopper 通過軟件優化進一步提高了性能,繼續為每個 GPU 和大規模提供出色性能。在未來的 MLPerf 訓練回合中,我們期待更大規模地提交 Blackwell,以及提交使用機架級 GB200 NVL72 系統的結果。
?