• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 數據中心/云端

    NVIDIA Blackwell 在 MLPerf 訓練 v4.1 中將 LLM 訓練性能提高一倍

    隨著模型規模的擴大以及使用更多數據進行訓練,它們的能力也隨之提升,實用性也隨之提升。為了快速訓練這些模型,需要在數據中心規模上提供更高的性能。NVIDIA Blackwell 平臺在 2024 年 GTC 大會上推出,現已全面投產,集成了七類芯片:GPU、CPU、DPU、NVLink Switch 芯片、InfiniBand Switch 和 Ethernet Switch。Blackwell 平臺在每個 GPU 的性能方面實現了巨大飛躍,旨在支持創建更大規模的 AI 集群,從而推動下一代 LLM 的開發。

    在最新一輪的 MLPerf 訓練 (一套 AI 訓練基準測試) 中,NVIDIA 使用 Blackwell 平臺首次提交了基準測試預覽類別的測試結果。這些結果表明,在每個 MLPerf 訓練基準測試中,與基于 Hopper 的提交相比,每個加速器的提升幅度很大。亮點包括 GPT-3 預訓練的每個 GPU 性能提升 2 倍,以及 Llama 2 70B 低等級適應 (LoRA) 微調的 2.2 倍。NVIDIA 還在本輪的每項 MLPerf 訓練基準測試中提交了在 Blackwell 上運行的結果,與 Hopper 相比,全面實現了堅實的提升。

    提交的每個系統均包含 8 個 Blackwell GPU,運行時熱設計功耗(TDP)為 1,000W,并使用第五代 NVLink 和最新的 NVLink Switch 進行連接。這些節點使用 NVIDIA ConnectX-7 SuperNIC NVIDIA Quantum-2 InfiniBand 交換機進行連接。展望未來,GB200 NVL72 具有更多的計算能力、擴展的 NVLink 域、更高的內存帶寬和容量,并與 NVIDIA Grace CPU 緊密集成。與 HGX B200 相比,GB200 NVL72 預計可提供更高的每個 GPU 性能,并通過 ConnectX-8 SuperNIC 和新的 Quantum-X800 交換機實現高效擴展。

    在本文中,我們將更深入地了解這些出色的結果。

    增強 Blackwell 的軟件堆棧?

    每一代新平臺,NVIDIA 都會廣泛地共同設計硬件和軟件,使開發者能夠實現出色的工作負載性能。Blackwell GPU 架構在 Tensor Core 計算吞吐量和內存帶寬方面實現了巨大的飛躍。NVIDIA 軟件堆棧的許多方面都得到了增強,以便在本輪 MLPerf 訓練中利用 Blackwell 顯著改進的功能,包括:

    • 優化的 GEMMs、卷積和多頭注意力 :我們開發了新的內核,旨在高效利用 Blackwell GPU 架構中更快、更高效的 Tensor Cores。
    • 更高效的計算和通信重疊 :架構和軟件增強功能允許在多 GPU 執行期間更好地利用可用的 GPU 資源。
    • 提高內存帶寬利用率 :作為 cuDNN 庫的一部分,我們開發了新軟件,該軟件利用了 Hopper 架構中首次引入的 Tensor Memory Accelerator(TMA)功能,提高了 HBM 帶寬在包括 normalizations 在內的多項操作中的利用率。
    • 性能更強的并行映射 :Blackwell GPU 引入更大的 HBM 容量,可實現語言模型的并行映射,從而更高效地利用硬件資源。

    此外,為了提高 Hopper 的性能,我們增強了 cuBLAS ,支持更靈活的平鋪選項并改進了數據局部性。 cuDNN 中的優化的 Blackwell 多頭注意力核和卷積核利用了 cuDNN Runtime Fusion Engines。 NVIDIA Transformer Engine 庫有助于通過上述優化組合實現語言模型的優化性能。

    Blackwell 架構中的許多創新、上述優化以及此處未介紹的軟件堆棧的許多其他增強功能相結合,有助于實現全面出色的性能提升。改進后的翻譯內容中,修正了標點符號,保持了原文的語義和結構。由于沒有出現 Names、LLM 模型和公式,因此無需進行替換

    Blackwell 為 LLM 預訓練帶來了巨大的飛躍

    MLPerf 訓練套件包含基于 OpenAI 開發的 GPT-3 模型的 LLM 預訓練基準測試。此測試旨在展示最先進的基礎模型訓練性能。在第四次提交的作品中,Blackwell 得出的每個 GPU 的性能是 Hopper 的兩倍。另外,與基于 NVIDIA Ampere 架構的 HGX A100(未經 MLCommons 驗證)收集的結果相比,每個 GPU 的性能提高了約 12 倍。

    On the left is an enumeration of some of the key hardware and software advances that helped enable the performance gains demonstrated in the NVIDIA Blackwell submissions, and on the right is a chart showing performance improvements baselined to HGX A100, getting to a total of 12x more perf with HGX B200.
    圖 1、NVIDIA 全棧技術的進步顯著提升了 MLPerf Training LLM 預訓練基準測試的性能。 MLPerf Training,已關閉。 HGX H100(2023 年 6 月)、HGX H100(2024 年 11 月)和 HGX B200 結果(由 MLCommons Association 驗證)。 HGX A100 結果未經 MLCommons 驗證。 從 3.0-2069(512 H100 GPU)、4.1-0060(512 H100 GPU)和 4.1-0082(64 個 Blackwell GPU)條目中獲取驗證結果,并按 GPU 進行標準化。性能/GPU 不是 MLPerf 訓練的主要指標。MLPerf 名稱和徽標均為 MLCommons 協會在美國和其他國家/地區的注冊商標和非注冊商標。保留所有權利。嚴禁未經授權使用。詳情請參見 www.mlcommons.org。

    此外,由于 HGX B200 中每個 Blackwell GPU 的 HBM3e 顯存更大、帶寬更高,因此僅使用 64 個 GPU 即可運行 GPT-3 基準測試,而不會影響每個 GPU 的性能。與此同時,要使用 HGX H100 實現每個 GPU 的最佳性能,需要 256 個 GPU(32 臺 HGX H100 服務器)的提交規模。更高的每個 GPU 計算吞吐量與更大、更快速的高帶寬顯存相結合,使 GPT-3 175B 基準測試能夠在更少的 GPU 上運行,同時實現出色的每個 GPU 性能。

    Blackwell 加速 LLM 微調?

    隨著功能齊全的大型社區 LLMs(例如 Meta 的 Llama 家族模型)的出現,企業可以使用大量功能強大的預訓練模型。這些模型可以通過微調來提高特定任務的性能。MLPerf Training 最近添加了一項 LLM 微調基準測試,該基準測試對 Llama 2 70B 模型應用低等級自適應(LoRA)–一種參數高效微調(PEFT)。

    A slide showing that Blackwell delivered 2.2x more performance per GPU on Llama 2 70B fine-tuning, 2x faster on GPT-3 175B, and ran all benchmarks.
    圖 2、與 Hopper 相比,NVIDIA Blackwell 在 LLM 基準測試中將每個 GPU 的性能提高了一倍,并在所有 MLPerf Training v4.1 基準測試中實現了顯著的性能提升。 Llama 2 70B LoRA 微調的性能比較基于 DGX B200 8-GPU 提交(條目 4.1-0080,預覽類別)與使用 8-GPU HGX H100 的提交(條目 4.1-0050,可用類別)的比較。GPT-3 175B 的比較是基于 256 個 H100 GPU 提交(條目 4.1-0057,可用類別)的每個 GPU 的標準化性能與 64 個 Blackwell GPU 提交(條目 4.1-0082,預覽類別)的每個 GPU 的標準化性能的比較。結果由 MLCommons Association 驗證。MLPerf 名稱和徽標是 MLCommons 協會在美國和其他國家的注冊商標和非注冊商標。所有權利保留。未經授權嚴禁使用。更多信息請參閱 www.mlcommons.org

    在 LLM 微調基準測試中,與 HGX H100 服務器相比,單個 HGX B200 服務器的性能提升了 2.2 倍。這意味著,組織可以使用 Blackwell 比 Hopper 更快地自定義 LLM,從而縮短部署時間并最終實現價值。

    Blackwell 在每個基準測試中提交的結果?

    NVIDIA 在每個基準測試中都使用 Blackwell 提交了結果,實現了全面的顯著性能提升。

    基準測試 Blackwell 每 GPU 性能提升 最新 H100 性能對比
    LLM LoRA 微調 2.2 倍
    LLM 預訓練 2.0 倍
    圖神經網絡 2.0 倍
    文本轉圖像 1.7 倍
    推薦系統 1.6 倍
    物體檢測 1.6 倍
    自然語言處理 1.4 倍
    表 1. 與 Hopper 相比,Blackwell 的性能提升 (每個 GPU 標準化) MLPerf Training v4.1 已關閉。結果于 2024 年 11 月 13 日檢索自以下條目:4.1-0048、4.1-0049、4.1-0050、4.1-0051、4.1-0052、4.1-0078、4.1-0079、4.1-0080、4.1-0081、4.1-0082 通過比較每個 GPU 的標準化性能計算加速 每個 GPU 的性能并不是 MLPerf 訓練的主要指標 。MLPerf 名稱和徽標是 MLCommons 協會在美國和其他國家/地區的注冊商標和未注冊商標。保留所有權利。未經授權,嚴禁使用。詳情請參見 www.mlcommons.org。

    Hopper 繼續提供卓越性能?

    NVIDIA Hopper 架構在 MLPerf Training v4.1 中的可用解決方案中繼續提供最高性能,無論是在標準化的每個加速器還是在規模上都是如此。例如,在 GPT-3 175B 基準測試中,自 MLPerf Training v3.0 基準測試中首次提交 Hopper(其結果于 2023 年 6 月發布)以來,每個加速器的 Hopper 性能提高了 1.3 倍。

    除了改善每個 GPU 的交付性能外,NVIDIA 還顯著提高了擴展效率,使用 11,616 個 H100GPU 實現 GPT-3 175B 提交,從而繼續保持整體性能和提交規模的基準記錄。

    NVIDIA 還使用 HGX H200 平臺提交了結果。NVIDIA H200 Tensor Core GPU 采用與 NVIDIA H100 Tensor Core GPU 相同的 Hopper 架構,配備 HBM3e 內存,提供 1.8 倍的內存容量和 1.4 倍的內存帶寬。在 Llama 2 70B 低等級適應性(LoRA)基準測試中,使用 H200 的 NVIDIA 8-GPU 提交的性能比 H100 提高了約 16%。

    要點?

    與 Hopper 平臺相比,NVIDIA Blackwell 平臺實現了顯著的性能飛躍,尤其是對于 LLM 預訓練和 LLM 微調,這些 MLPerf 訓練結果證明了這一點。另外,自推出以來,Hopper 通過軟件優化進一步提高了性能,繼續為每個 GPU 和大規模提供出色性能。在未來的 MLPerf 訓練回合中,我們期待更大規模地提交 Blackwell,以及提交使用機架級 GB200 NVL72 系統的結果。

    ?

    0

    標簽

    人人超碰97caoporen国产