NVIDIA Grace CPU 實現全球頂級數據中心性能和突破性能效優勢

NVIDIA 將 NVIDIA Grace CPU 設計為一種新型高性能數據中心 CPU，旨在提供突破性的能效，并針對數據中心規模的性能進行了優化。

與傳統 CPU 計算相比，加速計算在性能和能效方面實現了巨大的飛躍。為了實現這些加速，需要數據中心規模的全棧創新，涵蓋芯片、系統、軟件和算法。為適合的工作負載選擇合適的架構并提供出色的節能性能對于最大限度地提高數據中心的性能和最小化占用空間至關重要。

隨著工作負載的加速程度不斷提高，目前仍有一些用例主要在傳統 CPU 上運行，尤其是圖形分析等稀疏和“分支”序列化任務的代碼。與此同時，數據中心受到越來越多的電力限制，限制了其能力的增長。這意味著所有可以加速的工作負載都應該加速。那些無法加速的工作負載必須在盡可能高效的計算上運行，而 CPU 必須針對這些工作負載進行優化。

節能高效的新型 Grace CPU 需要出色的單線程性能，以及足夠多的核心以便同時運行多個應用程序。每個核心都需要大量內存帶寬，以確保高 CPU 核心利用率，以及彼此快速高效地進行通信的能力。

專為提高能效而設計，不損害性能

NVIDIA Grace 架構專為加速計算領域而設計，其中 GPU 和 CPU-GPU 架構緊密合并，可加速數據中心。此類架構需要具有出色單線程性能、快速互連網絡、卓越能效和高內存帶寬的 CPU。

NVIDIA Grace CPU 將 72 個高性能、高能效的 Arm Neoverse V2 核心與 NVIDIA Scalable Coherency Fabric (SCF) 連接在一起。NVIDIA SCF 是一種高帶寬片上網絡結構，可提供總計 3.2 TB/s 的對分帶寬，是傳統 CPU 的兩倍。需要高帶寬片上網絡結構，以便通過保持 CPU 核心、緩存、內存以及系統輸入和輸出之間的數據流來提供更高的系統級性能。采用芯片集架構的傳統 CPU 能效較低，并且具有面積和通信開銷，導致性能不可預測。

Grace 是第一個使用具有服務器級可靠性的高速 LPDDR5X 內存的數據中心 CPU ，通過糾錯碼（ECC）等機制實現。通過使用這種更高效的內存類型和寬內存子系統，Grace 提供高達 500 GB/s 的內存帶寬，同時僅消耗傳統 DDR 內存的五分之一的能量，成本與傳統 DDR 內存相似。

這些眾多創新意味著 NVIDIA Grace CPU 超級芯片可提供出色的性能、內存帶寬和數據移動功能，并突破性地提高每瓦性能。在數據中心層面，這轉化為性能的代際飛躍和出色的總體擁有成本（TCO）。Grace 架構在數據中心級通用 CPU 中實現了這些優勢，這意味著它為微服務、數據分析、圖形分析和模擬等各種基礎數據中心工作負載提供通用性和性能。

The chart compares the NVIDIA Grace CPU Superchip with the Intel Xeon 8480+ and AMD EPYC 9654 2S servers across a range of application based workloads with NVIDIA Grace leading by up to 2x. — *圖 1. NVIDIA Grace CPU Superchip 性能與 x86 2S 服務器相比*

圖 1 比較了 NVIDIA Grace 架構與領先的 x86 服務器之間的每臺服務器的原始性能，并顯示其在 x86 競爭中提供領先的服務器級性能。

Grace 架構出色的內存帶寬和網絡性能使其在多種熱門應用中表現出色，包括

微服務： 小型獨立服務，可幫助數據中心輕松擴展并管理單個服務，而不會影響整個應用。經過工作負載測試的 Google 協議緩沖區可測量數據序列化和解析的速度，以便在微服務之間交換數據。
高性能計算 (HPC) 和數據分析：天氣預報和 Hi-Bench K-means Spark 等工作負載對可實現的內存帶寬高度敏感。Grace 擁有領先的內存帶寬和快速的 NVIDIA 設計的網絡，能夠在這些基準測試中提供出色的性能。
圖形分析： 在許多行業的金融服務、醫療健康以及營銷和運營中，圖形分析通常用作優化算法、欺詐檢測和社交網絡分析的一部分。在 GapBS 廣度優先搜索基準測試中，Grace 的網絡帶寬是傳統 x86 CPU 的兩倍，在競爭中脫穎而出。控制流擴展到所有可用的 CPU 核心，然后回落到單個 CPU 核心，從而受益于 CPU 核心之間的快速通信。

在諸如壓縮等工作負載中，Grace 可以與具有更多核心的產品表現出相似的性能，具有高性能核心和高帶寬的 NVIDIA SCF。

圖 2 顯示了這些服務器的能效。憑借低功耗和高帶寬顯存，Grace 在處理各種工作負載時，在相同功率范圍內的性能比競爭對手提升了 2 倍。

The chart compares the NVIDIA Grace CPU Superchip with the Intel Xeon 8480+ and AMD EPYC 9654 2S server energy efficiency across a range of application based workloads with NVIDIA Grace leading by up to 3x. — *圖 2. NVIDIA Grace CPU Superchip 能效與 x86 2S 服務器對比*

NVIDIA Grace 超級芯片配備 480GB 的 LPDDR5X，AMD EPYC 9654 配備 768GB 的 DDR5，Intel Xeon Platinum 8480+配備 1TB 的 DDR5。操作系統：Ubuntu 22.04；編譯器：GCC 12.3，除非特別注明。能效功耗包括 CPU+內存測量功耗。

壓縮：Snappy（Commit af720f9a3b2c831f173b6074961737516f2d3a46 | N 個并行實例）微服務：Google Protobufs（Commit 7cd0b6fbf1643943560d8a9fe553fd206190b27f | N 個并行實例）地震數據處理：SPECFEM3D four_material_simple_model；HPC SDK 24.3 CFD：OpenFOAM Motorbike | Large v2212 MD：CP2K RPA 2023.1 天氣：WRF CONUS12km x86：ICC 2024.01；氣候：NEMO Gyre_Pisces v4.2.0 天氣：ICON QUBICC 80 km 分辨率數據分析：HiBench+K-means Spark（HiBench 7.1.1，Hadoop 3.3.3，Spark 3.3.0；Grace：NVHPC 24.5，x86：Intel 2021.4）圖形分析：The Gap Benchmarks Suite BFS arXiv:1508.03619 [cs.DC]，2015。

NVIDIA Grace 提供始終如一的性能?

除了卓越的性能和能效外，Grace CPU 還旨在以確定性的性能保持穩定的性能水平。即使所有核心都處于活動狀態，Grace 也可以保持最大頻率，即使在功耗降低時也能提供高水平的性能。

NVIDIA SCF 消除了數據移動瓶頸。通過將高帶寬結構和寬 LPDDR5X 內存接口相結合，Grace CPU 即使在所有核心都處于活動狀態時也能實現超過 90% 的 STREAM 效率（相對于峰值額定帶寬的傳輸內存帶寬衡量指標）。相比之下，競爭系統的最大效率僅略高于 80%，而在所有核心都處于活動狀態時則會下降到 70% 左右（圖 3）。

Grace CPU 支持使用最佳數量的 CPU 核心，同時確保每個核心都可以充分利用可用的內存帶寬。因此，Grace 在受內存帶寬限制的工作負載（包括天氣預報或數據分析）中提供領先的性能（圖 1）。

A chart shows the increase in memory bandwidth per core that sustains close to the max throughout the use of the full CPU. — 圖 3.NVIDIA Grace CPU 提供平坦的 STREAM Triad 帶寬曲線。

基于 2x 9654 和 1 DPC（每通道 DIMM）以及 DDR5-4800 雙列 DIMM 的系統，對采用 STREAM Triad 的 AMD EPYC 9004 系列處理器的高性能調優指南中的競爭比較結果。

A chart compares Grace against x86 for STREAM efficiency, with Grace delivering over 90% efficiency at max bandwidth and with all cores active. — 圖 4.NVIDIA Grace CPU 超級芯片在最大帶寬和所有核心都處于活動狀態時，實現了超過 90% 的 STREAM 效率。

NVIDIA Grace CPU 超級芯片配備 480GB 的 LPDDR5X。操作系統：Ubuntu 22.04，編譯器：GCC 12.3。

基于 2x 9654 和 1 DPC（DIMM Per Channel）以及 DDR5-4800 Dual-Rank DIMMs 的系統，針對采用 STREAM Triad 的 AMD EPYC 9004 系列處理器的高性能調優指南中的競爭比較結果。

出色的數據中心性能?

在當今后摩爾定律時代，傳統的 CPU 方法要滿足對計算性能永無止境的需求，就需要大幅增加成本和能源。數據中心在供電方面受到限制，限制了其能力的增長。為了應對這些挑戰并支持可持續計算目標，現代數據中心必須加速所有工作負載。無法加速的工作負載必須使用現有的最節能計算。

NVIDIA Grace 能夠在相同的功率下提供兩倍的性能，從而應對這些挑戰，為優化數據中心帶來了新的機會。數據中心運營商可以選擇在相同的功率范圍內將性能翻倍，或者僅使用一半的能源來保持穩定的性能水平。這為在有限的功率預算下使用 GPU 加速節省的電量開辟了可能性。

NVIDIA Grace 是使用 Arm 標準構建的。這意味著，過渡到其他 Arm 數據中心級架構的任何工作都將在 Grace 上運行，而在 NVIDIA Grace 上完成的任何工作都將在 Arm 數據中心生態系統的其他部分運行。過渡到 NVIDIA Grace 還支持 CPU 和 GPU 架構與 NVIDIA GB200 Grace Blackwell Superchip 等產品緊密耦合。借助 Grace，數據中心可以在單個 CPU 架構上實現標準化，這也適用于整個 Arm 生態系統。

準備好開始了嗎？通過 NVIDIA LaunchPad 免費試用 NVIDIA Grace CPU 實驗室。

NVIDIA Grace CPU 實現全球頂級數據中心性能和突破性能效優勢

專為提高能效而設計，不損害性能

NVIDIA Grace 提供始終如一的性能?

出色的數據中心性能?

相關資源

標簽

關于作者

NVIDIA Grace CPU 實現全球頂級數據中心性能和突破性能效優勢

專為提高能效而設計，不損害性能

NVIDIA Grace 提供始終如一的性能?

出色的數據中心性能?

相關資源

標簽

關于作者

相關文章

借助 NVIDIA Grace 系列革新數據中心效率

相關文章

使用 NVIDIA NeMo Curator 構建 Nemotron-CC：一個高質量萬億令牌數據集，用于大型語言模型預訓練，源自 Common Crawl

聚焦：東京大學使用 NVIDIA Grace Hopper 進行開創性的節能地震研究

聚焦：Stone Ridge Technology 利用 AWS 上的 NVIDIA PhysicsNeMo 加速油藏模擬工作流

聚焦：借助 AVEVA 動態模擬和 NVIDIA Raptor 推進自動駕駛操作

NVIDIA cuDSS 庫推動美國電網優化無障礙發展