• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 數據中心/云端

    在 NVIDIA Grace CPU 上使用 Polars 和 Apache Spark 實現高效 ETL

    NVIDIA Grace CPU 超級芯片可為數據中心和云端的 CPU 工作負載提供出色的性能和出色的能效。NVIDIA Grace 的優勢包括高性能 Arm Neoverse V2 核心、NVIDIA 設計的快速可擴展一致性結構(Scalable Coherency Fabric)以及低功耗高帶寬 LPDDR5X 內存。

    這些功能使 Grace CPU 成為處理 提取、加載、轉換 (ETL) 工作負載的理想選擇,展現出出色的性能。ETL 工作負載是在線分析處理 (OLAP) 和商業智能 (BI) 工作流的關鍵組成部分,使企業能夠獲得見解并改進組織決策制定。

    本文介紹了 NVIDIA Grace CPU 如何提供解決方案,在不影響性能的情況下,在單節點 Polars 和多節點 Apache Spark 上運行 ETL 工作負載時降低功耗。

    CPU 上的單節點 Polar

    Polars 是一個用于數據處理的開源庫。它通過其 Python API 為單節點工作負載提供高性能。Polars 通過其 pola-rs/polars-benchmark GitHub 存儲庫發布 PDS 基準測試 ,并實現了多個衍生自 TPC-H 的分析查詢。

    使用 PDS 獲得的結果無法與已發布的 TPC-H Benchmark 結果相比,因為使用 PDS 獲得的結果不符合 TPC-H Benchmark。PDS 基準測試包括使用 Polars LazyFrame 操作 實現的 22 個查詢,允許 Polars 優化器 應用預測、投影下推和其他優化。測試使用 Polars 版本 1.22.0 并啟用環境變量 POLARS_FORCE_NEW_STREAMING=1

    使用熱緩存 Parquet 數據源,以比例系數 100 (SF100 = 100 GB) 收集查詢運行時數據。英特爾 Sapphire Rapids 系統使用 Xeon Platinum 8480CL CPU,配備 112 個邏輯核心和 2 TB DDR5 系統內存。AMD Turin 系統使用 EPYC 9755 CPU、256 個邏輯核心和 1.5 TB DDR5 系統內存。對于 Intel Sapphire Rapids 和 AMD Turin 而言,將運行時間限制在單個插槽的物理核心時,可達到最佳運行時間。

    最后,NVIDIA Grace CPU 系統使用了 NVIDIA Grace CPU 超級芯片,配備了一個 NVIDIA Grace CPU,具有 72 個物理核心和 120 GB 的 LPDDR5X 系統內存。所有基準測試均在單個插槽上運行。運行 x86 CPU 基準測試時,使用環境變量 _RJEM_MALLOC_CONF=thp:always 啟用透明大頁 (THP)。

    Bar chart showing the sum of query runtime for Intel Sapphire Rapids, AMD Turin, and NVIDIA Grace CPU.
    圖 1。PDS SF100 中 22 條查詢的 CPU 型號查詢運行時

    在 PDS SF100 基準測試中,我們的團隊觀察到 NVIDIA Grace CPU 的速度比 AMD Turin 1S (測試中速度最快的 x86 CPU) 提高了 25%。加速的來源不受線程數、時鐘頻率、緩存帶寬或內存帶寬的影響。

    相反,我們發現在 Grace 中使用 64K 默認頁面大小與在 x86 中使用 4K 默認頁面大小和在 x86 上使用 2 MB THP 相比具有優勢。對于 AMD Turin,我們在雙插槽 (2S) 計算機上使用默認設置觀察到運行時間為 86 秒。將執行時間限制為一個插槽將運行時間縮短到 60 秒,啟用 THP 和禁用超線程將運行時間縮短到 41 秒 (圖 1)。

    對于 PDS 中的數據處理工作負載,NVIDIA Grace CPU 的開箱即用配置提供了最佳性能。如需詳細了解 NVIDIA Grace 的頁面大小和其他配置選項,請參閱 NVIDIA Grace 性能調整指南

    Bar chart showing the energy usage in Wh for servers using Intel Sapphire Rapids, AMD Turin, and NVIDIA Grace CPU.
    圖 2。對于 PDS SF100 中的 22 個查詢,使用 CPU 模型的服務器的能耗 (瓦時 Wh)

    對于 Polars PDS SF100,使用 NVIDIA Grace CPU 的服務器在能耗方面獲得了更大的改進,預計能耗比使用 x86 CPU 的同等服務器低 65%。能耗分析基于運行兩個 PDS SF100 工作負載實例的 2S 服務器。預計 NVIDIA Grace CPU Superchip 的能耗為 555 W,AMD Turin 為 1,120 W,Intel Sapphire Rapids 為 1,050 W。

    與競爭對手相比,NVIDIA Grace 提供了驚人的價值,每瓦性能提高 2.7 倍,每美元性能提高 1.6 倍。

    Bar chart showing the performance per dollar and performance per watt for NVIDIA Grace CPU and AMD Turin servers.
    圖 3。對于 PDS SF100 中的 22 個查詢,使用 CPU 模型的服務器的每美元性能和每瓦性能

    CPU 上的多節點 Apache Spark

    Apache Spark 是一款熱門且可靠的引擎,用于在多節點集群上執行數據工程、數據科學和機器學習工作負載。NVIDIA 在 NVIDIA/spark-rapids-benchmarks GitHub 存儲庫中開源了 NDS 基準測試工具集,并使用腳本運行衍生自 TPC-DS 的決策支持查詢。

    NDS 支持使用 Spark 執行 CPU,并支持使用 RAPIDS Accelerator For Apache Spark 插件執行 GPU。請注意,使用 NDS 獲得的任何結果都無法與已發布的 TPC-DS Benchmark 結果進行比較,因為使用 NDS 獲得的結果不符合 TPC-DS Benchmark。

    該測試使用 Spark 版本 3.3.3,依次執行了 99 個查詢,其中查詢 14、23、24 和 39 分為兩部分。使用 HDFS(Hadoop Distributed File System)數據源,以比例系數 3,000(SF3K = 3 TB)收集查詢運行時數據。

    兩個集群用于評估 NDS SF3K 工作負載的 Spark 性能。第一個集群使用了 8 個節點,每個節點都有一個 AMD Genoa EPYC 9354 CPU 和 528 GB 的系統內存。第二個集群還使用了 8 個節點,每個節點都有一個 NVIDIA Grace CPU Superchip 和 240 GB 的 LPDDR5 系統內存。

    Bar chart showing the energy usage for AMD Genoa and NVIDIA Grace C2 clusters.
    圖 4。NDS SF3K (由 Apache Spark 在 8 節點集群上運行) 中的 99 個查詢的能耗 (按 CPU 模型計算) (瓦時)

    對于 NDS SF3K 基準測試,我們的團隊觀察到兩個 8 節點集群的運行時性能相似,其中 NVIDIA Grace CPU 集群幾乎與 AMD Genoa 集群相匹配。

    但是,如果將每個 Grace 節點的估計能耗值 ( 555 瓦) 和每個 Genoa 節點的估計能耗值 ( 795 瓦) 考慮在內,NVIDIA Grace CPU 集群在相同功率下提供的性能比 AMD Genoa 集群高出近 40%。

    總結

    ETL 工作負載對于當今的組織深入了解其數據至關重要。性能特征強調了大量的數據移動、頻繁的通信和有限的矢量化機會。Grace 架構優化了一系列數據分析,包括 ETL 工作負載,具有高性能核心、快速的結構和巨大的內存帶寬,加上更高的默認頁面大小和更低的能耗

    NVIDIA Grace CPU 可降低數據中心 ETL 工作負載的 TCO,與新一代 x86 CPU 相比,其每瓦性能提升高達 2.7 倍,每美元性能提升高達 1.6 倍。

    為 ETL 工作負載部署 NVIDIA Grace 將提供領先的性能,同時節省功耗,并使客戶能夠將節省的電量用于 AI 功能。

    過渡到基于 Arm 的 NVIDIA Grace 還可以實現 CPU 和 GPU 架構與 NVIDIA GB200 Grace Blackwell Superchip 在 NVIDIA GB200 NVL72 中的緊密結合 。借助 Grace,數據中心可以在單個 CPU 架構上實現標準化,該架構也適用于整個 Arm 生態系統。

    詳細了解 NVIDIA Grace CPU,包括軟件和系統設置。

    ?

    0

    標簽

    人人超碰97caoporen国产