Matt Ahrens – NVIDIA 技術博客

使用 GPU 預測 Apache Spark 的性能

Thu, 15 May 2025 07:04:19 +0000

大數據分析領域正在不斷尋找加速處理和降低基礎設施成本的方法。Apache Spark 已成為用于橫向擴展分析的領先平臺，可處理 ETL、機器學習和深度學習工作負載的大型數據集。雖然傳統上基于 CPU，但 GPU 加速的出現提供了一個令人信服的前景：顯著加速數據處理任務。但是，將 Spark 工作負載從 CPU 遷移到 GPU 并非易事。GPU 加速雖然對某些操作非常強大，但不一定能提高每個場景中的性能。小型數據集、大量數據移動以及使用用戶定義函數 (User-Defined Functions, UDFs) 等因素有時會對 GPU 性能產生負面影響。相反，涉及高基數數據的工作負載，例如連接、聚合、排序、窗口操作和轉碼任務 (例如編碼/壓縮 Apache Parquet 或 Apache ORC 或解析 CSV) 通常是 GPU 加速的積極指標。

Source

]]>

使用 GPU 加速 Apache Spark 上的 Apache Parquet 掃描

Thu, 03 Apr 2025 06:40:51 +0000

隨著各行各業企業的數據規模不斷增長， Apache Parquet 已成為一種重要的數據存儲格式。Apache Parquet 是一種列式存儲格式，專為大規模高效數據處理而設計。通過按列 (而非行) 組織數據，Parquet 可實現高性能查詢和分析，因為它可以只讀取查詢所需的列，而無需掃描整行數據。Parquet 的高效數據布局使其成為現代分析生態系統中的熱門選擇，特別是在 Apache Spark 工作負載方面。基于 cuDF 構建的 RAPIDS Accelerator for Apache Spark 支持 Parquet 作為一種數據格式，用于在 GPU 上以加速方式讀取和寫入數據。對于許多數據輸入大小以 TB 為單位的大規模 Spark 工作負載，高效的 Parquet 掃描對于實現良好的運行時性能至關重要。在本文中，

Source

]]>

使用 GPU 在 Apache Spark 上加速 JSON 處理

Wed, 29 Jan 2025 05:26:22 +0000

JSON 是一種熱門的文本數據格式，可實現 Web 應用程序中系統之間的互操作性以及數據管理。這種格式自 21 世紀初就已存在，源于 Web 服務器和瀏覽器之間的通信需求。標準 JSON 格式由可包含嵌套對象的鍵值對組成。JSON 在存儲 Web 事務信息方面的使用有所增長，并且可能包含非常大的值，有時每條記錄的大小超過 1 GB。首先，解析和驗證 JSON 不是與 GPU 加速相關的任務，因為文本格式的大小不規則，并且沒有默認順序。但是，隨著 JSON 在許多企業數據應用程序中的使用，對加速的需求也在增長。對于《財富》100 強零售公司而言，使用 JSON 格式存儲基本庫存數據。JSON 格式支持與產品分類和庫存相關的非結構化數據。針對點擊流數據的 JSON 處理包括在單個 Spark 工作負載中處理數十 TB 的 JSON 數據的大型查詢。

Source

]]>