使用 GPU 加速 Apache Spark 上的 Apache Parquet 掃描

Thu, 03 Apr 2025 06:40:51 +0000

隨著各行各業企業的數據規模不斷增長， Apache Parquet 已成為一種重要的數據存儲格式。Apache Parquet 是一種列式存儲格式，專為大規模高效數據處理而設計。通過按列 (而非行) 組織數據，Parquet 可實現高性能查詢和分析，因為它可以只讀取查詢所需的列，而無需掃描整行數據。Parquet 的高效數據布局使其成為現代分析生態系統中的熱門選擇，特別是在 Apache Spark 工作負載方面。基于 cuDF 構建的 RAPIDS Accelerator for Apache Spark 支持 Parquet 作為一種數據格式，用于在 GPU 上以加速方式讀取和寫入數據。對于許多數據輸入大小以 TB 為單位的大規模 Spark 工作負載，高效的 Parquet 掃描對于實現良好的運行時性能至關重要。在本文中，

Source

]]>

使用 RAPIDS 的 Parquet 字符串數據的編碼和壓縮指南

Wed, 17 Jul 2024 04:36:41 +0000

Parquet Writer 提供了默認關閉的編碼和壓縮選項。啟用這些選項可以為數據提供更好的無損壓縮，但了解用于特定用例的選項對于確保它們按預期執行是至關重要的。在本文中，我們將探討哪些編碼和壓縮選項最適合您的字符串數據。字符串數據在數據科學中無處不在，用于表示小片段信息，如名稱、地址和數據標簽，以及大片段信息，如 DNA 序列、JSON 對象和完整文檔。首先，我們解釋每個選項。在 Parquet 格式中，有兩種 delta 編碼，旨在優化字符串數據的存儲。為了幫助分析每個選項，我們構建了一項工程研究，使用 libcudf 和 cudf.pandas 對來自公開來源的字符串數據進行分析，以比較 Parquet 的編碼和壓縮方法的有效性，使用文件大小、讀取時間和寫入時間作為指標。在 RAPIDS 開源加速數據科學庫套件中，

Source

]]>

Parquet – NVIDIA 技術博客

使用 GPU 加速 Apache Spark 上的 Apache Parquet 掃描

使用 RAPIDS 的 Parquet 字符串數據的編碼和壓縮指南