Paul Mattione – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Fri, 11 Apr 2025 06:44:05 +0000
zh-CN
hourly
1
196178272 -
使用 GPU 加速 Apache Spark 上的 Apache Parquet 掃描
http://www.open-lab.net/zh-cn/blog/accelerating-apache-parquet-scans-on-apache-spark-with-gpus/
Thu, 03 Apr 2025 06:40:51 +0000
http://www.open-lab.net/zh-cn/blog/?p=13530
Continued]]>
隨著各行各業企業的數據規模不斷增長, Apache Parquet 已成為一種重要的數據存儲格式。Apache Parquet 是一種列式存儲格式,專為大規模高效數據處理而設計。通過按列 (而非行) 組織數據,Parquet 可實現高性能查詢和分析,因為它可以只讀取查詢所需的列,而無需掃描整行數據。Parquet 的高效數據布局使其成為現代分析生態系統中的熱門選擇,特別是在 Apache Spark 工作負載方面。 基于 cuDF 構建的 RAPIDS Accelerator for Apache Spark 支持 Parquet 作為一種數據格式,用于在 GPU 上以加速方式讀取和寫入數據。對于許多數據輸入大小以 TB 為單位的大規模 Spark 工作負載,高效的 Parquet 掃描對于實現良好的運行時性能至關重要。 在本文中,
Source
]]>
13530
人人超碰97caoporen国产