Prem Sagar Gali – NVIDIA 技術博客

高效擴展 Polars 的 GPU Parquet 讀取器

Thu, 10 Apr 2025 06:09:06 +0000

在處理大型數據集時，數據處理工具的性能變得至關重要。 Polars 是一個以速度和效率聞名的開源數據操作庫，提供由 cuDF 驅動的 GPU 加速后端，可以顯著提高性能。 “但是，為了充分利用 Polars GPU 后端的強大功能，必須優化數據加載過程并有效管理工作流程所需的內存。隨著 GPU 后端開發的不斷推進，在使用 GPU Parquet 閱讀器時，隨著數據集大小的增加，我們還可以使用一些其他技術來保持高性能。現有的 Polars GPU Parquet 讀取器 (到版本 24.10) 無法針對更高的數據集大小進行擴展。” 本文將探討分塊 Parquet Reader 與 Unified Virtual Memory (UVM) 相結合后，如何在性能上優于非分塊閱讀器和基于 CPU 的方法。隨著規模系數 (SF) 的增加，

Source

]]>

掌握 cudf.pandas Profiler 實現 GPU 加速

Thu, 30 Jan 2025 05:01:33 +0000

在 Python 數據科學領域，pandas 長期以來一直是直觀數據操作和分析的首選庫。但是，隨著數據量的增長，CPU 受限的 pandas 工作流可能會成為瓶頸。這就是 cuDF 及其 pandas 加速器模式的用武之地。此模式可盡可能使用 GPU 加速操作，并無縫回退至 CPU 以執行不受支持的操作。此方法的基本支柱是分析器，該分析器可用于了解與 CPU 相比，GPU 上執行的代碼量。在本文中，我們將討論分析器是什么，如何使用它，以及為什么它對于理解和優化加速 pandas 工作負載至關重要。 Jupyter 和 IPython 中提供的 magic 命令是一種分析工具，可實時分析 pandas 式代碼。啟用擴展后，分析器將報告每個操作的執行設備 (GPU 或 CPU)，并統計特定函數或方法的觸發次數。通過捕獲這些數據，您可以快速確定以下內容：

Source

]]>

統一虛擬內存利用 RAPIDS cuDF 為 pandas 提供強力支持

Thu, 05 Dec 2024 07:07:40 +0000

上一篇文章中介紹的是一個 GPU 加速庫，可加速 pandas 以實現顯著的性能提升，速度最高可提升至原來的 50 倍，而無需對現有代碼進行任何更改。作為 NVIDIA RAPIDS 生態系統的一部分，充當代理層，盡可能在 GPU 上執行運算，必要時 (通過 pandas) 回退至 CPU。這可確保與完整的 pandas API 和第三方庫兼容，同時利用 GPU 加速加快數據處理速度。只需加載，用戶即可維護熟悉的 pandas 工作流程，同時獲得統一的 CPU/GPU 體驗。在幕后，默認使用托管內存池，使其能夠處理超過 GPU 物理內存的數據集。這是通過 CUDA Unified Virtual Memory (UVM) 實現的，可提供跨主機 (CPU) 和設備 (GPU) 內存的統一地址空間。UVM 允許超額訂閱 GPU 內存，根據需要自動在主機和設備之間遷移數據。

Source

]]>