• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 數據中心/云端

    RAPIDS cuDF 在 Google Colab 上瞬間加速 pandas 達 50 倍

    在谷歌 I/O’24 上,谷歌人工智能倡導主管 Laurence Moroney 宣布:RAPID cuDF 現已集成到 Google Colab 中。這意味著,開發人員現在可以在谷歌 Colab 的 GPU 實例上將 panda 代碼加速到 50 倍,并且隨著數據的增長繼續使用 panda,而不會犧牲性能。

    RAPIDS cuDF 是一個基于 GPU 的 DataFrame 庫,可以在零代碼更改的情況下加速數據處理工具 Pandas。Google Colab 是基于 Python 的數據科學最受歡迎的平臺之一,它已經成為 一個月擁有超過 1000 萬用戶的標準工具

    作為一個云托管平臺,Colab 提供了一個開箱即用的數據科學筆記本環境,可以從瀏覽器訪問。其易于使用的基礎設施包括免費和付費層的 GPU。

    您可以使用啟用 GPU 的 Colab 筆記本電腦頂部的單個命令,在幾秒鐘內在平臺上加速 Panda 代碼:

    %load_ext cudf.pandas

    我們很高興 RAPID cuDF 現在可以立即提供給所有開發人員,用于加速數據分析工作流程。這篇文章詳細介紹了 RAPIDSCUDF、Colab 的預期性能以及如何開始。

    RAPID cuDF 以零代碼更改加速 pandas?

    雖然 pandas 是世界上最受歡迎的數據處理工具之一,但隨著數據大小的增長,它也在苦苦掙扎。即使有 5 到 10 GB 的數據,許多簡單的操作也可能需要幾分鐘的時間才能在 CPU 上完成,從而減緩了探索性分析和生產數據管道的速度。

    RAPIDS-cuDF 為 panda 帶來了加速計算的能力,因此您可以隨著數據的增長繼續使用 panda,而不會影響性能。在適用的情況下,該庫能夠在 GPU 上無縫加速 Panda 代碼,否則將回退到 CPU 的 Panda 實現。這個 cuDF Panda 的零代碼更改加速(cuDF.pandans) 通常可用,自 24.02 版本起可供生產使用。

    Google Colab 上的基準性能

    大型數據集對性能的影響在流行的 DuckDB 數據庫(如 Ops Benchmark)的 Panda 部分顯而易見。DuckDB 基準設置最初由 H2O.ai 開發,在一系列常見的分析任務上比較流行的基于 CPU 的 DataFrame 和 SQL 引擎,如將數據連接在一起或按組計算統計指標。

    基于 5GB 規模的類似 DuckDB 數據庫的 Ops Benchmark,Panda 的性能慢到爬行,執行一系列的加入和高級分組操作需要幾分鐘的時間。

    相比之下,在使用 DuckDB 基準操作時,cuDF 比標準 Pandas 提供了高達 50 倍的加速,借助 NVIDIA L4 Tensor Core GPU 的強大計算能力。這些 GPU 最新在 Google Colab 中提供給付費層用戶。

    Bar chart shows a 50x speed increase using pandas with RAPIDS cuDF on NVIDIA L4 GPUs that are available in the Google Colab paid tier.
    圖 1。標準 DuckDB 數據基準(5GB)cudf.pandands 與傳統 pandasv2.2 的性能比較

    硬件配置:NVIDIA L4,中央處理器(CPU):Intel Xeon 8480CL | 軟件環境:pandas v2.2.1,RAPIDS cuDF 24.02

    欲了解這些基準測試結果的更多信息,以及如何重現這些結果,請參閱 cuDF 基準測試文檔

    開始

    準備好在 Google Colab 上試用 RAPIDS cuDF 了嗎?只需將運行時類型更改為 GPU 并插入 %load_ext cudf.pandas,便可超越 pandas 代碼。

    要了解有關在 Google Colab 上使用 RAPID cuDF 的更多信息,請瀏覽以下筆記本示例:

    欲了解 RAPID cuDF 的詳細概述,請查看 GTC 會話:使用 RAPID cuDF 實現零代碼更改加速 pandas

    ?

    0

    標簽

    人人超碰97caoporen国产