Pandas – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Fri, 14 Feb 2025 04:14:35 +0000
zh-CN
hourly
1
196178272 -
適用于數據科學的 GPU 加速入門
http://www.open-lab.net/zh-cn/blog/get-started-with-gpu-acceleration-for-data-science/
Thu, 06 Feb 2025 04:11:52 +0000
http://www.open-lab.net/zh-cn/blog/?p=12857
Continued]]>
在數據科學領域,運營效率是處理日益復雜和大型數據集的關鍵。GPU 加速已成為現代工作流程的關鍵,可顯著提高性能。 RAPIDS 是由 NVIDIA 開發的一套開源庫和框架,旨在使用 GPU 以盡可能減少代碼更改來加速數據科學流程。RAPIDS 提供用于數據操作的 cuDF 、用于機器學習的 cuML 和用于圖形分析的 cuGraph 等工具,可實現與現有 Python 庫的無縫集成,使數據科學家更容易實現更快、更高效的處理。 本文分享了從 CPU 數據科學庫過渡到 GPU 加速工作流程的技巧,特別適合經驗豐富的數據科學家。 開始使用 RAPIDS 非常簡單,但它確實有幾個依賴項。推薦的方法是遵循官方的 RAPIDS 安裝指南 ,該指南提供了詳細的本地安裝說明。您有多種安裝框架的路徑:通過 pip install、Docker 鏡像,或通過 Conda 等環境。
Source
]]>
12857
-
使用 RAPIDS cuDF pandas 加速器模式處理 10 億行數據
http://www.open-lab.net/zh-cn/blog/processing-one-billion-rows-of-data-with-rapids-cudf-pandas-accelerator-mode/
Wed, 11 Sep 2024 08:01:48 +0000
http://www.open-lab.net/zh-cn/blog/?p=11278
Continued]]>
十億行挑戰賽 (One Billion Row Challenge) 是一個有趣的基準測試,旨在展示基本的數據處理操作。它最初是作為純 Java 競賽發起的,現已聚集了其他語言(包括 Python、Rust、Go、Swift 等)的開發者社區。對于許多有興趣探索文本文件閱讀細節、基于哈希的算法和 CPU 優化的軟件工程師來說,這項挑戰賽非常有用。截至 2024 年年中,One Billion Row Challenge GitHub 存儲庫已經吸引了超過 1.8K 個分叉,獲得了超過 6K 顆星,并啟發了數十篇博客文章和視頻。 本文將展示如何使用 RAPIDS cuDF pandas 加速器模式完成處理十億行數據的挑戰。具體而言,我們將展示 cuDF pandas 加速器版本 24.08 中的兩項新功能 —— 大字符串支持和帶預取的托管內存 —— 如何借助 GPU…
Source
]]>
11278
-
使用 Co-Visitation 矩陣和 RAPIDS cuDF 構建高效的推薦系統
http://www.open-lab.net/zh-cn/blog/build-efficient-recommender-systems-with-co-visitation-matrices-and-rapids-cudf/
Wed, 21 Aug 2024 08:52:55 +0000
http://www.open-lab.net/zh-cn/blog/?p=11001
Continued]]>
推薦系統在跨各種平臺實現個性化用戶體驗方面發揮著至關重要的作用。這些系統旨在根據用戶過去的行為和偏好預測和推薦用戶可能與之交互的商品。構建有效的推薦系統需要理解和利用龐大、復雜的數據集,這些數據集可捕獲用戶和商品之間的交互。 本文將向您展示如何基于共訪問矩陣構建簡單而強大的推薦系統。構建共訪問矩陣的主要挑戰之一是處理大型數據集時涉及的計算復雜性。使用像 pandas 等庫的傳統方法效率低下且速度緩慢,尤其是在處理數百萬甚至數十億次交互時。這正是 RAPIDS cuDF 的用武之地。RAPIDS cuDF 是一個 GPU DataFrame 庫,提供了類似 pandas 的 API,用于加載、過濾和操作數據。 推薦系統是一種機器學習算法,旨在為用戶提供個性化建議或推薦。這些系統用于各種應用,包括電子商務(Amazon、OTTO)、內容流式傳輸(Netflix、Spotify)、
Source
]]>
11001
-
RAPIDS cuDF 統一顯存技術使大型數據集上的 pandas 運行速度最高提升 30 倍
http://www.open-lab.net/zh-cn/blog/rapids-cudf-unified-memory-accelerates-pandas-up-to-30x-on-large-datasets/
Fri, 09 Aug 2024 07:08:01 +0000
http://www.open-lab.net/zh-cn/blog/?p=10996
Continued]]>
NVIDIA 已發布 RAPIDS cuDF 統一顯存和文本數據處理功能,幫助數據科學家在嚴苛的工作負載中處理更大、文本密集型數據集時繼續使用 pandas。現在,數據科學家可以將這些工作負載加速高達 30 倍。 RAPIDS 是開源 GPU 加速數據科學和 AI 庫的集合。cuDF 是一個 Python GPU DataFrame 庫,用于加載、連接、聚合和過濾數據。 作為面向數據科學家的頂級數據處理庫,pandas 是一個靈活而強大的 Python 數據分析和操作庫。上個月,它的下載量超過 2000 萬次。然而,隨著數據集規模的增長,pandas 在 CPU 系統中的處理速度和效率都很低。這迫使數據科學家不得不在緩慢的執行時間和使用其他工具相關的切換成本之間做出選擇。 NVIDIA 在 GTC 2024 上宣布,RAPIDS cuDF 可將 pandas 的速度提升近…
Source
]]>
10996
-
Databricks 上的 RAPIDS: GPU 加速數據處理指南
http://www.open-lab.net/zh-cn/blog/rapids-on-databricks-a-guide-to-gpu-accelerated-data-processing/
Tue, 14 May 2024 06:52:30 +0000
http://www.open-lab.net/zh-cn/blog/?p=9996
Continued]]>
在當今數據驅動的環境中,最大限度地提高數據處理和分析的性能和效率至關重要。雖然許多 Databricks 用戶熟悉使用 GPU 集群進行機器學習訓練,但也有巨大的機會利用 GPU 加速進行數據處理和分析任務。 Databricks 作為一個基于云的統一平臺,使用戶能夠高效地管理小型和大型數據需求。通過將 GPU 集群集成到現有工作流程中,用戶可以獲得顯著的性能提升,從而增強其數據分析能力。 本指南探討了 RAPIDS 如何幫助解鎖 Databricks 上的 GPU 加速,以使用熟悉的 API 和插件轉換數據處理和分析。RAPIDS 為 Databricks 用戶提供了多種加速現有工作流的選項,包括單節點處理以及與 Spark 和 Dask 的集成。這篇文章重點介紹了以下針對單節點和多節點用戶的安裝選項和集成方法。 對于單節點用戶,
Source
]]>
9996
-
RAPIDS cuDF 在 Google Colab 上瞬間加速 pandas 達 50 倍
http://www.open-lab.net/zh-cn/blog/rapids-cudf-instantly-accelerates-pandas-up-to-50x-on-google-colab/
Tue, 14 May 2024 06:47:37 +0000
http://www.open-lab.net/zh-cn/blog/?p=9990
Continued]]>
在谷歌 I/O’24 上,谷歌人工智能倡導主管 Laurence Moroney 宣布:RAPID cuDF 現已集成到 Google Colab 中。這意味著,開發人員現在可以在谷歌 Colab 的 GPU 實例上將 panda 代碼加速到 50 倍,并且隨著數據的增長繼續使用 panda,而不會犧牲性能。 RAPIDS cuDF 是一個基于 GPU 的 DataFrame 庫,可以在零代碼更改的情況下加速數據處理工具 Pandas。Google Colab 是基于 Python 的數據科學最受歡迎的平臺之一,它已經成為 一個月擁有超過 1000 萬用戶的標準工具。 作為一個云托管平臺,Colab 提供了一個開箱即用的數據科學筆記本環境,可以從瀏覽器訪問。其易于使用的基礎設施包括免費和付費層的 GPU。 您可以使用啟用 GPU 的 Colab 筆記本電腦頂部的單個命令,
Source
]]>
9990
-
NVIDIA GTC 2024 的頂級數據科學會議現已按需提供
http://www.open-lab.net/zh-cn/blog/top-data-science-sessions-from-nvidia-gtc-2024-now-available-on-demand/
Mon, 29 Apr 2024 08:55:05 +0000
http://www.open-lab.net/zh-cn/blog/?p=9899
Continued]]>
在 GTC 2024 上, NVIDIA 的專家和我們的合作伙伴分享了有關 GPU 加速工具、優化和數據科學家最佳實踐的見解。從涵蓋各種主題的數百場會議中,我們精心挑選了您不想錯過的前三場數據科學會議。 RAPIDS 2024:無處不在的數據科學加速 演講嘉賓: Dante Gama Dessavre,NVIDIA 機器學習工程經理: Nick Becker,NVIDIA 高級技術產品經理 在這次演示中,我們的團隊宣布 RAPID 現在允許數據科學家可以訪問 GPU 加速,同時仍然可以使用您喜歡的工具進行數據幀、機器學習、圖形分析、矢量數據庫,甚至基于 LLM 的工作流。該團隊還介紹了如何利用加速計算的令人興奮的更新,以及 2024 年的 RAPID 路線圖。 零代碼加速熊貓:使用 RAPIDS cuDF 實現高速更改 主講人:Ashwin Srinath,
Source
]]>
9899
-
RAPIDS cuDF 可將 pandas 加速近 150 倍,且無需更改代碼
http://www.open-lab.net/zh-cn/blog/rapids-cudf-accelerates-pandas-nearly-150x-with-zero-code-changes-2/
Mon, 18 Mar 2024 06:41:54 +0000
http://www.open-lab.net/zh-cn/blog/?p=9372
Continued]]>
在 NVIDIA GTC 2024 上,我們宣布 RAPIDS cuDF 現在可以為 950 萬 Pandas 用戶帶來 GPU 加速,而無需他們更改代碼。 pandas 作為一個靈活而強大的 Python 數據分析和操作庫,因其易于使用的 API,成為數據科學家的首選。然而,隨著數據集大小的增長,它在 CPU 系統中的處理速度和效率可能會受到影響。 RAPIDS 是一個開源的 GPU 加速 Python 庫套件,旨在改進數據科學和分析流程。RAPIDS cuDF 是一個 GPU DataFrame 庫,提供類似于 pandas 的 API,用于加載、過濾和操作數據。在早期的 cuDF 版本中,它適用于僅使用 GPU 的開發工作流程。 去年秋天,RAPIDS 發布了 cuDF 的公測版,通過統一的 CPU/GPU 用戶體驗,將加速計算引入 Pandas 工作流程,且無需更改代碼。
Source
]]>
9372
-
RAPIDS cuDF 可將 pandas 的速度提升近 150 倍,且無需更改代碼
http://www.open-lab.net/zh-cn/blog/rapids-cudf-accelerates-pandas-nearly-150x-with-zero-code-changes/
Wed, 08 Nov 2023 03:58:11 +0000
http://www.open-lab.net/zh-cn/blog/?p=8145
Continued]]>
NVIDIA 宣布,RAPIDS cuDF 現在可以為 950 萬 Pandas 用戶帶來 GPU 加速,而無需他們更改代碼。 pandas 是一個靈活而強大的 Python 數據分析和操作庫,由于其易于使用的 API,因此是數據科學家的首選。但是,隨著數據集大小的增長,它在 CPU 系統中的處理速度和效率會受到影響。 RAPIDS 是一個開源的 GPU 加速 Python 庫套件,旨在改進數據科學和分析流程。RAPIDS cuDF 是一個 GPU DataFrame 庫,可提供類似 pandas 的 API,用于加載、過濾和操作數據。在 cuDF 的早期版本中,它適用于僅使用 GPU 的開發工作流程。 隨著最新版 RAPIDS v23.10 的發布,cuDF 現可通過其全新功能,在不更改代碼的情況下,通過統一的 CPU /
Source
]]>
8145
-
分析機器學習研究代碼的安全性
http://www.open-lab.net/zh-cn/blog/analyzing-the-security-of-machine-learning-research-code/
Wed, 04 Oct 2023 04:27:13 +0000
http://www.open-lab.net/zh-cn/blog/?p=7953
Continued]]>
我們的 NVIDIA AI 紅隊 專注于在數據、科學和 AI 生態系統中擴展安全開發實踐。我們參與 開源安全倡議,發布 工具,并出席了 行業會議,主辦 教育競賽 并提供 創新培訓。 最近發布的 Meta Kaggle for Code 數據集為大規模分析機器學習 (ML) 研究和實驗競賽代碼安全性提供了絕佳的機會。我們的目標是利用這些數據來解答以下問題: 我們的分析表明,盡管有關于安全風險的公開文檔以及相對順暢的高級安全工具,ML 研究人員仍繼續使用不安全的編碼實踐。我們的理論認為,研究人員優先考慮快速實驗,并且不會將自己或其項目視為目標,因為他們通常不運行生產服務。 此外,Kaggle 環境可能會因為與研究人員的“真實基礎架構”隔離而導致安全漏洞更加嚴重。但是,研究人員必須承認自己在軟件供應鏈中的地位,并應意識到不安全的編碼操作對其研究和系統帶來的風險。
Source
]]>
7953
-
新視頻:用 RAPIDS cuDF 和 Plotly Dash 可視化人口普查數據
http://www.open-lab.net/zh-cn/blog/new-video-visualizing-census-data-with-rapids-cudf-and-plotly-dash/
Mon, 17 Jul 2023 06:00:39 +0000
http://www.open-lab.net/zh-cn/blog/?p=7443
Continued]]>
收集商業見解可能是一件痛苦的事情,尤其是當你要處理無數的數據點時。 眾所周知, GPU 可以為數據科學家節省時間。 GPU 有助于加快流程并快速獲得所需的見解,而不是等待一個查詢運行。 在這個視頻中,Allan Enemark,RAPIDS數據可視化領先者,使用擁有超過30億個數據點的美國人口普查數據集,演示了在分析過程中如何不間斷地運行查詢RAPIDS cuDF和Plotly Dash。 視頻 1 。用 RAPIDS cuDF 和 Plotly Dash 可視化人口普查數據 將 pandas 與 cuDF 等 RAPIDS 框架進行交換可以幫助加快數據分析工作流程,使分析過程更加有效和愉快。此外, RAPIDS 庫可以使用簡單的 Python 代碼輕松繪制各種數據,如時間序列、地理空間和圖表。
Source
]]>
7443
-
加速數據分析:數據可視化指南 RAPIDS
http://www.open-lab.net/zh-cn/blog/accelerated-data-analytics-a-guide-to-data-visualization-with-rapids/
Tue, 11 Jul 2023 03:20:58 +0000
http://www.open-lab.net/zh-cn/blog/?p=7357
Continued]]>
本文是加速數據分析系列文章的一部分。 可視化使數據栩栩如生,通過可訪問的視覺效果揭示隱藏的模式和見解,并使您和您的組織能夠感知無形的事物,做出明智的決策,并充分利用您的數據。 特別是在處理大型數據集時,交互可能會變得非常困難,因為渲染和計算時間變得太長。切換到 RAPIDS cuDF 等庫,支持 GPU 加速,通過熟悉的類似 pandas 的 API 解鎖對數據見解的訪問。這篇文章解釋道: 雖然數據可視化是在項目結束時解釋數據見解的有效工具,但理想情況下,應在整個數據探索和豐富過程中使用它們。可視化擅長于通過發現純分析方法不容易出現的異常值、異常和模式來增強數據理解,這已經被證明,例如Anscombe’s quartet以及臭名昭著的Datasaurus Dozen。 有效的圖表應遵循數據可視化設計原則,利用先前注意力可視處理,
Source
]]>
7357
-
用 RAPIDS 生成用于加速短期價格預測的限價訂單簿數據集
http://www.open-lab.net/zh-cn/blog/limit-order-book-dataset-generation-for-accelerated-short-term-price-prediction-with-rapids/
Fri, 19 May 2023 05:35:46 +0000
http://www.open-lab.net/zh-cn/blog/?p=7028
Continued]]>
在高頻交易的世界里,成千上萬的市場參與者每天都在互動。據該報報道,事實上,高頻交易占美國股票交易量的一半以上高頻交易同步金融市場價格。 做市商是賣方的主要參與者,為市場提供流動性。投機者站在買方一邊,進行實驗和研究,希望從中獲利。最終用戶是向零售經紀人咨詢建議和交易的散戶投資者。總體而言,金融公司有興趣評估金融機器學習( ML )算法,以發現哪些算法最有利可圖。 研究人員最近發表了許多版本的這種類型的算法。我們試圖利用高頻數據和隨機森林( RF )模型的可解釋性,并選擇了本文中提出的 RF 方法研究短期價格預測的限價訂單簿特征:一種機器學習方法. 我們的研究發現,使用 GPU 的硬件加速減少了金融 ML 研究人員獲得預測結果所需的時間。由于大部分運行時間都可以用于分類器訓練,因此人們當然對更有效的訓練方法感興趣。 本文介紹了我們的研究,包括生成的數據集,
Source
]]>
7028
-
加速數據分析:使用 RAPID cuDF 進行更快的時間序列分析
http://www.open-lab.net/zh-cn/blog/accelerated-data-analytics-faster-time-series-analysis-with-rapids-cudf/
Tue, 14 Mar 2023 04:23:46 +0000
http://www.open-lab.net/zh-cn/blog/?p=6463
Continued]]>
這篇文章是 加速數據分析系列文章的一部分: 由于標準探索性數據分析( EDA )工作流程通常局限于單個核心,因此它得益于 RAPIDS cuDF 的加速計算,這是一個具有 pandas 類接口的加速數據分析庫。眾所周知,時間序列數據需要額外的數據處理,這會增加工作流程的時間和復雜性,使其成為利用 RAPIDS 的另一個很好的用例。 使用 RAPIDS cuDF ,您可以加快對不太大也不太小的“金發姑娘”數據集的時間序列處理。這些數據集在 pandas 上很繁重,但不需要像 Apache Spark 或 Dask 這樣的完全分布式計算工具。 本節介紹了依賴時間序列數據的 機器學習 ( ML )用例,以及何時考慮加速數據處理。 時間序列數據無處不在。時間戳在許多類型的數據源中都是一個變量,從天氣測量和資產定價到產品購買信息等等。 時間戳具有所有級別的粒度,
Source
]]>
6463
-
加速數據分析:使用 RAPID cuDF 加速數據探索
http://www.open-lab.net/zh-cn/blog/accelerated-data-analytics-speed-up-data-exploration-with-rapids-cudf/
Tue, 14 Mar 2023 03:57:01 +0000
http://www.open-lab.net/zh-cn/blog/?p=6460
Continued]]>
這篇文章是 加速數據分析 系列文章的一部分: 氣候建模、醫療保健、金融和零售業的數字進步正在產生前所未有的數據量和類型。 IDC 表示,到 2025 年,將有 180 ZB 的數據,而 2020 年為 64 ZB ,這將擴大對數據分析的需求,將所有數據轉化為見解。 NVIDIA 提供 RAPIDS 開源軟件庫和 API 套件,使數據科學家能夠完全在 GPU 上執行端到端的數據科學和分析管道。這包括使用我們的 DataFrame API : RAPIDS cuDF 進行分析和數據科學的常見數據準備任務。 在典型的數據分析工作流程中,速度高達 40 倍,加速的數據分析為您節省了時間,并增加了可能受到當前分析工具限制的迭代機會。 為了解釋加速數據分析的價值,我們在本文中使用 RAPIDS cuDF 進行了一個簡單的探索性數據分析( EDA )教程。
Source
]]>
6460
人人超碰97caoporen国产