RAPIDS – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 24 Jul 2025 07:40:52 +0000
zh-CN
hourly
1
196178272 -
在 Azure 上使用 Apache Spark 和 NVIDIA AI 進行無服務器分布式數據處理
http://www.open-lab.net/zh-cn/blog/serverless-distributed-data-processing-with-apache-spark-and-nvidia-ai-on-azure/
Wed, 23 Jul 2025 06:39:09 +0000
http://www.open-lab.net/zh-cn/blog/?p=14684
Continued]]>
將大量文本庫轉換為數字表示 (稱為嵌入) 的過程對于生成式 AI 至關重要。從語義搜索和推薦引擎到檢索增強生成 (RAG) ,各種技術都依賴于嵌入來轉換數據,以便 LLM 和其他模型能夠理解和處理數據。 然而,為數百萬或數十億的文檔生成嵌入需要大規模處理。Apache Spark 是應對這一挑戰的首選框架,可在機器集群中巧妙地分發大規模數據處理作業。然而,雖然 Spark 解決了規模問題,但生成嵌入本身需要大量計算。加速這些作業以及時獲得結果需要加速計算,這增加了配置和管理底層 GPU 基礎設施的復雜性。 本文將介紹如何通過在配備無服務器 GPU 的 Azure 容器應用 (ACA) 上部署分布式 Spark 應用來解決此挑戰。這種強大的組合使 Spark 能夠熟練地編排大型數據集,而 ACA 則完全消除了管理和擴展計算的復雜性。在本示例中,我們構建了一個專用的工作容器,
Source
]]>
14684
-
3 個 pandas 工作流在大型數據集上嚴重變慢,直到啟用了 GPU 加速
http://www.open-lab.net/zh-cn/blog/3-pandas-workflows-that-slowed-to-a-crawl-on-large-datasets-until-we-turned-on-gpus/
Fri, 18 Jul 2025 07:17:46 +0000
http://www.open-lab.net/zh-cn/blog/?p=14708
Continued]]>
如果您使用 pandas,您可能已經撞到了墻壁。正是在這個時刻,您值得信賴的工作流程在處理較小的數據集時表現出色,在處理大型數據集時陷入停頓。曾經需要幾秒鐘的腳本現在會抓取幾分鐘。 后續步驟是可以預測的,令人沮喪。您可能會降低數據采樣并失去保真度,重寫邏輯以分塊處理數據,或者面臨將整個工作流程遷移到 Spark 等分布式框架的艱巨任務。 但是,如果你能用一面簡單的旗幟沖破這堵墻呢?今天,我們將展示三種常見的 pandas 工作流,這些工作流通過切換 GPU 加速的 DataFrame 庫 (稱為 NVIDIA cuDF) 而得到顯著加速。它允許您將 GPU 用于現有工作流程,而無需重寫代碼。 一項常見的財務分析任務是探索大型時間序列數據集,以發現趨勢。這通常涉及一系列 pandas 操作,例如 和創建新的日期特征。 在計算滾動時間段內的指標時,經常會出現真正的瓶頸。
Source
]]>
14708
-
大規模特征工程:利用 NVIDIA CUDA-X 數據科學優化半導體制造的機器學習模型
http://www.open-lab.net/zh-cn/blog/feature-engineering-at-scale-optimizing-ml-models-in-semiconductor-manufacturing-with-nvidia-cudax-data-science/
Thu, 17 Jul 2025 07:22:53 +0000
http://www.open-lab.net/zh-cn/blog/?p=14714
Continued]]>
在上一篇博文中,我們介紹了芯片制造和運營中的預測建模設置,重點介紹了數據集不平衡等常見挑戰,以及對更細致的評估指標的需求。我們還探討了 NVIDIA CUDA-X 數據科學庫 (如 cuDF 和 cuML) 如何幫助克服這些挑戰并加速機器學習工作流程。在本博客中,我們將重點轉移到下一個關鍵步驟:特征工程。我們觀察到,精心設計的功能 (通過 GPU 加速高效構建) 可以顯著提高模型的性能和部署就緒性。例如,由于我們的模型通常需要在緊張的 15 分鐘工廠窗口內執行和轉發預測,因此使用 CUDA-X 數據科學庫和下文討論的特征工程技術使我們能夠減少 ETL pro這種效率直接影響到高吞吐量制造環境中的運營可行性。我們重點介紹三種關鍵技術: 所有這些轉換均設計為使用 cuDF 在 NVIDIA GPU 上大規模運行,從而使用 cudf.
Source
]]>
14714
-
RAPIDS 新增 GPU Polars 串流、統一 GNN API 和零代碼 ML 加速功能
http://www.open-lab.net/zh-cn/blog/rapids-adds-gpu-polars-streaming-a-unified-gnn-api-and-zero-code-ml-speedups/
Thu, 03 Jul 2025 06:36:03 +0000
http://www.open-lab.net/zh-cn/blog/?p=14541
Continued]]>
RAPIDS 是一套用于 Python 數據科學的 NVIDIA CUDA-X 庫,發布了 25.06 版本,引入了令人興奮的新功能。其中包括 Polars GPU 流引擎、用于圖形神經網絡 (GNN) 的統一 API,以及用于支持向量機的加速 (無需更改代碼) 。在這篇博文中,我們將探討其中一些更新。 2024 年 9 月,我們與 Polars 團隊合作推出了基于 NVIDIA cuDF 構建的 Polars GPU 引擎。25.06 版本對 Polars GPU 引擎功能進行了一些重大更新。 在 25.06 版本中,我們在 Polars GPU 引擎中引入了流式傳輸執行。流式傳輸執行程序利用數據分區和并行處理,支持在大于 VRAM 的數據集上執行。要使用此新的流式傳輸執行程序,用戶可以將適當配置的 GPUEngine 對象傳遞給 Polars 調用:
Source
]]>
14541
-
如何在 Polars GPU 引擎中處理超過 VRAM 的數據
http://www.open-lab.net/zh-cn/blog/how-to-work-with-data-exceeding-vram-in-the-polars-gpu-engine/
Fri, 27 Jun 2025 04:08:28 +0000
http://www.open-lab.net/zh-cn/blog/?p=14462
Continued]]>
在量化金融、算法交易和欺詐檢測等高風險領域,數據從業者經常需要處理數百 GB 的數據,才能快速做出明智的決策。Polars 是發展最快的數據處理庫之一,其 GPU 引擎由 NVIDIA cuDF 提供動力支持,可加速這些領域常見的計算受限查詢,從而滿足這一需求。 但是,在使用 GPU 時,一個常見的挑戰是 VRAM ( GPU 的專用內存) 通常小于系統 RAM。在使用 GPU 引擎處理非常大的數據集時,這可能會導致問題。 本文將探討 Polars GPU 引擎中克服此限制的兩個選項。借助這些策略,您可以處理大于可用 VRAM 的數據,同時仍可從 GPU 加速中獲益: 當數據集大小開始超過 GPU 顯存時,您可以利用 NVIDIA UVM 技術。 UVM 在系統 RAM (主機內存) 和 GPU VRAM (設備內存) 之間創建統一的內存空間。
Source
]]>
14462
-
NVIDIA 在制造和運營領域的 AI 應用:借助 NVIDIA CUDA-X 數據科學加速 ML 模型
http://www.open-lab.net/zh-cn/blog/ai-in-manufacturing-and-operations-at-nvidia-accelerating-ml-models-with-nvidia-cuda-x-data-science/
Wed, 18 Jun 2025 04:45:46 +0000
http://www.open-lab.net/zh-cn/blog/?p=14378
Continued]]>
從晶圓制造和電路探測到封裝芯片測試,NVIDIA 利用數據科學和機器學習來優化芯片制造和運營工作流程。這些階段會產生 TB 級的數據,而要確保質量、吞吐量和成本效益,關鍵在于快速、大規模地將這些數據轉化為切實可行的見解。多年來,我們開發了強大的 Machine Learning 流程,可解決缺陷檢測和測試優化等問題。 這是一系列博客中的第一個,這些博客將分享我們使用 NVIDIA cuDF 和 NVIDIA cuML 等 CUDA-X 庫部署此類工作流的關鍵經驗。雖然這些經驗教訓來自半導體制造,但挑戰和解決方案廣泛適用于物流、質量工程和供應鏈優化。 我們先從現實世界的分類任務開始:預測芯片是否通過特定測試。在更高級的場景中,目標擴展到預測芯片的性能箱(從 L1 到 L5),并將問題表述為多類別分類問題。 在這兩種情況下,模型會使用來自多個來源的豐富測量信號:
Source
]]>
14378
-
借助 RAPIDS 單細胞技術推動十億細胞分析和生物學突破
http://www.open-lab.net/zh-cn/blog/driving-toward-billion-cell-analysis-and-biological-breakthroughs-with-rapids-singlecell/
Thu, 12 Jun 2025 07:56:29 +0000
http://www.open-lab.net/zh-cn/blog/?p=14258
Continued]]>
細胞生物學和虛擬細胞模型的未來取決于大規模測量和分析數據。在過去 10 年里,單細胞實驗一直以驚人的速度增長,從數百個細胞開始,現在轉向使用數十億個細胞進行新的數據生成工作。 虛擬細胞模型還生成了數十億個虛擬細胞。大量數據和新開發的模型將幫助科學家發現新的生物學、開發新的療法,以及研究和闡明疾病和衰老的進展。 數據處理和分析是下游生物解釋和模型構建的關鍵。隨著數據的極端增長,出現了兩個關鍵的數據處理挑戰,極大地限制了對這些大規模數據集的科學認識和解釋: 歸一化、降維、聚類和批量集成等分析步驟對于單細胞數據分析、解釋和模型開發至關重要。RAPIDS-singlecell 是一款經MIT許可的開源工具,由scverse開發,可應對數據規模和分析速度方面的挑戰。它通過CuPy和NVIDIA RAPIDS利用GPU加速,直接在社區標準AnnData數據結構上運行。
Source
]]>
14258
-
利用 NVIDIA cuML 中的森林推理庫加速樹模型推理
http://www.open-lab.net/zh-cn/blog/supercharge-tree-based-model-inference-with-forest-inference-library-in-nvidia-cuml/
Thu, 05 Jun 2025 05:33:07 +0000
http://www.open-lab.net/zh-cn/blog/?p=14415
Continued]]>
樹集成模型仍然是表格數據的首選,因為它們準確、訓練成本相對較低且速度快。但是,如果您需要低于 10 毫秒的延遲或每秒數百萬次的預測,那么在 CPU 上部署 Python 推理很快就會成為瓶頸。 2019 年,Forest Inference Library (FIL) 首次出現在 cuML 0.9 中,一直圍繞著一件事:為梯度提升樹和在 XGBoost、LightGBM、scikit-learn 或 NVIDIA cuML 中訓練的隨機森林提供快速推理。一般來說,如果您的模型可以轉換為 Treelite,則可以使用 FIL。 FIL 已在 RAPIDS 25.04 中重新設計,新的亮點包括: 在本博文中,您將了解 cuML 25.04 中 FIL 的新功能、性能和特性,并了解它比以前的 cuML 版本具有的優勢。
Source
]]>
14415
-
RAPIDS 實現零代碼更改加速、IO 性能提升和核外 XGBoost 加速
http://www.open-lab.net/zh-cn/blog/rapids-brings-zero-code-change-acceleration-io-performance-gains-and-out-of-core-xgboost/
Thu, 29 May 2025 05:26:21 +0000
http://www.open-lab.net/zh-cn/blog/?p=14045
Continued]]>
在過去的兩個版本中,RAPIDS 為 Python 機器學習引入了零代碼更改加速、巨大的 IO 性能提升、大于內存的 XGBoost 訓練、更好的用戶體驗,以及更具可擴展性的 ETL。 我們在 NVIDIA GTC 25 上重點介紹了其中一些更新和公告。在本文中,您可以了解一些亮點。 這種適用于 cuML 的新 UX 使數據科學家能夠繼續使用熟悉的 PyData API,同時自動使用 NVIDIA GPU 實現顯著的性能提升,具體速度可提升 5-175 倍,具體取決于算法和數據集,如圖 1 所示。 要開始使用這項新功能,只需加載 IPython 擴展程序,然后再導入標準 CPU 機器學習庫。 如需詳細了解這些新功能,請訪問 cuML 文檔。 在過去的兩個版本中,無論您是在云端還是本地工作,
Source
]]>
14045
-
特級大師專業提示:使用 cuML 通過堆疊奪得 Kaggle 競賽冠軍
http://www.open-lab.net/zh-cn/blog/grandmaster-pro-tip-winning-first-place-in-a-kaggle-competition-with-stacking-using-cuml/
Thu, 22 May 2025 06:22:33 +0000
http://www.open-lab.net/zh-cn/blog/?p=14075
Continued]]>
堆疊是一種先進的表格數據建模技術,通過結合多個不同模型的預測來實現高性能。利用 GPU 的計算速度,可以高效地訓練大量模型。其中包括梯度提升決策樹 (Gradient Boosted Decision Trees, GBDT) 、深度學習神經網絡 (Deep Learning Neural Networks, NN) 以及其他機器學習 (Machine Learning, ML) 模型,例如支持向量回歸 (Support Vector Regression, SVR) 和 K 最近鄰 (K-Nearest Neighbors, KNN) 。這些單獨的模型被稱為 Level 1 模型。 然后訓練 Level 2 模型,這些模型使用 Level 1 模型的輸出作為輸入。Level 2 模型學習使用 Level 1 模型的不同組合來預測不同場景中的目標。最后,
Source
]]>
14075
-
聚焦:Atgenomix SeqsLab 提升健康組學分析以支持精準醫療
http://www.open-lab.net/zh-cn/blog/spotlight-atgenomix-seqslab-scales-health-omics-analysis-for-precision-medicine/
Mon, 19 May 2025 05:31:48 +0000
http://www.open-lab.net/zh-cn/blog/?p=13926
Continued]]>
在傳統的臨床醫學實踐中,治療決策通常基于一般準則、以往經驗和試錯方法。如今,隨著電子病歷 (EMRs) 和基因組數據的訪問, 精準醫療 的新時代正在興起,即以前所未有的準確性為單個患者量身定制治療方法。精準醫療是一種創新的醫療保健方法,通過考慮基因組中的個體可變性來定制疾病預防和治療。 本文將探討 Atgenomix SeqsLab 平臺如何使用 NVIDIA Parabricks 和 RAPIDS Accelerator for Apache Spark (Spark-RAPIDS) 來集成健康組學見解或大規模生物數據。這種集成使精準醫療的應用范圍更廣,超越理論,走向實用、廣泛的臨床應用。 EMR 與基因組測序和其他健康組學數據的集成具有極高的計算要求。單個全基因組測序 (WGS) 數據集的每個患者容量可超過 300 GB,并且與蛋白質組學、
Source
]]>
13926
-
使用 GPU 預測 Apache Spark 的性能
http://www.open-lab.net/zh-cn/blog/predicting-performance-on-apache-spark-with-gpus/
Thu, 15 May 2025 07:04:19 +0000
http://www.open-lab.net/zh-cn/blog/?p=13975
Continued]]>
大數據分析領域正在不斷尋找加速處理和降低基礎設施成本的方法。Apache Spark 已成為用于橫向擴展分析的領先平臺,可處理 ETL、機器學習和深度學習工作負載的大型數據集。雖然傳統上基于 CPU,但 GPU 加速的出現提供了一個令人信服的前景:顯著加速數據處理任務。 但是,將 Spark 工作負載從 CPU 遷移到 GPU 并非易事。GPU 加速雖然對某些操作非常強大,但不一定能提高每個場景中的性能。小型數據集、大量數據移動以及使用用戶定義函數 (User-Defined Functions, UDFs) 等因素有時會對 GPU 性能產生負面影響。相反,涉及高基數數據的工作負載,例如連接、聚合、排序、窗口操作和轉碼任務 (例如編碼/壓縮 Apache Parquet 或 Apache ORC 或解析 CSV) 通常是 GPU 加速的積極指標。
Source
]]>
13975
-
使用 NVIDIA CUDA-X 和 Coiled 簡化云端環境設置并加速數據科學運算
http://www.open-lab.net/zh-cn/blog/simplify-setup-and-boost-data-science-in-the-cloud-using-nvidia-cuda-x-and-coiled/
Thu, 15 May 2025 07:00:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=13971
Continued]]>
想象一下,分析紐約市數百萬次的拼車旅程 — — 跟蹤各自治市的模式、比較服務定價或確定有利可圖的取車地點。公開發布的 New York City Taxi and Limousine Commission (TLC) 行程記錄數據包含有價值的信息,可以揭示具有劃時代意義的見解,但由于數據量龐大,分析師需要等待數小時才能得出結果。 這些延遲會中斷分析流程并限制業務響應能力。出租車公司、城市規劃部門和金融公司的數據科學家需要及時獲得見解,以便做出關鍵決策。等待 9 分鐘與 5 秒之間的區別不僅在于方便,還在于競爭優勢。 現代數據科學非常適合 GPU 并行。過濾和轉換大型數據集等操作需要在數百萬個獨立數據點中應用相同的功能。在處理 NYC 拼車數據集時,GPU 可以同時評估數千次拼車的計算,而不是按順序進行,從而大幅縮短計算時間。 盡管具有這些優勢,
Source
]]>
13971
-
云端 Apache Spark 加速深度學習和大語言模型推理
http://www.open-lab.net/zh-cn/blog/accelerate-deep-learning-and-llm-inference-with-apache-spark-in-the-cloud/
Thu, 08 May 2025 06:18:25 +0000
http://www.open-lab.net/zh-cn/blog/?p=13821
Continued]]>
Apache Spark 是用于大數據處理和分析的行業領先平臺。隨著非結構化數據(documents、emails、multimedia content)的日益普及,深度學習 (DL) 和大語言模型 (LLMs) 已成為現代數據分析工作流的核心組成部分。這些模型支持各種下游任務,例如圖像描述、語義標記、文檔摘要等。 然而,將 GPU 密集型 DL 與 Spark 相結合一直是一項挑戰。 NVIDIA RAPIDS Accelerator for Apache Spark 和 Spark RAPIDS ML 庫可實現無縫 GPU 加速,但主要用于提取、轉換和加載 (ETL) 以及傳統機器學習 (ML) 工作負載。 最近用于分布式訓練和推理的 Spark API (如上一篇博客中所述) 在 DL 集成方面取得了重大進展。本文以這項工作為基礎,
Source
]]>
13821
-
使用 NVIDIA NeMo Curator 構建 Nemotron-CC:一個高質量萬億令牌數據集,用于大型語言模型預訓練,源自 Common Crawl
http://www.open-lab.net/zh-cn/blog/building-nemotron-cc-a-high-quality-trillion-token-dataset-for-llm-pretraining-from-common-crawl-using-nvidia-nemo-curator/
Wed, 07 May 2025 06:32:25 +0000
http://www.open-lab.net/zh-cn/blog/?p=13827
Continued]]>
對于想要訓練先進的 大語言模型 (LLM) 的企業開發者而言,整理高質量的預訓練數據集至關重要。為了讓開發者能夠構建高度準確的 LLM,NVIDIA 之前發布了 Nemotron-CC ,這是一個價值 6.3 萬億個 token 的英語語言 Common Crawl (CC) 數據集。今天,NVIDIA NeMo Curator 團隊很高興地與大家分享,用于構建 Nemotron-CC 數據集的 pipeline 現已合并到 NeMo Curator GitHub 存儲庫 中。 Nemotron-CC 工作流現已集成到 NeMo Curator 中,為平衡大規模準確性和數據量之間的權衡提供了一種新穎的解決方案。Nemotron-CC 工作流結合使用分類器集成和合成數據重述,提供了一種可擴展的方法,可從原始數據集中生成高質量的合成數據,以擴展原始數據集。
Source
]]>
13827
人人超碰97caoporen国产