cuML – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Wed, 25 Jun 2025 05:35:49 +0000
zh-CN
hourly
1
196178272 -
NVIDIA 在制造和運營領域的 AI 應用:借助 NVIDIA CUDA-X 數據科學加速 ML 模型
http://www.open-lab.net/zh-cn/blog/ai-in-manufacturing-and-operations-at-nvidia-accelerating-ml-models-with-nvidia-cuda-x-data-science/
Wed, 18 Jun 2025 04:45:46 +0000
http://www.open-lab.net/zh-cn/blog/?p=14378
Continued]]>
從晶圓制造和電路探測到封裝芯片測試,NVIDIA 利用數據科學和機器學習來優化芯片制造和運營工作流程。這些階段會產生 TB 級的數據,而要確保質量、吞吐量和成本效益,關鍵在于快速、大規模地將這些數據轉化為切實可行的見解。多年來,我們開發了強大的 Machine Learning 流程,可解決缺陷檢測和測試優化等問題。 這是一系列博客中的第一個,這些博客將分享我們使用 NVIDIA cuDF 和 NVIDIA cuML 等 CUDA-X 庫部署此類工作流的關鍵經驗。雖然這些經驗教訓來自半導體制造,但挑戰和解決方案廣泛適用于物流、質量工程和供應鏈優化。 我們先從現實世界的分類任務開始:預測芯片是否通過特定測試。在更高級的場景中,目標擴展到預測芯片的性能箱(從 L1 到 L5),并將問題表述為多類別分類問題。 在這兩種情況下,模型會使用來自多個來源的豐富測量信號:
Source
]]>
14378
-
利用 NVIDIA cuML 中的森林推理庫加速樹模型推理
http://www.open-lab.net/zh-cn/blog/supercharge-tree-based-model-inference-with-forest-inference-library-in-nvidia-cuml/
Thu, 05 Jun 2025 05:33:07 +0000
http://www.open-lab.net/zh-cn/blog/?p=14415
Continued]]>
樹集成模型仍然是表格數據的首選,因為它們準確、訓練成本相對較低且速度快。但是,如果您需要低于 10 毫秒的延遲或每秒數百萬次的預測,那么在 CPU 上部署 Python 推理很快就會成為瓶頸。 2019 年,Forest Inference Library (FIL) 首次出現在 cuML 0.9 中,一直圍繞著一件事:為梯度提升樹和在 XGBoost、LightGBM、scikit-learn 或 NVIDIA cuML 中訓練的隨機森林提供快速推理。一般來說,如果您的模型可以轉換為 Treelite,則可以使用 FIL。 FIL 已在 RAPIDS 25.04 中重新設計,新的亮點包括: 在本博文中,您將了解 cuML 25.04 中 FIL 的新功能、性能和特性,并了解它比以前的 cuML 版本具有的優勢。
Source
]]>
14415
-
特級大師專業提示:使用 cuML 通過堆疊奪得 Kaggle 競賽冠軍
http://www.open-lab.net/zh-cn/blog/grandmaster-pro-tip-winning-first-place-in-a-kaggle-competition-with-stacking-using-cuml/
Thu, 22 May 2025 06:22:33 +0000
http://www.open-lab.net/zh-cn/blog/?p=14075
Continued]]>
堆疊是一種先進的表格數據建模技術,通過結合多個不同模型的預測來實現高性能。利用 GPU 的計算速度,可以高效地訓練大量模型。其中包括梯度提升決策樹 (Gradient Boosted Decision Trees, GBDT) 、深度學習神經網絡 (Deep Learning Neural Networks, NN) 以及其他機器學習 (Machine Learning, ML) 模型,例如支持向量回歸 (Support Vector Regression, SVR) 和 K 最近鄰 (K-Nearest Neighbors, KNN) 。這些單獨的模型被稱為 Level 1 模型。 然后訓練 Level 2 模型,這些模型使用 Level 1 模型的輸出作為輸入。Level 2 模型學習使用 Level 1 模型的不同組合來預測不同場景中的目標。最后,
Source
]]>
14075
-
使用 NVIDIA NeMo Curator 構建 Nemotron-CC:一個高質量萬億令牌數據集,用于大型語言模型預訓練,源自 Common Crawl
http://www.open-lab.net/zh-cn/blog/building-nemotron-cc-a-high-quality-trillion-token-dataset-for-llm-pretraining-from-common-crawl-using-nvidia-nemo-curator/
Wed, 07 May 2025 06:32:25 +0000
http://www.open-lab.net/zh-cn/blog/?p=13827
Continued]]>
對于想要訓練先進的 大語言模型 (LLM) 的企業開發者而言,整理高質量的預訓練數據集至關重要。為了讓開發者能夠構建高度準確的 LLM,NVIDIA 之前發布了 Nemotron-CC ,這是一個價值 6.3 萬億個 token 的英語語言 Common Crawl (CC) 數據集。今天,NVIDIA NeMo Curator 團隊很高興地與大家分享,用于構建 Nemotron-CC 數據集的 pipeline 現已合并到 NeMo Curator GitHub 存儲庫 中。 Nemotron-CC 工作流現已集成到 NeMo Curator 中,為平衡大規模準確性和數據量之間的權衡提供了一種新穎的解決方案。Nemotron-CC 工作流結合使用分類器集成和合成數據重述,提供了一種可擴展的方法,可從原始數據集中生成高質量的合成數據,以擴展原始數據集。
Source
]]>
13827
-
借助超參數優化實現堆疊泛化:使用 NVIDIA cuML 在15分鐘內最大化準確性
http://www.open-lab.net/zh-cn/blog/stacking-generalization-with-hpo-maximize-accuracy-in-15-minutes-with-nvidia-cuml/
Thu, 01 May 2025 07:09:25 +0000
http://www.open-lab.net/zh-cn/blog/?p=13850
Continued]]>
堆疊泛化是機器學習 (ML) 工程師廣泛使用的技術,通過組合多個模型來提高整體預測性能。另一方面,超參數優化 (HPO) 涉及系統搜索最佳超參數集,以更大限度地提高給定 ML 算法的性能。 同時使用堆棧和 HPO 時,一個常見的挑戰是巨大的計算需求。這些方法通常需要訓練多個模型,并針對每個模型迭代大量超參數組合。這可能會很快變得耗費大量資源和時間,尤其是對于大型數據集而言。 在本文中,我們將演示如何簡化此工作流,該工作流將堆棧泛化與 HPO 相結合。我們將展示如何使用 cuML 庫的 GPU 加速計算在短短 15 分鐘內執行此工作流。得益于 cuML 與 scikit-learn 的零代碼更改集成,您可以使用現有的 ML 工作流進行 GPU 加速 (無需修改代碼) ,并實現相同的模型準確性。與基于 CPU 的執行 (通常一次只運行一個試驗) 不同,
Source
]]>
13850
-
NVIDIA cuML 為 scikit-learn 帶來零代碼更改加速
http://www.open-lab.net/zh-cn/blog/nvidia-cuml-brings-zero-code-change-acceleration-to-scikit-learn/
Tue, 18 Mar 2025 05:59:53 +0000
http://www.open-lab.net/zh-cn/blog/?p=13333
Continued]]>
Scikit-learn 是應用最廣泛的 ML 庫,因其 API 簡單、算法多樣且與 pandas 和 NumPy 等熱門 Python 庫兼容,因此在處理表格數據方面備受歡迎。現在,NVIDIA cuML 使您能夠繼續使用熟悉的 Scikit-learn API 和 Python 庫,同時使數據科學家和機器學習工程師能夠在 NVIDIA GPU 上利用 CUDA 的強大功能,而無需更改任何應用代碼。 在 NVIDIA cuML 25.02 中,我們將在公測版中發布無需更改代碼即可加速 scikit-learn 算法的功能。2019 年首次推出的 NVIDIA cuML 已迅速為 Python 機器學習添加基于 CUDA 的 GPU 算法。借助最新版本,數據科學家和機器學習工程師能夠保持 scikit-learn 應用不變,并在 NVIDIA GPU 上實現比 CPU 快 50…
Source
]]>
13333
-
利用 RAPIDS cuML 加速時間序列預測
http://www.open-lab.net/zh-cn/blog/accelerating-time-series-forecasting-with-rapids-cuml/
Thu, 16 Jan 2025 06:20:40 +0000
http://www.open-lab.net/zh-cn/blog/?p=12696
Continued]]>
時間序列預測是一種強大的數據科學技術,用于根據過去的數據點預測未來值 借助 skforecast 等開源 Python 庫,您可以輕松地對數據運行時間序列預測。它們允許您“自帶”與 scikit-learn API 兼容的回歸器,讓您能夠靈活地與所選模型無縫協作。 隨著數據集和技術(例如直接多步驟預測)的不斷增加,需要您一次運行多個模型,在基于 CPU 的基礎設施上運行預測時,計算成本會很快變得昂貴。 RAPIDS 是開源 GPU 加速數據科學和 AI 庫的集合。 cuML 是一個 GPU 加速的 Python 機器學習庫,具有 scikit-learn 兼容 API。 在這篇博文中,我們展示了如何將 RAPIDS cuML 與 skforecast 結合使用,以加速時間序列預測,從而讓您能夠處理更大的數據集和預測窗口。 在當今數據驅動的世界中,
Source
]]>
12696
-
利用 RAPIDS cuML 和 GPU 加速提升多標簽分類性能
http://www.open-lab.net/zh-cn/blog/harnessing-gpu-acceleration-for-multi-label-classification-with-rapids-cuml/
Thu, 12 Dec 2024 06:29:47 +0000
http://www.open-lab.net/zh-cn/blog/?p=12377
Continued]]>
現代分類工作流程通常需要將單個記錄和數據點分類為多個類別,而不僅僅是分配單個標簽。 借助 scikit-learn 等開源 Python 庫,可以更輕松地針對這些多標簽問題構建模型。多個模型內置了對多標簽數據集的支持,而簡單的 scikit-learn 實用程序函數也支持使用不適合這些用例的函數。 但是,訓練這些多標簽模型的計算成本很高,而且基于 CPU 的基礎設施無法跟上企業每年生成的數據量。 RAPIDS 是開源 GPU 加速數據科學和 AI 庫的集合。 cuML 是一個適用于 Python 的 GPU 加速機器學習庫,具有 scikit-learn 兼容 API。 在這篇博文中,我們展示了 RAPIDS cuML 如何借助加速計算輕松實現多標簽機器學習工作流程的 大幅加速 。 在某些企業用例中,目標是構建模型以預測每條記錄的單個標簽。
Source
]]>
12377
-
NVIDIA RAPIDS 加速大型數據集的因果關系推理
http://www.open-lab.net/zh-cn/blog/faster-causal-inference-on-large-datasets-with-nvidia-rapids/
Thu, 14 Nov 2024 07:12:31 +0000
http://www.open-lab.net/zh-cn/blog/?p=12038
Continued]]>
隨著消費者應用生成的數據比以前更多,企業開始采用觀察數據的因果關系推理方法,以幫助闡明應用的各個組件的更改如何影響關鍵業務指標。 在過去十年中,計量經濟學家開發了一種稱為 雙機器學習 的技術,該技術將機器學習模型的強大功能用于解決因果關系推理問題。它涉及在獨立的數據集樣本中訓練兩個預測模型,并將它們結合起來以構建目標變量的無偏估計。 借助 DoubleML 等開源 Python 庫,數據科學家可以輕松利用這項新技術,但卻難以處理企業需要在 CPU 上處理的數據量。 RAPIDS 是開源 GPU 加速數據科學和 AI 庫的集合。 cuML 是一個適用于 Python 的 GPU 加速機器學習庫,具有 scikit-learn 兼容的 API。 在這篇博文中,我們展示了如何將 RAPIDS cuML 與 DoubleML 庫結合使用,以加快因果關系推理速度,
Source
]]>
12038
-
RAPIDS cuML 助力 GPU 實現 UMAP 的高速擴展
http://www.open-lab.net/zh-cn/blog/even-faster-and-more-scalable-umap-on-the-gpu-with-rapids-cuml/
Thu, 31 Oct 2024 09:15:25 +0000
http://www.open-lab.net/zh-cn/blog/?p=11843
Continued]]>
UMAP 是一種常用的降維算法,用于生物信息學、NLP 主題建模和 ML 預處理等領域。它的工作原理是創建 k 近鄰(k-NN)圖(在文獻中稱為全近鄰圖),以構建數據的模糊拓撲表示,用于將高維數據嵌入到較低維度中。 RAPIDS cuML 已經包含了加速的 UMAP,與最初基于 CPU 的 UMAP 相比,速度有了顯著提升。正如我們在本文中演示的那樣,還有改進空間。 在本文中,我們將探討如何使用 RAPIDS cuML 24.10 中引入的新功能。我們還將深入探討 nn-descent 算法和批處理流程的詳細信息。最后,我們分享基準測試結果,以強調可能的性能提升。在本文結束時,我們希望您對 RAPIDS 更快速且可擴展的 UMAP 所帶來的優勢感到興奮。 我們面臨的一個挑戰是,所有鄰居圖形構建階段需要很長時間,尤其是與 UMAP 算法中的其他步驟相比。
Source
]]>
11843
-
借助 GPU-CPU 融合大規模增強圖形分析,實現 100 倍性能
http://www.open-lab.net/zh-cn/blog/supercharge-graph-analytics-at-scale-with-gpu-cpu-fusion-for-100x-performance/
Fri, 13 Oct 2023 06:13:41 +0000
http://www.open-lab.net/zh-cn/blog/?p=8015
Continued]]>
圖形是許多現代數據和分析功能的基礎,可在不同的數據資產中查找人、地點、事物、事件和位置之間的關系。根據一項研究,到 2025 年,圖形技術將被用于 80% 的數據和分析創新,這將有助于促進跨組織的快速決策。 在處理包含數百萬個節點的圖形時,CPU 上的 Louvain 等算法的執行時間可能長達幾個小時。這種長時間的處理時間不僅會影響開發者的工作效率,而且會導致總體性能結果欠佳。 利用 GPU 的并行處理能力可以顯著縮短圖形訓練時間。基準測試結果表明,GPU 加速在將基于 CPU 的計算速度提高 100 倍以上方面具有巨大潛力。 這種顯著的速度提升展示了將 GPU 集成到 圖形分析 (graph analytics) 可以實現 100 倍的性能提升。 這種顛覆性架構的核心是以下三個關鍵組件,每個組件都發揮著關鍵作用。
Source
]]>
8015
-
使用 RAPIDS-singlecell 進行 GPU 加速的單細胞 RNA 分析
http://www.open-lab.net/zh-cn/blog/gpu-accelerated-single-cell-rna-analysis-with-rapids-singlecell/
Tue, 27 Jun 2023 06:19:06 +0000
http://www.open-lab.net/zh-cn/blog/?p=7268
Continued]]>
單細胞測序已成為生物醫學研究中最突出的技術之一。它在細胞水平上破譯轉錄組和表觀基因組變化的能力使研究人員獲得了有價值的新見解。因此,單細胞實驗的規模和復雜性增加了 100 多倍,涉及 100 多萬個細胞的實驗越來越普遍。 但是,必須在高度迭代的過程中對結果數據進行分析。至關重要的是,快速算法用于這些迭代步驟,以實現快速周轉時間。 為了使用 Python 進行更一致的單細胞分析,scverse致力于構建一個完整的生態系統,以幫助研究人員進行分析。該生態系統的核心是一種數據結構,它可以在整個數據處理管道中維護各種轉換的注釋,從而實現單細胞分析。 AnnData 是一個 Python 包,用于處理內存和磁盤上的注釋數據矩陣,是 Scanpy 庫,是 scverse 生態系統中的主要單細胞分析套件。Scanpy 構建在 PyData 生態系統中常見的其他庫之上,如 NumPy 、
Source
]]>
7268
-
用 RAPIDS 生成用于加速短期價格預測的限價訂單簿數據集
http://www.open-lab.net/zh-cn/blog/limit-order-book-dataset-generation-for-accelerated-short-term-price-prediction-with-rapids/
Fri, 19 May 2023 05:35:46 +0000
http://www.open-lab.net/zh-cn/blog/?p=7028
Continued]]>
在高頻交易的世界里,成千上萬的市場參與者每天都在互動。據該報報道,事實上,高頻交易占美國股票交易量的一半以上高頻交易同步金融市場價格。 做市商是賣方的主要參與者,為市場提供流動性。投機者站在買方一邊,進行實驗和研究,希望從中獲利。最終用戶是向零售經紀人咨詢建議和交易的散戶投資者。總體而言,金融公司有興趣評估金融機器學習( ML )算法,以發現哪些算法最有利可圖。 研究人員最近發表了許多版本的這種類型的算法。我們試圖利用高頻數據和隨機森林( RF )模型的可解釋性,并選擇了本文中提出的 RF 方法研究短期價格預測的限價訂單簿特征:一種機器學習方法. 我們的研究發現,使用 GPU 的硬件加速減少了金融 ML 研究人員獲得預測結果所需的時間。由于大部分運行時間都可以用于分類器訓練,因此人們當然對更有效的訓練方法感興趣。 本文介紹了我們的研究,包括生成的數據集,
Source
]]>
7028
-
使用 Dataiku 和 NVIDIA Data Science 進行主題建模和圖像分類
http://www.open-lab.net/zh-cn/blog/topic-modeling-and-image-classification-with-dataiku-and-nvidia-data-science/
Tue, 04 Apr 2023 03:09:47 +0000
http://www.open-lab.net/zh-cn/blog/?p=6680
Continued]]>
這個Dataiku platform日常人工智能簡化了深度學習。用例影響深遠,從圖像分類到對象檢測和自然語言處理( NLP )。 Dataiku 可幫助您對代碼和代碼環境進行標記、模型培訓、可解釋性、模型部署以及集中管理。 本文深入探討了用于圖像分類和對象檢測的高級 Dataiku 和 NVIDIA 集成。它還涵蓋了實時推理的深度學習模型部署以及如何使用開源RAPIDS和 cuML 庫,用于客戶支持 Tweet 主題建模用例。 NVIDIA 提供硬件 (NVIDIA A10 Tensor Core GPUs,在這種情況下)和各種 OSS(CUDA,RAPIDS) 完成工作 請注意,本文中的所有 NVIDIA AI 軟件都可以通過NVIDIA AI Enterprise,一個用于生產人工智能的安全端到端軟件套件,由 NVIDIA 提供企業支持 本節介紹使用 Dataiku 和…
Source
]]>
6680
-
使用 RAPIDS RAFT 進行機器學習和數據分析的可重用計算模式
http://www.open-lab.net/zh-cn/blog/reusable-computational-patterns-for-machine-learning-and-data-analytics-with-rapids-raft/
Wed, 22 Mar 2023 06:50:35 +0000
http://www.open-lab.net/zh-cn/blog/?p=6533
Continued]]>
在許多數據分析和機器學習算法中,計算瓶頸往往來自控制端到端性能的一小部分步驟。這些步驟的可重用解決方案通常需要低級別的基元,這些基元非常簡單且耗時。 NVIDIA 制造 RAPIDS RAFT 是為了解決這些瓶頸,并在為多維數據構建算法時最大限度地重用,例如機器學習和數據分析中經常遇到的問題。 RAPIDS 是 GPU 上的一套用于數據科學和機器學習的加速庫: 高度優化的 RAFT 計算模式構成了一個豐富的模塊化嵌入式加速器目錄,為您提供了強大的元素來組成新的算法或加速現有的庫。 這僅僅是一個開始:隨著新 GPU 架構的發布, RAFT 組件將繼續優化,確保您始終從硬件中獲得最佳性能。 RAFT 使您能夠花時間設計和開發應用程序,而不必擔心您是否能充分利用 GPU 硬件。 在這篇文章中,我討論了 RAFT 在開發人員工具箱中的位置,使用它的環境,更重要的是,
Source
]]>
6533
人人超碰97caoporen国产