Python – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Tue, 17 Jun 2025 08:01:06 +0000
zh-CN
hourly
1
196178272 -
借助 RAPIDS 單細胞技術推動十億細胞分析和生物學突破
http://www.open-lab.net/zh-cn/blog/driving-toward-billion-cell-analysis-and-biological-breakthroughs-with-rapids-singlecell/
Thu, 12 Jun 2025 07:56:29 +0000
http://www.open-lab.net/zh-cn/blog/?p=14258
Continued]]>
細胞生物學和虛擬細胞模型的未來取決于大規模測量和分析數據。在過去 10 年里,單細胞實驗一直以驚人的速度增長,從數百個細胞開始,現在轉向使用數十億個細胞進行新的數據生成工作。 虛擬細胞模型還生成了數十億個虛擬細胞。大量數據和新開發的模型將幫助科學家發現新的生物學、開發新的療法,以及研究和闡明疾病和衰老的進展。 數據處理和分析是下游生物解釋和模型構建的關鍵。隨著數據的極端增長,出現了兩個關鍵的數據處理挑戰,極大地限制了對這些大規模數據集的科學認識和解釋: 歸一化、降維、聚類和批量集成等分析步驟對于單細胞數據分析、解釋和模型開發至關重要。RAPIDS-singlecell 是一款經MIT許可的開源工具,由scverse開發,可應對數據規模和分析速度方面的挑戰。它通過CuPy和NVIDIA RAPIDS利用GPU加速,直接在社區標準AnnData數據結構上運行。
Source
]]>
14258
-
RAPIDS 實現零代碼更改加速、IO 性能提升和核外 XGBoost 加速
http://www.open-lab.net/zh-cn/blog/rapids-brings-zero-code-change-acceleration-io-performance-gains-and-out-of-core-xgboost/
Thu, 29 May 2025 05:26:21 +0000
http://www.open-lab.net/zh-cn/blog/?p=14045
Continued]]>
在過去的兩個版本中,RAPIDS 為 Python 機器學習引入了零代碼更改加速、巨大的 IO 性能提升、大于內存的 XGBoost 訓練、更好的用戶體驗,以及更具可擴展性的 ETL。 我們在 NVIDIA GTC 25 上重點介紹了其中一些更新和公告。在本文中,您可以了解一些亮點。 這種適用于 cuML 的新 UX 使數據科學家能夠繼續使用熟悉的 PyData API,同時自動使用 NVIDIA GPU 實現顯著的性能提升,具體速度可提升 5-175 倍,具體取決于算法和數據集,如圖 1 所示。 要開始使用這項新功能,只需加載 IPython 擴展程序,然后再導入標準 CPU 機器學習庫。 如需詳細了解這些新功能,請訪問 cuML 文檔。 在過去的兩個版本中,無論您是在云端還是本地工作,
Source
]]>
14045
-
在 NVIDIA Grace Hopper 上訓練大型語言模型的高級優化策略
http://www.open-lab.net/zh-cn/blog/advanced-optimization-strategies-for-llm-training-on-nvidia-grace-hopper/
Tue, 27 May 2025 05:39:48 +0000
http://www.open-lab.net/zh-cn/blog/?p=14051
Continued]]>
雖然分析有助于識別效率低下的情況,但高級優化策略對于解決硬件限制和有效擴展 AI 工作負載至關重要。在本文中,我們將探討 CPU 卸載、Unified Memory、Automatic Mixed Precision 和 FP8 訓練等技術。這些方法不僅能提高性能,還能助力研究人員突破 LLM 的極限。 在處理大型模型時,有效管理 GPU 內存至關重要。解決內存限制的一種策略是 CPU 卸載的激活函數。此技術涉及在模型訓練或推理期間臨時將中間激活張量從 GPU 內存移動到 CPU 內存。本節將探討這種方法的優缺點。 CPU 卸載激活函數可以處理更大的批量大小或訓練更大的模型,而不會耗盡 GPU 內存。將激活函數分流到 CPU 可騰出空間用于對訓練至關重要的其他運算,例如向前和向后傳遞。從本質上講,卸載提供了一種在內存容量有限的 GPU 上訓練更大模型的方法。
Source
]]>
14051
-
NVIDIA cuPyNumeric 25.03 現已完全開源,支持 PIP 和 HDF5
http://www.open-lab.net/zh-cn/blog/nvidia-cupynumeric-25-03-now-fully-open-source-with-pip-and-hdf5-support/
Wed, 23 Apr 2025 05:49:32 +0000
http://www.open-lab.net/zh-cn/blog/?p=13614
Continued]]>
NVIDIA cuPyNumeric 是一個庫,旨在為基于 Legate 框架構建的 NumPy 提供分布式和加速的插入式替換。它為多 GPU 和多節點 (MGMN) 加速計算帶來了零代碼更改擴展。 cuPyNumeric 25.03 是一次里程碑式的更新,為用戶和開發者引入了強大的新功能,并增強了可訪問性,詳情請參閱本文。 “借助 cuPyNumeric 25.03,NVIDIA 在 Apache 2 許可證下開源了支持 cuPyNumeric 的 Legate 框架和運行時層。現在,cuPyNumeric 的整個堆棧均在 Apache 2 許可證下提供。此舉符合 NVIDIA 對透明度、再現性和協作性的承諾。貢獻者現在可以毫無障礙地探索、審核、貢獻和擴展系統的任何組件。” cuPyNumeric 從一開始就支持通過 conda 進行安裝。現在,
Source
]]>
13614
-
使用 NVIDIA Holoscan 3.0 中的動態流控制輕松構建邊緣 AI 應用
http://www.open-lab.net/zh-cn/blog/easily-build-edge-ai-apps-with-dynamic-flow-control-in-nvidia-holoscan-3-0/
Thu, 20 Mar 2025 08:20:15 +0000
http://www.open-lab.net/zh-cn/blog/?p=13248
Continued]]>
NVIDIA 在 GTC 2025 上宣布推出實時 AI 傳感器處理平臺 NVIDIA Holoscan 3.0 。這個最新版本提供動態流控制,使開發者能夠設計更強大、更可擴展和更高效的系統。隨著 物理 AI 的快速發展 ,Holoscan 3.0 專為適應而構建,使其能夠比以往更輕松地應對當今動態環境的挑戰。 無論您使用的是醫學成像、機器人還是工業傳感器,Holoscan 3.0 都可以更輕松地在邊緣高效處理 AI 工作負載。本文將介紹 Holoscan 3.0 版本中的更新和功能,包括: NVIDIA Holoscan 3.0 引入了 NVIDIA Holoscan SDK 的重大升級,具有動態流控制。借助此功能,您現在可以在運行時修改工作流中的 operator 連接,從而實現更靈活、更具適應性的工作流。與使用固定連接的傳統靜態管道不同,此功能支持動態路由、
Source
]]>
13248
-
使用 Numba 將 GPU 加速的算法交易模擬提高 100 多倍
http://www.open-lab.net/zh-cn/blog/gpu-accelerate-algorithmic-trading-simulations-by-over-100x-with-numba/
Tue, 04 Mar 2025 05:53:40 +0000
http://www.open-lab.net/zh-cn/blog/?p=13140
Continued]]>
量化開發者需要運行回測模擬,以便從損益(P&L)的角度了解金融算法的表現。統計技術對于根據可能的損益路徑可視化算法的可能結果非常重要。GPU 可以大大減少執行此操作所需的時間。 從更廣泛的角度來看,金融市場的數學建模是一種實踐,可以追溯到榮獲諾貝爾獎的 Black-Scholes 模型 (1973 年)。它在當時是革命性的,從那時起就影響了資本市場。統計 Monte Carlo 模擬的方法是表示使用 Brownian motion 模型可實現的價格路徑,該方法涉及根據市場在檢查市場微觀結構時的行為方式定制的自定義模型。 本文介紹了適用于金融市場市場參與者的硬件加速研究。市場參與者可以是: 這些市場參與者都在全球的交易所中開展協作,在這些交易所中,有一套關于價格、交易量和時間的非常具體的規則,稱為交易證券的動態訂單薄。 由于定價數據龐大且執行速度快,
Source
]]>
13140
-
使用 NetworkX、Jaccard Similarity 和 cuGraph 預測您下一部最喜歡的電影
http://www.open-lab.net/zh-cn/blog/using-networkx-jaccard-similarity-and-cugraph-to-predict-your-next-favorite-movie/
Thu, 13 Feb 2025 02:57:15 +0000
http://www.open-lab.net/zh-cn/blog/?p=12823
Continued]]>
隨著全球每個人可用的數據量不斷增加,消費者做出明智決策的能力也越來越難。幸運的是,對于推薦系統而言,大型數據集是一個非常有用的組件,有時這會讓某些情況下的決策變得更加容易。 對于為推薦系統提供支持的數據中固有的關系建模而言,圖形是一個很好的選擇,而 NetworkX 是許多數據科學家在 Python 中進行圖形分析時非常喜歡的選擇。NetworkX 易于學習和使用,擁有各種圖形算法,并由龐大而友好的社區提供支持,并且在 Notebook、文檔、Stack Overflow 和您喜歡的 LLM 中提供了大量示例。然而,令無數開發人員失望的是,他們使用 NetworkX 或甚至因為 NetworkX 而涉足圖形分析,但眾所周知,它在典型推薦系統使用的規模上的性能表現不佳。 這就引出了一個問題:能否用 Python 的幾行簡單代碼編寫有效的基于圖形的推薦系統?更一般地說,
Source
]]>
12823
-
NVIDIA 黑客松獲獎者分享 RAPIDS 加速機器學習工作流程的策略
http://www.open-lab.net/zh-cn/blog/nvidia-hackathon-winners-share-strategies-for-rapids-accelerated-ml-workflows/
Fri, 20 Dec 2024 08:49:04 +0000
http://www.open-lab.net/zh-cn/blog/?p=12472
Continued]]>
今年,大約 220 個團隊齊聚開放數據科學大會 (ODSC) 西部,參加 NVIDIA 黑客松競賽,這是一場 24 小時機器學習 (ML) 競賽。數據科學家和工程師設計了基于準確性和處理速度進行評估的模型。排名前三名的團隊帶著獎品禮包離去,其中包括 NVIDIA RTX Ada Generation GPUs 、Google Colab 積分等。為了贏得這些榜單,獲勝團隊利用 RAPIDS Python APIs 提供了更準確、更高性能的解決方案。 在 ODSC 的演講中,NVIDIA RAPIDS AI 產品負責人 Nick Becker 強調,AI 的計算需求,加上生成的數據量不斷增加,正在推動數據處理成為加速計算的下一階段。如今,我們每天會生成約 403 million terabytes 的數據,這給數據中心帶來了巨大壓力,他們必須高效處理更多數據,以實現更高的準確性、
Source
]]>
12472
-
借助 WebAssembly 實現沙箱 Agentic AI 工作流
http://www.open-lab.net/zh-cn/blog/sandboxing-agentic-ai-workflows-with-webassembly/
Mon, 16 Dec 2024 05:04:34 +0000
http://www.open-lab.net/zh-cn/blog/?p=12521
Continued]]>
代理 AI 工作流通常 涉及執行由 大語言模型 (LLM) 生成的代碼,以執行創建數據可視化等任務。但是,此代碼應在安全環境中清理和執行,以降低提示 注入的風險 和返回代碼中的錯誤。使用正則表達式和受限運行時清理 Python 是不夠的,而且虛擬機的 Hypervisor 隔離需要大量的開發和資源。 本文將介紹如何使用 WebAssembly (Wasm) (一種基于堆棧的虛擬機的二進制指令格式),利用瀏覽器沙盒實現操作系統和用戶隔離。這提高了應用的安全性,且不會產生重大開銷。 LLM 應用開發的近期變化之一是公開工具,即 LLM 可以調用并使用響應的函數、應用或 API。例如,如果應用需要了解特定地點的天氣,它可以調用天氣 API,并使用結果制定適當的響應。 Python 代碼執行是用于擴展 LLM 應用的強大工具。LLM 擅長編寫 Python 代碼,
Source
]]>
12521
-
利用 RAPIDS cuML 和 GPU 加速提升多標簽分類性能
http://www.open-lab.net/zh-cn/blog/harnessing-gpu-acceleration-for-multi-label-classification-with-rapids-cuml/
Thu, 12 Dec 2024 06:29:47 +0000
http://www.open-lab.net/zh-cn/blog/?p=12377
Continued]]>
現代分類工作流程通常需要將單個記錄和數據點分類為多個類別,而不僅僅是分配單個標簽。 借助 scikit-learn 等開源 Python 庫,可以更輕松地針對這些多標簽問題構建模型。多個模型內置了對多標簽數據集的支持,而簡單的 scikit-learn 實用程序函數也支持使用不適合這些用例的函數。 但是,訓練這些多標簽模型的計算成本很高,而且基于 CPU 的基礎設施無法跟上企業每年生成的數據量。 RAPIDS 是開源 GPU 加速數據科學和 AI 庫的集合。 cuML 是一個適用于 Python 的 GPU 加速機器學習庫,具有 scikit-learn 兼容 API。 在這篇博文中,我們展示了 RAPIDS cuML 如何借助加速計算輕松實現多標簽機器學習工作流程的 大幅加速 。 在某些企業用例中,目標是構建模型以預測每條記錄的單個標簽。
Source
]]>
12377
-
使用 NVIDIA NIM 構建您的人工在環 AI 智能體首秀
http://www.open-lab.net/zh-cn/blog/build-your-first-human-in-the-loop-ai-agent-with-nvidia-nim/
Thu, 21 Nov 2024 06:39:19 +0000
http://www.open-lab.net/zh-cn/blog/?p=12153
Continued]]>
由 大語言模型(LLMs) 提供支持的 AI 智能體 可幫助組織簡化和減少手動工作負載。這些智能體使用多層迭代推理來分析問題、設計解決方案,并使用各種工具執行任務。與傳統聊天機器人不同,LLM 提供支持的智能體能夠有效理解和處理信息,從而實現復雜任務的自動化。為避免特定應用中的潛在風險,在使用自主 AI 智能體時,保持人工監督仍然至關重要。 在本文中,您將學習如何使用 NVIDIA NIM 微服務 (一種針對 AI 推理優化的加速 API)構建人類在環 AI 智能體。該博文介紹了一個社交媒體用例,展示了這些多功能 AI 智能體如何輕松處理復雜任務。借助 NIM 微服務,您可以將高級 LLM(如 Llama 3.1-70B-Instruct 和 Falcon 180B 等)無縫集成到工作流中,從而提供 AI 驅動任務所需的可擴展性和靈活性。無論您是使用 PyTorch、
Source
]]>
12153
-
使用 nvmath-python 實現 Epilog 運算與矩陣乘法的融合計算
http://www.open-lab.net/zh-cn/blog/fusing-epilog-operations-with-matrix-multiplication-using-nvmath-python/
Mon, 18 Nov 2024 06:37:55 +0000
http://www.open-lab.net/zh-cn/blog/?p=12017
Continued]]>
nvmath-python (Beta) 是一個開源 Python 庫,為 Python 程序員提供對 NVIDIA CUDA-X 數學庫的高性能數學運算訪問。nvmath-python 既提供底層庫的低級綁定,也提供更高級別的 Python 抽象。它可與 PyTorch 和 CuPy 等現有 Python 軟件包進行互操作。 在本文中,我將展示如何在 nvmath-python 中將 結語 與矩陣乘法結合使用。結語是可以與正在執行的數學運算(如 FFT 或矩陣乘法)融合的運算。可用的結語涵蓋了大多數常見的深度學習計算。我通過實施簡單神經網絡的常見正向和反向傳遞運算來演示其用法。 要安裝 nvmath-python,請 按照安裝說明 操作。 在本節中,我將演示如何使用 epilogs 實現簡單線性層的前向傳遞。此層首先將輸入向量乘以權重矩陣,
Source
]]>
12017
-
使用 Numbast 實現 CUDA C++ 生態系統與 Python 開發者之間的無縫連接
http://www.open-lab.net/zh-cn/blog/bridging-the-cuda-c-ecosystem-and-python-developers-with-numbast/
Thu, 24 Oct 2024 04:51:36 +0000
http://www.open-lab.net/zh-cn/blog/?p=11681
Continued]]>
通過支持使用 Python 編寫 CUDA 內核函數,類似于在 C++中實現內核函數的方式,Numba 彌合了 Python 生態系統與 CUDA 性能之間的差距。 但是,CUDA C++開發者可以訪問許多目前未在 Python 中公開的庫,包括 CUDA 核心計算庫(CCCL)、cuRAND 以及頭文件實現的數字類型,例如 bfloat16 等。 雖然每個 CUDA C++ 庫都可以用自己的方式介紹給 Python,但是手動為每個庫進行綁定是一項費力、重復的工作,并且容易出現不一致。例如,float16 和 bfloat16 數據類型定義了 60 多個類似的獨立函數,這兩種類型都需要多次類似的綁定。 此外,當底層 CUDA C++庫引入新功能時,手動創建的綁定通常會不同步。 Numba 建立自動化工作流,將 CUDA C/C++API 轉換為 Numba 綁定。
Source
]]>
11681
-
借助 NVDashboard v0.10 實現近乎實時的使用情況統計,從而充分釋放 GPU 性能
http://www.open-lab.net/zh-cn/blog/maximize-gpu-performance-with-near-real-time-usage-stats-on-nvdashboard-v0-10/
Wed, 03 Jul 2024 04:39:39 +0000
http://www.open-lab.net/zh-cn/blog/?p=10524
Continued]]>
在 NVIDIA GTC 2024 上,RAPIDS 團隊展示了 NVDashboard v0.10 的新功能,該面板在 JupyterLab 上運行,用于監控 GPU 使用情況,以幫助最大限度地提高 GPU 資源的效率。 我們很高興地宣布NVDashboard v0.10現在可供使用。 此更新引入了一系列改進,包括通過 WebSocket 進行數據流傳輸以增強性能、時間序列圖表刷寫和同步工具提示以提高易用性。這些升級共同改變了用戶體驗,為在 JupyterLab 中使用 GPU 密集型應用程序的開發者和研究人員提供了一個更加響應、直觀且視覺上更加協調的工具。 圖 1 顯示右側的 GPU 控制面板,而左下角顯示兩個 dask-labextension 控制面板。 NVDashboard 是一個重要的 JupyterLab 擴展程序,
Source
]]>
10524
-
使用現已推出 Beta 版的 NVIDIA AI Workbench 來創建、共享和擴展企業 AI 工作流程
http://www.open-lab.net/zh-cn/blog/create-share-and-scale-enterprise-ai-workflows-with-nvidia-ai-workbench-now-in-beta/
Tue, 30 Jan 2024 03:49:20 +0000
http://www.open-lab.net/zh-cn/blog/?p=8855
Continued]]>
NVIDIA AI Workbench 現已進入測試階段,帶來了豐富的新功能,可簡化企業開發者創建、使用和共享 AI 和機器學習 (ML) 項目的方式。在 SIGGRAPH 2023 上發布的 NVIDIA AI Workbench,使開發者能夠在支持 GPU 的環境中輕松創建、協作和遷移 AI 工作負載。欲了解更多信息,請參閱借助 NVIDIA AI Workbench 無縫開發和部署可擴展的生成式 AI 模型。 本文介紹了 NVIDIA AI Workbench 如何幫助簡化 AI 工作流程,并詳細介紹了測試版的新功能。本文還介紹了編碼副駕駛參考示例,該示例使您能夠使用 AI Workbench 在所選平臺上創建、測試和自定義預訓練的生成式 AI 模型。 借助 AI Workbench,開發者和數據科學家可以在 PC 或工作站上靈活地在本地啟動 AI 或 ML 項目,
Source
]]>
8855
人人超碰97caoporen国产