開發與優化 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 02 Jul 2025 04:23:34 +0000 zh-CN hourly 1 196178272 在魔搭社區使用 NVIDIA TensorRT-LLM PyTorch 新架構優化 Qwen3 系列模型推理 http://www.open-lab.net/zh-cn/blog/modelscope-nvidia-tensorrt-llm-pytorch-qwen3/ Thu, 26 Jun 2025 07:08:55 +0000 http://www.open-lab.net/zh-cn/blog/?p=14420 Continued]]> 摘要: TensorRT-LLM 采用 PyTorch 全新架構進一步優化模型部署流程,提升開發者使用體驗。 TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優化的開源庫,可幫助開發者快速利用最新 LLM 完成應用原型驗證與產品部署。TensorRT-LLM 提供了一個全面的開源 SDK,用于加速和優化 LLM 推理,包含了最新極致優化的計算 Kernel、高性能 Attention 實現、多機多卡通信分布式支持、豐富的并行和量化策略等,從而在 NVIDIA GPU 上實現突破性的 LLM 推理性能。此外,TensorRT-LLM 采用了 PyTorch 的全新架構,提供了直觀簡潔的模型定義 API,便于定義和構建新模型,顯著減少了代碼量,同時大幅降低了 debugging難度,進一步優化了模型部署流程,提升了開發者的使用體驗。

Source

]]>
14420
如何使用 NVIDIA NeMo 技能簡化復雜的 LLM 工作流程 http://www.open-lab.net/zh-cn/blog/how-to-streamline-complex-llm-workflows-using-nvidia-nemo-skills/ Wed, 25 Jun 2025 04:19:10 +0000 http://www.open-lab.net/zh-cn/blog/?p=14471 Continued]]> 改進 LLM 的典型方法涉及多個階段:合成數據生成 (SDG) 、通過監督式微調 (SFT) 或強化學習 (RL) 進行模型訓練以及模型評估。每個階段都需要使用不同的庫,這些庫通常很難設置,而且難以一起使用。 例如,您可以使用 NVIDIA TensorRT-LLM 或 vLLM 進行 SDG 訓練,使用 NVIDIA NeMo 或 verl 進行訓練。在這種情況下,您需要調用許多不同的腳本和容器,將 Hugging Face 檢查點轉換為 TensorRT-LLM,執行大規模 SDG,將數據和模型轉換為 NeMo 格式,并在各種基準測試中運行訓練和評估。 為了簡化這一復雜的工作流程,NVIDIA 開發了 NeMo 技能庫。它提供了無縫連接不同框架的高級抽象,使其能夠以統一和可互換的方式使用。NeMo-Skill 還可以輕松地從快速本地原型設計過渡到在 Slurm…

Source

]]>
14471
編譯器資源管理器:CUDA 開發者必備的內核實驗室 http://www.open-lab.net/zh-cn/blog/compiler-explorer-the-kernel-playground-for-cuda-developers/ Wed, 18 Jun 2025 04:39:02 +0000 http://www.open-lab.net/zh-cn/blog/?p=14373 Continued]]> 您是否曾想過,當您編寫 GPU 核函數時,CUDA 編譯器究竟會生成什么?是否曾想與同事輕松分享精簡的 CUDA 示例,而無需他們先安裝特定的 CUDA 工具包版本?或者,也許您完全不熟悉 CUDA,正在尋找一種無需安裝任何東西甚至無需配備 GPU 的簡單方法? 得益于廣泛使用的開源工具 Compiler Explorer (通常稱為 godbolt) ,您可以直接通過瀏覽器以交互方式即時完成所有這些工作。本文將解釋 Compiler Explorer 提供的內容,以及為什么它應該成為 CUDA 開發工具套件的一部分。 編譯器資源管理器是一款基于 Web 的工具,可幫助開發者編寫源代碼,使用各種編譯器實時編譯,并立即查看生成的輸出,例如 assembly、中間表示 (IR) 、PTX 等。 Compiler Explorer 最初由 Matt Godbolt 創建,

Source

]]>
14373
NVIDIA 集合通信庫 2.26 實現性能和監控功能的提升 http://www.open-lab.net/zh-cn/blog/improved-performance-and-monitoring-capabilities-with-nvidia-collective-communications-library-2-26/ Wed, 18 Jun 2025 04:35:29 +0000 http://www.open-lab.net/zh-cn/blog/?p=14370 Continued]]> NVIDIA 集合通信庫 (NCCL) 可實現針對 NVIDIA GPU 和網絡優化的多 GPU 和多節點通信基元。NCCL 是用于多 GPU 深度學習訓練的核心軟件。它可以處理任何類型的 GPU 間通信,無論是通過 PCI、NVIDIA NVLink 還是網絡。它使用先進的拓撲檢測、優化的通信圖形和調優模型,在 NVIDIA GPU 平臺上直接獲得出色性能。 在本文中,我們將討論 NCCL 2.26 中發布的新功能和修復。有關更多詳情,請訪問 NVIDIA/nccl GitHub 資源庫。請注意,NCCL 2.25 版本僅側重于 NVIDIA Blackwell 平臺支持,沒有庫功能更改。因此,尚未發布該版本的發布文章。 NVIDIA Magnum IO NCCL 是一個旨在優化 GPU 間和多節點通信的庫,對于 AI 和 HPC 應用中的高效并行計算至關重要。

Source

]]>
14370
使用 FlashInfer 運行 NVIDIA 的高性能 LLM 推理內核 http://www.open-lab.net/zh-cn/blog/run-high-performance-llm-inference-kernels-from-nvidia-using-flashinfer/ Fri, 13 Jun 2025 07:42:42 +0000 http://www.open-lab.net/zh-cn/blog/?p=14248 Continued]]> 出色的 LLM 推理需要兩個關鍵要素:速度和開發者速度。速度是指通過使用高度優化的計算內核算法,最大限度地提高底層硬件的效率。開發者速度是指快速采用這些新內核并加速新模型、算法和硬件的能力。最終,這種速度的基礎是快速部署在底層 GPU 上運行的新計算內核,以及將這些內核輕松引入框架。 FlashInfer 是一個可定制的高效庫,用于構建高效的 LLM 服務引擎。它使用塊稀疏和可組合格式優化 KV 緩存存儲,以改善內存訪問并減少冗余,并具有可定制的注意力模板,可通過即時 (JIT) 編譯來適應各種設置。其負載平衡調度算法可根據動態用戶請求進行調整,同時保持與 NVIDIA CUDA Graph 靜態配置兼容。FlashInfer 已集成到領先的 LLM 服務框架 (例如 MLC Engine、SGLang 和 vLLM) 以及多個自定義引擎中。

Source

]]>
14248
借助 MMseqs2-GPU 和 NVIDIA NIM 加速蛋白質科學序列對齊 http://www.open-lab.net/zh-cn/blog/accelerated-sequence-alignment-for-protein-design-with-mmseqs2-and-nvidia-nim/ Thu, 12 Jun 2025 07:46:31 +0000 http://www.open-lab.net/zh-cn/blog/?p=14251 Continued]]> 蛋白質序列對齊 (比較蛋白質序列的相似性) 是現代生物學和醫學的基礎。它通過重建進化關系 (技術上稱為 homology inference) 來照亮基因功能,為藥物開發提供信息。當科學家發現或設計一種新蛋白質時,他們可以將其與已知的蛋白質序列進行比對,以推斷其結構和功能。 這種同源性搜索可以揭示有前景的藥物點 (例如,通過比較病原體蛋白質與人類蛋白質) 或查明致病突變 (通過比較患者的蛋白質與健康蛋白質) 。然而,基因組和宏基因組數據的快速擴展現在給傳統的對齊工具帶來了壓力。 本文將探討蛋白質對齊方面的最新進展如何通過使用 GPU 優化的對齊,以前所未有的速度增強 AI 驅動的藥物發現、結構預測和蛋白質設計,從而加速蛋白質科學。 序列對齊可能聽起來技術含量很高,但其重要性顯而易見:科學家可以比較蛋白質序列以找到相似性。相似序列通常意味著相似的功能或結構特征。

Source

]]>
14251
隆重推出 NVIDIA DGX 云 Lepton:面向開發者的統一 AI 平臺 http://www.open-lab.net/zh-cn/blog/introducing-nvidia-dgx-cloud-lepton-a-unified-ai-platform-built-for-developers/ Wed, 11 Jun 2025 09:04:28 +0000 http://www.open-lab.net/zh-cn/blog/?p=14303 Continued]]> AI 原生應用的時代已經到來。開發者正在構建先進的代理式 AI 和物理 AI 系統,但跨地區和 GPU 提供商進行擴展仍然是一項挑戰。 NVIDIA 構建 DGX Cloud Lepton 來提供幫助。這是一個統一的 AI 平臺和計算市場,將開發者與全球云提供商網絡中的數萬個 GPU 連接起來。現在,您可以搶先體驗。 DGX 云 Lepton 滿足了一項關鍵需求:通過在整個 NVIDIA 計算生態系統中提供對 GPU 容量和 AI 服務的統一訪問,提高 AI 開發者的工作效率。它與 NVIDIA 軟件堆棧(包括 NVIDIA NIM 和 NVIDIA NeMo)無縫集成,并將很快支持 NVIDIA Blueprints 和 NVIDIA Cloud Functions (NVCF)。它使開發者能夠快速、大規模地構建、訓練和部署 AI 應用。 開發者可以使用 build.

Source

]]>
14303
使用開源 NVIDIA cuOpt 加速決策優化 http://www.open-lab.net/zh-cn/blog/accelerate-decision-optimization-using-open-source-nvidia-cuopt/ Wed, 11 Jun 2025 08:53:52 +0000 http://www.open-lab.net/zh-cn/blog/?p=14294 Continued]]> 企業每天都會做出成千上萬的決策,包括生產什么、在哪里發貨、如何分配資源。大規模優化這些決策成為一項計算挑戰。線性規劃 (LP) 、混合整數規劃 (MIP) 和車輛路線規劃問題 (VRP) 提供了結構,但快速解決這些問題是瓶頸開始的地方。 NVIDIA cuOpt 為決策優化帶來 GPU 加速,可大幅加速現實世界中的 LP、MIP 和 VRP 工作負載。cuOpt 現已在 Apache 2.0 許可下以開源形式提供,使您能夠比以往更輕松地在本地或云端工作流中采用、調整和擴展優化。 對于開發者來說,最棒的部分是幾乎為零的建模語言更改。您可以將 cuOpt 應用到使用 PuLP 和 AMPL 構建的現有模型中,并且只需進行最少的重構。它快速、靈活,可隨時用于實驗或生產。 想要大規模查看 cuOpt 的實際應用情況?查看“強效助力優化:Artelys 如何由 FICO 和 NVIDIA…

Source

]]>
14294
NVIDIA GB200 NVL72 和 NVIDIA Dynamo 如何提升 MoE 模型的推理性能 http://www.open-lab.net/zh-cn/blog/how-nvidia-gb200-nvl72-and-nvidia-dynamo-boost-inference-performance-for-moe-models/ Fri, 06 Jun 2025 05:19:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=14403 Continued]]> 最新一批開源大語言模型 (LLMs) 采用了 Mixture of Experts (MoE) 架構,如 DeepSeek R1、Llama 4 和 Qwen3。與傳統的密集模型不同,MoE 在推理期間僅激活專門參數的子集 (稱為專家參數) 。這種選擇性激活可減少計算開銷,從而縮短推理時間并降低部署成本。 當與 NVIDIA Dynamo 的推理優化技術 (例如分解服務) 和 NVIDIA GB200 NVL72 的縱向擴展架構的大域相結合時,MoE 模型可以從復合效應中受益,從而將推理效率提升到新的水平。這種協同作用可以顯著增加 AI 工廠的利潤,使它們能夠在不犧牲用戶體驗的情況下,為每個 GPU 提供更多的用戶請求。 本博客借鑒了我們最近的研究成果,其中我們使用高保真數據中心級GPU性能模擬器評估了不同硬件配置中的數十萬個設計點。我們分析了分解和寬模型并行對MoE吞吐量的影響。

Source

]]>
14403
借助 NVIDIA 多進程服務更大限度地提高 OpenMM 分子動力學吞吐量 http://www.open-lab.net/zh-cn/blog/maximizing-openmm-molecular-dynamics-throughput-with-nvidia-multi-process-service/ Wed, 04 Jun 2025 07:16:32 +0000 http://www.open-lab.net/zh-cn/blog/?p=14129 Continued]]> 分子動力學 (MD) 模擬模擬原子在一段時間內的相互作用,并且需要強大的計算能力。然而,許多模擬的系統規模很小 (約 400K 個原子) ,未充分利用現代 GPU,導致一些計算能力閑置。為更大限度地提高 GPU 利用率并提高吞吐量,使用 NVIDIA 多進程服務 (MPS) 在同一 GPU 上同時運行多個模擬可能是一種有效的解決方案。 本文將介紹 MPS 的背景及其啟用方式,以及吞吐量提升的基準測試。它還提供了一些使用 OpenMM (一種熱門的 MD 引擎和框架) 的常見使用場景作為示例。 MPS 是 CUDA 應用編程接口 (API) 的另一種二進制兼容實現。它允許多個進程通過減少上下文交換開銷來更高效地共享 GPU,從而提高整體利用率。通過讓所有進程共享一組調度資源,MPS 消除了在切換上下文時打開和關閉 GPU 的調度資源交換需求。

Source

]]>
14129
NVIDIA Base Command Manager 為 AI 集群管理提供免費的啟動程序 http://www.open-lab.net/zh-cn/blog/nvidia-base-command-manager-offers-free-kickstart-for-ai-cluster-management/ Tue, 03 Jun 2025 08:14:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=14135 Continued]]> 隨著 AI 和高性能計算 (HPC) 工作負載變得越來越常見和復雜,系統管理員和集群管理員是確保一切平穩運行的核心。他們的工作 (構建、調配和管理集群) 推動了各行各業的創新,但這并非沒有挑戰。 在聆聽這些團隊的演講后,NVIDIA 傳達了一個明確的信息:訪問可靠的企業級管理工具可以在日常運營中產生真正的影響。全球數以千計的部署已經在利用 NVIDIA Base Command Manager 來優化其加速集群。正因如此,NVIDIA Base Command Manager 現已免費提供,并可在需要時提供企業支持選項。 集群經理通常需要在功能豐富的企業就緒型商業工具和免費開源解決方案的靈活性之間做出權衡。免費提供 Base Command Manager 旨在消除障礙,為基礎架構團隊提供更多選擇,無論是評估新工作流程、新員工入職還是擴展生產集群。

Source

]]>
14135
在 NVIDIA Grace Hopper 上分析大型語言模型訓練工作流 http://www.open-lab.net/zh-cn/blog/profiling-llm-training-workflows-on-nvidia-grace-hopper/ Tue, 27 May 2025 05:45:31 +0000 http://www.open-lab.net/zh-cn/blog/?p=14054 Continued]]> AI 的快速發展催生了模型大小呈指數級增長的時代,特別是在大語言模型 (LLMs) 領域。這些模型憑借其變革能力,正在推動各行各業的創新。然而,訓練此類模型的復雜性和計算需求不斷增加,因此必須采用細致的優化和分析方法。 盡管生成式 AI 和 LLM 讓人興奮不已,但底層基礎設施和優化策略仍然經常被忽視。訓練這些模型不僅需要大量計算資源,還需要仔細調整超參數、高效的代碼執行和可靠的分析機制,以確保可擴展性和成本效益。 NVIDIA GH200 Grace Hopper 超級芯片代表著 AI 硬件設計的范式轉變。憑借其創新的 CPU-GPU 集成和高帶寬內存架構,它為 LLM 訓練挑戰提供了突破性的解決方案。通過 NVLink-C2C 互連技術將 NVIDIA Hopper GPU 與 NVIDIA Grace CPU 相結合,該架構可更大限度地減少瓶頸并更大限度地提高吞吐量,

Source

]]>
14054
在 NVIDIA Grace Hopper 上訓練大型語言模型的高級優化策略 http://www.open-lab.net/zh-cn/blog/advanced-optimization-strategies-for-llm-training-on-nvidia-grace-hopper/ Tue, 27 May 2025 05:39:48 +0000 http://www.open-lab.net/zh-cn/blog/?p=14051 Continued]]> 雖然分析有助于識別效率低下的情況,但高級優化策略對于解決硬件限制和有效擴展 AI 工作負載至關重要。在本文中,我們將探討 CPU 卸載、Unified Memory、Automatic Mixed Precision 和 FP8 訓練等技術。這些方法不僅能提高性能,還能助力研究人員突破 LLM 的極限。 在處理大型模型時,有效管理 GPU 內存至關重要。解決內存限制的一種策略是 CPU 卸載的激活函數。此技術涉及在模型訓練或推理期間臨時將中間激活張量從 GPU 內存移動到 CPU 內存。本節將探討這種方法的優缺點。 CPU 卸載激活函數可以處理更大的批量大小或訓練更大的模型,而不會耗盡 GPU 內存。將激活函數分流到 CPU 可騰出空間用于對訓練至關重要的其他運算,例如向前和向后傳遞。從本質上講,卸載提供了一種在內存容量有限的 GPU 上訓練更大模型的方法。

Source

]]>
14051
聚焦:Infleqtion 利用 Q-CHOP 和 NVIDIA CUDA-Q Dynamics 進行投資組合優化 http://www.open-lab.net/zh-cn/blog/spotlight-infleqtion-optimizes-portfolios-using-q-chop-and-nvidia-cuda-q-dynamics/ Thu, 22 May 2025 06:16:57 +0000 http://www.open-lab.net/zh-cn/blog/?p=14072 Continued]]> 計算是現代金融服務行業必不可少的工具。根據指導財務決策的算法的速度和準確性,利潤是成敗的。 加速量子計算有可能通過能夠加速或增強現有工具 (例如投資組合優化技術) 的新算法來影響金融服務行業。本博文探討了 NVIDIA 合作伙伴 Infleqtion (一家全球性量子技術公司) 開發的一項新技術,該公司使用 NVIDIA CUDA-Q 平臺構建用于投資組合優化的混合量子經典算法。 投資組合優化的目標很簡單:選擇能夠最大限度地提高投資者回報的股票組合,同時最大限度地降低其面臨的波動性(風險)(圖 1)。 找到最佳投資組合的關鍵之一是確保其多元化,這意味著它包括更適合不斷變化的市場條件的各種股票。 Sharpe 比率量化給定風險水平的回報,高比率等同于更好的投資組合。也可以為單個股票計算 Sharpe 比率。它可以排除股票之間的協方差信息,

Source

]]>
14072
使用 GPU 預測 Apache Spark 的性能 http://www.open-lab.net/zh-cn/blog/predicting-performance-on-apache-spark-with-gpus/ Thu, 15 May 2025 07:04:19 +0000 http://www.open-lab.net/zh-cn/blog/?p=13975 Continued]]> 大數據分析領域正在不斷尋找加速處理和降低基礎設施成本的方法。Apache Spark 已成為用于橫向擴展分析的領先平臺,可處理 ETL、機器學習和深度學習工作負載的大型數據集。雖然傳統上基于 CPU,但 GPU 加速的出現提供了一個令人信服的前景:顯著加速數據處理任務。 但是,將 Spark 工作負載從 CPU 遷移到 GPU 并非易事。GPU 加速雖然對某些操作非常強大,但不一定能提高每個場景中的性能。小型數據集、大量數據移動以及使用用戶定義函數 (User-Defined Functions, UDFs) 等因素有時會對 GPU 性能產生負面影響。相反,涉及高基數數據的工作負載,例如連接、聚合、排序、窗口操作和轉碼任務 (例如編碼/壓縮 Apache Parquet 或 Apache ORC 或解析 CSV) 通常是 GPU 加速的積極指標。

Source

]]>
13975
人人超碰97caoporen国产