Magnum IO – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 25 Jun 2025 04:38:47 +0000 zh-CN hourly 1 196178272 NVIDIA 集合通信庫 2.26 實現性能和監控功能的提升 http://www.open-lab.net/zh-cn/blog/improved-performance-and-monitoring-capabilities-with-nvidia-collective-communications-library-2-26/ Wed, 18 Jun 2025 04:35:29 +0000 http://www.open-lab.net/zh-cn/blog/?p=14370 Continued]]> NVIDIA 集合通信庫 (NCCL) 可實現針對 NVIDIA GPU 和網絡優化的多 GPU 和多節點通信基元。NCCL 是用于多 GPU 深度學習訓練的核心軟件。它可以處理任何類型的 GPU 間通信,無論是通過 PCI、NVIDIA NVLink 還是網絡。它使用先進的拓撲檢測、優化的通信圖形和調優模型,在 NVIDIA GPU 平臺上直接獲得出色性能。 在本文中,我們將討論 NCCL 2.26 中發布的新功能和修復。有關更多詳情,請訪問 NVIDIA/nccl GitHub 資源庫。請注意,NCCL 2.25 版本僅側重于 NVIDIA Blackwell 平臺支持,沒有庫功能更改。因此,尚未發布該版本的發布文章。 NVIDIA Magnum IO NCCL 是一個旨在優化 GPU 間和多節點通信的庫,對于 AI 和 HPC 應用中的高效并行計算至關重要。

Source

]]>
14370
NVIDIA 集合通信庫 2.23 促使新的縮放算法和初始化方法的誕生 http://www.open-lab.net/zh-cn/blog/new-scaling-algorithm-and-initialization-with-nvidia-collective-communications-library-2-23/ Fri, 31 Jan 2025 04:47:14 +0000 http://www.open-lab.net/zh-cn/blog/?p=12886 Continued]]> NVIDIA 集合通信庫 (NCCL) 可實現針對 NVIDIA GPU 和網絡進行優化的多 GPU 和多節點通信基元。NCCL 是多 GPU 深度學習訓練軟件的核心部分。它可以處理任何類型的 GPU 間通信,無論是通過 PCI、NVLink 還是網絡進行通信。它采用先進的拓撲檢測、優化的通信圖形和調整模型,可在 NVIDIA GPU 平臺上直接獲得開箱即用的最佳性能。 在本文中,我們將討論 NCCL 2.23 中發布的新功能和修復程序。查看 NVIDIA/nccl Github 存儲庫。 NVIDIA Magnum IO NCCL 是一個旨在優化 GPU 間和多節點通信的庫,對于 AI 和高性能計算 (HPC) 應用中的高效并行計算至關重要。此版本的價值在于其新功能: 以下各節將深入探討新功能的詳細信息: PAT 算法是 Bruck 算法的變體,

Source

]]>
12886
借助 NVIDIA 集合通信庫實現顯存高效、快速初始化和成本估算優化 2.22 http://www.open-lab.net/zh-cn/blog/memory-efficiency-faster-initialization-and-cost-estimation-with-nvidia-collective-communications-library-2-22/ Mon, 16 Sep 2024 07:29:51 +0000 http://www.open-lab.net/zh-cn/blog/?p=11260 Continued]]> 在過去幾個月中,NVIDIA 集合通信庫(NCCL)開發者一直在努力開發一系列新的庫功能和錯誤修復。在本文中,我們將討論 NCCL 2.22 版本的詳細信息以及解決的痛點。 NVIDIA Magnum IO NCCL 是一個旨在優化 GPU 之間和多節點通信的庫,對于 AI 和 HPC 應用中的高效并行計算至關重要。這次版本的價值在于其新的特點: 在本節中,我們將深入探討每個新功能的詳細信息: NCCL 使用一組靜態分配的持久性連接和緩沖區,以運行其即時數據傳輸協議。對于 NCCL 支持的每種給定算法和協議,它都會創建一組單獨的連接和緩沖區,每個連接和緩沖區都需要數 MB 的 GPU 內存。 作為參考,算法定義了給定集合的參與者之間的高級數據移動,協議定義了 NCCL 發送數據的方式。根據操作、消息大小、規模和拓撲結構,選擇給定的算法和協議,

Source

]]>
11260
利用 NVIDIA Magnum IO NVSHMEM 3.0 實現跨平臺應用程序的可移植性和兼容性增強 http://www.open-lab.net/zh-cn/blog/enhancing-application-portability-and-compatibility-across-new-platforms-using-nvidia-magnum-io-nvshmem-3-0/ Fri, 06 Sep 2024 09:04:14 +0000 http://www.open-lab.net/zh-cn/blog/?p=11311 Continued]]> NVSHMEM 是一個并行編程接口,可為 NVIDIA GPU 集群提供高效且可擴展的通信。NVSHMEM 是 NVIDIA Magnum IO 的一部分,基于 OpenSHMEM,可為跨越多個 GPU 內存的數據創建全局地址空間,并可通過細粒度的 GPU 初始化操作、CPU 初始化操作和 CUDA 流操作進行訪問。 現有的通信模型(例如 Message Passing Interface(MPI))使用 CPU 編排數據傳輸。相比之下,NVSHMEM 使用 GPU 發起的異步數據傳輸,從而消除 CPU 和 GPU 之間的同步開銷。 本文將詳細介紹NVSHMEM 3.0版本,包括我們在各個平臺和系統中啟用的新功能和支持。 NVSHMEM 3.0 引入了多節點、多互連支持、主機設備 ABI 向后兼容性和 CPU 輔助 InfiniBand GPU…

Source

]]>
11311
借助 NVIDIA Magnum IO 優化多節點 VASP 仿真的能效 http://www.open-lab.net/zh-cn/blog/optimize-energy-efficiency-of-multi-node-vasp-simulations-with-nvidia-magnum-io/ Mon, 13 Nov 2023 07:41:17 +0000 http://www.open-lab.net/zh-cn/blog/?p=8271 Continued]]> 對于大多數超級計算中心來說,計算 能效 已成為一個主要的決策標準。數據中心一旦建成,就能在現有的功率上限內運行,無需進行昂貴且耗時的改造。提高工作負載的吞吐量,意味著提高每瓦的工作效率。 NVIDIA 產品在過去幾代中一直致力于最大限度地提升每千瓦時 (kWh) 的實際應用性能。 本文將探討如何使用 Omniverse 的 Vienna Ab initio Simulation Package(VASP)。VASP 是一款用于原子級材料建模的計算機程序,它基于第一原理進行電子結構計算和量子力學分子動力學模擬。 對于研究人員而言,材料屬性研究是一個活躍的領域,他們將超級計算設施用于從高溫、低壓超導體到新一代太陽能電池等廣泛的案例。VASP 是這些數字研究的主要工具。 本文介紹了我們在 2022 年針對不同系統大小的簡單化合物 Hafnia (HfO2) 進行的多節點…

Source

]]>
8271
使用 NVIDIA AI Enterprise 3.0 優化生產 AI 性能和效率 http://www.open-lab.net/zh-cn/blog/optimizing-production-ai-performance-and-efficiency-with-nvidia-ai-enterprise-3-0/ Wed, 22 Feb 2023 03:05:48 +0000 http://www.open-lab.net/zh-cn/blog/?p=6343 Continued]]> NVIDIA AI Enterprise 是一個端到端、安全的云原生 AI 軟件套件。最近發布的 NVIDIA AI Enterprise 3.0 引入了新功能,以幫助優化生產 AI 的性能和效率。本文提供了以下新功能及其工作原理的詳細信息。 NVIDIA AI Enterprise 3.0 版本中的新 AI 工作流有助于縮短生產 AI 的開發時間。這些工作流是常見 AI 用例的參考應用程序,包括聯絡中心智能虛擬助理、音頻轉錄和數字指紋。 未加密的預訓練模型也首次包括在內,確保了 AI 的可解釋性,并使開發人員能夠查看模型的權重和偏差,了解模型偏差。 NVIDIA AI Enterprise 現在支持 NGC catalog 中發布的所有 NVIDIA 人工智能軟件。開始 NGC 之旅的開發者現在可以無縫過渡到 NVIDIA AI Enterprise 訂閱,

Source

]]>
6343
使用 NVIDIA Magnum IO NVSHMEM 和 GPUDirect Async 提高 HPC 系統的網絡性能 http://www.open-lab.net/zh-cn/blog/improving-network-performance-of-hpc-systems-using-nvidia-magnum-io-nvshmem-and-gpudirect-async/ Tue, 22 Nov 2022 11:04:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5800 Continued]]> 今天的前沿 高性能計算 ( HPC )系統包含數以萬計的 GPU 。在 NVIDIA 系統中, GPU 通過 NVLink 擴展互連在節點上連接,并通過 InfiniBand 等擴展網絡跨節點連接。 GPU 用于并行通信、共享工作和高效運行的軟件庫統稱為 NVIDIA Magnum IO ,是用于并行、異步和智能數據中心 IO 的架構。 對于許多應用,擴展到這樣的大型系統需要 GPU 之間的細粒度通信的高效率。這對于以強伸縮性為目標的工作負載尤其重要,因為在工作負載中添加了計算資源以減少解決給定問題的時間。 NVIDIA Magnum IO NVSHMEM 是一個基于 OpenSHMEM 規范的通信庫,它為 HPC 系統中所有 GPU 的存儲器提供分區全局地址空間( PGAS )數據訪問模型。 由于該庫支持 GPU 集成通信,因此對于以強擴展為目標的工作負載而言,

Source

]]>
5800
通過 NVIDIA Magnum IO 擴展 VASP http://www.open-lab.net/zh-cn/blog/scaling-vasp-with-nvidia-magnum-io/ Tue, 15 Nov 2022 07:33:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5695 Continued]]> 你可以提出一個論點,即文明和技術進步的歷史就是物質的探索和發現的歷史。時代不是以領導人或文明命名的,而是以定義他們的材料命名的:石器時代、青銅時代等等。當前的數字或信息時代可以改名為硅或半導體時代,并保留相同的含義。 盡管硅和其他半導體材料可能是當今推動變革的最重要的材料,但研究中還有其他幾種材料同樣可以推動下一代變革,包括以下任何一種: 半導體是構建芯片的核心,這些芯片能夠對這種新型材料進行廣泛而復雜的搜索。 2011 年,美國 Materials Genome Initiative 推動使用模擬識別新材料。然而,在當時,甚至在今天的某種程度上,即使在現代超級計算機上,根據第一原理計算材料性質也可能會非常緩慢。 Vienna Ab initio Simulation Package (VASP) 是用于此類預測的最流行的軟件工具之一,

Source

]]>
5695
使用 NVIDIA Collective Communication Library 2.12 將所有 all2all 性能翻倍 http://www.open-lab.net/zh-cn/blog/doubling-all2all-performance-with-nvidia-collective-communication-library-2-12/ Mon, 28 Feb 2022 06:39:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=3112 Continued]]> 集體通信是現代分布式人工智能培訓工作(如推薦系統和自然語言處理)的一個關鍵性能組成部分。 NVIDIA Collective Communication Library ( NCCL )是一個 Magnum IO 庫,可實現 GPU 加速的集體操作: NCCL 具有拓撲意識,經過優化,可通過 PCIe 、 NVLink 、以太網和 InfiniBand 互連實現高帶寬和低延遲。 NCCL GCP 插件 和 NCCL AWS 插件 通過自定義網絡連接,在流行的云環境中實現高性能 NCCL 操作。 NCCL 版本一直致力于提高集體溝通績效。這篇文章主要關注 NCCL 2.12 版本帶來的改進。 NCCL 2.12 中引入的新功能稱為 PXN ,稱為 PCI × NVLink ,因為它使 GPU 能夠通過 NVLink 然后通過 PCI 與節點上的 NIC 通信。

Source

]]>
3112
在現代數據中心加速 IO : Magnum IO 存儲合作伙伴關系 http://www.open-lab.net/zh-cn/blog/accelerating-io-in-the-modern-data-center-magnum-io-storage-partnerships/ Tue, 09 Nov 2021 07:46:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2150 Continued]]> 隨著 AI 、 ML 和 HPC 應用程序的計算從 CPU 轉移到更快的 GPU ,輸入輸出 GPU 的 IO 可能成為整體應用程序性能的主要瓶頸。 NVIDIA 創建了 Magnum IO GPU 直接存儲( GDS ),以簡化存儲和 GPU 內存之間的數據移動,并消除平臺中的性能瓶頸,例如被迫通過 CPU 內存中的緩沖區存儲和轉發數據。 GDS 通過在本地 NVMe 存儲或 NIC 后面的遠程存儲和 GPU 內存之間啟用直接內存訪問( DMA ),提高了帶寬,減少了延遲,減輕了 CPU 利用率的負擔。從 DGX 平臺上的 GDS 本身的深度學習推理、數據分析可視化和視頻分析中分別觀察到 2 . 5x 、 8x 和 9x 的性能優勢。 要在部署的平臺范圍內加速各種各樣的客戶應用程序和框架,需要一系列合作關系。我們的目標是實現整個豐富的數據存儲生態系統,

Source

]]>
2150
使用 Magnum IO 加速云本機超級計算 http://www.open-lab.net/zh-cn/blog/accelerating-cloud-native-supercomputing-with-magnum-io/ Tue, 09 Nov 2021 06:54:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2135 Continued]]> 超級計算機是一項重要的投資,但對于研究人員和科學家來說,它們是極其寶貴的工具。為了有效和安全地共享這些數據中心的計算能力, NVIDIA 引入了云本地超級計算架構。它結合了裸機性能、多租戶和超級計算的性能隔離。 Magnum IO是數據中心的 I / O 子系統,它引入了新的增強功能,以加速支持多租戶數據中心的 I / O 和通信。我們將這些增強功能稱為 Magnum IO ,用于云本機超級計算架構。 它們由 NVIDIA Quantum-2 InfiniBand 平臺提供,該平臺包括 NVIDIA Quantum-2 交換機系列、BlueField-3 DPU 和 ConnectX-7 網絡適配器。 基于 GPU 的高性能計算已經通過機器學習和模擬改變了科學并增強了實驗。運行這些深度學習框架和模擬工具的 GPU 會消耗數 PB 的數據,并在整個數據中心造成擁塞和瓶頸。

Source

]]>
2135
人人超碰97caoporen国产