NCCL – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Wed, 25 Jun 2025 04:38:47 +0000
zh-CN
hourly
1
196178272 -
NVIDIA 集合通信庫 2.26 實現性能和監控功能的提升
http://www.open-lab.net/zh-cn/blog/improved-performance-and-monitoring-capabilities-with-nvidia-collective-communications-library-2-26/
Wed, 18 Jun 2025 04:35:29 +0000
http://www.open-lab.net/zh-cn/blog/?p=14370
Continued]]>
NVIDIA 集合通信庫 (NCCL) 可實現針對 NVIDIA GPU 和網絡優化的多 GPU 和多節點通信基元。NCCL 是用于多 GPU 深度學習訓練的核心軟件。它可以處理任何類型的 GPU 間通信,無論是通過 PCI、NVIDIA NVLink 還是網絡。它使用先進的拓撲檢測、優化的通信圖形和調優模型,在 NVIDIA GPU 平臺上直接獲得出色性能。 在本文中,我們將討論 NCCL 2.26 中發布的新功能和修復。有關更多詳情,請訪問 NVIDIA/nccl GitHub 資源庫。請注意,NCCL 2.25 版本僅側重于 NVIDIA Blackwell 平臺支持,沒有庫功能更改。因此,尚未發布該版本的發布文章。 NVIDIA Magnum IO NCCL 是一個旨在優化 GPU 間和多節點通信的庫,對于 AI 和 HPC 應用中的高效并行計算至關重要。
Source
]]>
14370
-
AI Fabric 的彈性以及網絡融合的重要性
http://www.open-lab.net/zh-cn/blog/ai-fabric-resiliency-and-why-network-convergence-matters/
Fri, 11 Apr 2025 05:53:07 +0000
http://www.open-lab.net/zh-cn/blog/?p=13584
Continued]]>
高性能計算和深度學習工作負載對延遲極為敏感。數據包丟失會導致通信管道中的重傳或停頓,從而直接增加延遲并中斷 GPU 之間的同步。這可能會降低集合運算(例如 all-reduce 或 broadcast)的性能,因為這些運算需要每個 GPU 的參與才能進行。 本文重點介紹基于 NVIDIA 以太網的東西向 AI 網絡解決方案 Spectrum-X。我從 AI 工作負載的角度討論了 AI 結構的彈性、鏈路翼的后果、鏈路故障,以及 NVIDIA 集合通信庫 (NCCL) 。 NCCL 專為高速和低延遲環境而設計,通常通過支持 RDMA 的無損網絡 (例如 InfiniBand、NVLink 或適用于 Ethernet 的 Spectrum-X) 實現。其性能可能會受到網絡事件的顯著影響: 為獲得最佳性能,NCCL 應在網絡上運行,并盡可能減少延遲、抖動和丟包。
Source
]]>
13584
-
NVIDIA 集合通信庫 2.23 促使新的縮放算法和初始化方法的誕生
http://www.open-lab.net/zh-cn/blog/new-scaling-algorithm-and-initialization-with-nvidia-collective-communications-library-2-23/
Fri, 31 Jan 2025 04:47:14 +0000
http://www.open-lab.net/zh-cn/blog/?p=12886
Continued]]>
NVIDIA 集合通信庫 (NCCL) 可實現針對 NVIDIA GPU 和網絡進行優化的多 GPU 和多節點通信基元。NCCL 是多 GPU 深度學習訓練軟件的核心部分。它可以處理任何類型的 GPU 間通信,無論是通過 PCI、NVLink 還是網絡進行通信。它采用先進的拓撲檢測、優化的通信圖形和調整模型,可在 NVIDIA GPU 平臺上直接獲得開箱即用的最佳性能。 在本文中,我們將討論 NCCL 2.23 中發布的新功能和修復程序。查看 NVIDIA/nccl Github 存儲庫。 NVIDIA Magnum IO NCCL 是一個旨在優化 GPU 間和多節點通信的庫,對于 AI 和高性能計算 (HPC) 應用中的高效并行計算至關重要。此版本的價值在于其新功能: 以下各節將深入探討新功能的詳細信息: PAT 算法是 Bruck 算法的變體,
Source
]]>
12886
-
利用 NVIDIA SHARP 網絡計算提升系統性能
http://www.open-lab.net/zh-cn/blog/advancing-performance-with-nvidia-sharp-in-network-computing/
Fri, 25 Oct 2024 06:13:03 +0000
http://www.open-lab.net/zh-cn/blog/?p=11791
Continued]]>
AI 和科學計算應用是分布式計算問題的絕佳示例。這些問題太大了,計算太密集,無法在單臺機器上運行。這些計算被分解為并行任務,這些任務分布在數千個計算引擎中,如 CPU 和 GPU。 為了實現可擴展的性能,該系統依賴于在多個節點上劃分工作負載,如訓練數據、模型參數或兩者。然后,這些節點必須頻繁交換信息,例如模型訓練中反向傳播期間新處理的模型計算的梯度,需要高效的集合通信,如 all-reduce、broadcast 以及 gather 和 scatter 操作。 這些集合通信模式可確保整個分布式系統中模型參數的同步和收斂。這些操作的效率對于最大限度地減少通信開銷和最大限度地提高并行計算至關重要,因為優化不佳的集合通信可能會導致瓶頸,限制可擴展性。 瓶頸源于以下幾個因素: 克服這一瓶頸需要改進網絡技術(例如 InfiniBand 或 RDMA)和算法優化(例如分層 all…
Source
]]>
11791
-
借助 NVIDIA 集合通信庫實現顯存高效、快速初始化和成本估算優化 2.22
http://www.open-lab.net/zh-cn/blog/memory-efficiency-faster-initialization-and-cost-estimation-with-nvidia-collective-communications-library-2-22/
Mon, 16 Sep 2024 07:29:51 +0000
http://www.open-lab.net/zh-cn/blog/?p=11260
Continued]]>
在過去幾個月中,NVIDIA 集合通信庫(NCCL)開發者一直在努力開發一系列新的庫功能和錯誤修復。在本文中,我們將討論 NCCL 2.22 版本的詳細信息以及解決的痛點。 NVIDIA Magnum IO NCCL 是一個旨在優化 GPU 之間和多節點通信的庫,對于 AI 和 HPC 應用中的高效并行計算至關重要。這次版本的價值在于其新的特點: 在本節中,我們將深入探討每個新功能的詳細信息: NCCL 使用一組靜態分配的持久性連接和緩沖區,以運行其即時數據傳輸協議。對于 NCCL 支持的每種給定算法和協議,它都會創建一組單獨的連接和緩沖區,每個連接和緩沖區都需要數 MB 的 GPU 內存。 作為參考,算法定義了給定集合的參與者之間的高級數據移動,協議定義了 NCCL 發送數據的方式。根據操作、消息大小、規模和拓撲結構,選擇給定的算法和協議,
Source
]]>
11260
-
利用 NVIDIA Magnum IO NVSHMEM 3.0 實現跨平臺應用程序的可移植性和兼容性增強
http://www.open-lab.net/zh-cn/blog/enhancing-application-portability-and-compatibility-across-new-platforms-using-nvidia-magnum-io-nvshmem-3-0/
Fri, 06 Sep 2024 09:04:14 +0000
http://www.open-lab.net/zh-cn/blog/?p=11311
Continued]]>
NVSHMEM 是一個并行編程接口,可為 NVIDIA GPU 集群提供高效且可擴展的通信。NVSHMEM 是 NVIDIA Magnum IO 的一部分,基于 OpenSHMEM,可為跨越多個 GPU 內存的數據創建全局地址空間,并可通過細粒度的 GPU 初始化操作、CPU 初始化操作和 CUDA 流操作進行訪問。 現有的通信模型(例如 Message Passing Interface(MPI))使用 CPU 編排數據傳輸。相比之下,NVSHMEM 使用 GPU 發起的異步數據傳輸,從而消除 CPU 和 GPU 之間的同步開銷。 本文將詳細介紹NVSHMEM 3.0版本,包括我們在各個平臺和系統中啟用的新功能和支持。 NVSHMEM 3.0 引入了多節點、多互連支持、主機設備 ABI 向后兼容性和 CPU 輔助 InfiniBand GPU…
Source
]]>
11311
-
使用張量并行技術進行自動駕駛感知模型訓練
http://www.open-lab.net/zh-cn/blog/perception-model-training-for-autonomous-vehicles-with-tensor-parallelism/
Fri, 26 Apr 2024 05:16:35 +0000
http://www.open-lab.net/zh-cn/blog/?p=9745
Continued]]>
由于采用了多攝像頭輸入和深度卷積骨干網絡,用于訓練自動駕駛感知模型的 GPU 內存占用很大。當前減少內存占用的方法往往會導致額外的計算開銷或工作負載的失衡。 本文介紹了 NVIDIA 和智能電動汽車開發商蔚來的聯合研究。具體來說,文中探討了張量并行卷積神經網絡(CNN)訓練如何有助于減少 GPU 內存占用,并展示了蔚來如何提高自動駕駛汽車感知模型的訓練效率和 GPU 利用率。 自動駕駛的感知模型訓練 自動駕駛感知任務采用多攝像頭數據作為輸入,卷積神經網絡(CNN)作為骨干(backbone)來提取特征。由于 CNN 的前向激活值(activations)都是形狀為(N, C, H, W)的特征圖(feature maps)(其中 N、C、H、W 分別代表圖像數、通道數、高度和寬度)。這些激活值需要被保存下來用于反向傳播,
Source
]]>
9745
-
CUDA 工具包 12.4 增強對 NVIDIA Grace Hopper 和機密計算的支持
http://www.open-lab.net/zh-cn/blog/cuda-toolkit-12-4-enhances-support-for-nvidia-grace-hopper-and-confidential-computing/
Wed, 06 Mar 2024 06:11:56 +0000
http://www.open-lab.net/zh-cn/blog/?p=9109
Continued]]>
最新版本的 CUDA 工具包,即 版本 12.4,繼續利用最新的 NVIDIA GPU 來推動加速計算性能。本文將介紹此版本中包含的新功能和增強功能: CUDA 和 CUDA 工具套件軟件為數據科學和分析、機器學習、使用大型語言模型 (LLM) 進行深度學習的所有 NVIDIA GPU 加速計算應用程序提供基礎 .CUDA 軟件堆棧和生態系統提供一個平臺,幫助開發者解決全球極為復雜的計算問題,尤其是在多 GPU 和多節點分布式架構中。 每個 CUDA 工具包版本都需要最低版本的 CUDA 驅動程序。CUDA 驅動程序具有向后兼容性,這意味著使用特定版本的 CUDA 編譯的應用程序將繼續在后續版本的驅動程序中運行。有關兼容性的更多信息,請參閱 CUDA C++最佳實踐指南。 此版本引入了一種新的內存遷移算法,適用于 NVIDIA Grace Hopper 系統。
Source
]]>
9109
-
適用于數據中心和 AI 時代的網絡
http://www.open-lab.net/zh-cn/blog/networking-for-data-centers-and-the-era-of-ai/
Thu, 12 Oct 2023 06:19:21 +0000
http://www.open-lab.net/zh-cn/blog/?p=8021
Continued]]>
十多年來,傳統的云數據中心一直是計算基礎設施的基石,滿足了各種用戶和應用程序的需求。然而,近年來,為了跟上技術的進步和對 AI 驅動的計算需求的激增,數據中心進行了發展。本文探討了網絡在塑造數據中心的未來和推動 AI 時代方面發揮的關鍵作用。 目前正在涌現兩類不同的數據中心:AI 工廠和 AI 云。這兩類數據中心都是為滿足 AI 工作負載的獨特需求而定制的,其特點是依賴于加速計算。 AI 工廠旨在處理大規模的工作流程,并開發大語言模型 (LLM) 和其他基礎 AI 模型。這些模型是構建更先進 AI 系統的基礎模組。為了實現跨數千個 GPU 的無縫擴展和資源高效利用,強大的高性能網絡勢在必行。 AI 云擴展了傳統云基礎設施的功能,以支持大規模生成式人工智能應用程序。生成式 AI 超越了傳統的 AI 系統,它基于其訓練的數據創建新的內容,例如圖像、文本和音頻。
Source
]]>
8021
-
使用 NVIDIA Spectrum-X 網絡平臺進行渦輪增壓生成 AI 工作負載
http://www.open-lab.net/zh-cn/blog/turbocharging-ai-workloads-with-nvidia-spectrum-x-networking-platform/
Mon, 29 May 2023 05:44:44 +0000
http://www.open-lab.net/zh-cn/blog/?p=7104
Continued]]>
大型語言模型( LLM )和人工智能應用程序,如ChatGPT和 DALL-E 最近出現了快速增長。由于 GPU 、 CPU 、 DPU 、高速存儲和人工智能優化的軟件創新,人工智能現在可以廣泛使用。你甚至可以在云端或內部部署人工智能。 然而,人工智能應用程序可能會對網絡造成很大負擔,這種增長給 CPU 和 GPU 服務器以及連接這些系統的現有底層網絡基礎設施帶來了負擔。 傳統的以太網雖然足以處理主流和企業應用程序,如網絡、視頻或音頻流,但沒有經過優化以支持新一代人工智能工作負載。傳統以太網是松耦合應用、低帶寬流和高抖動的理想選擇。它可能足以滿足異構流量(如網絡、視頻或音頻流、文件傳輸和游戲),但在出現超額訂閱時并不理想 NVIDIA Spectrum-X 網絡平臺從頭開始設計,以滿足人工智能應用程序的性能需求,是一種針對高速網絡性能、
Source
]]>
7104
-
為網絡管理員導航生成式人工智能
http://www.open-lab.net/zh-cn/blog/navigating-generative-ai-for-network-admins/
Thu, 25 May 2023 06:33:54 +0000
http://www.open-lab.net/zh-cn/blog/?p=7130
Continued]]>
我們都知道人工智能正在改變世界。對于網絡管理員來說,人工智能可以以一些驚人的方式改善日常運營: 然而,人工智能無法取代經驗豐富的網絡管理員的專業知識。人工智能旨在增強你的能力,就像一個虛擬助理。因此,人工智能可能會成為你最好的朋友,但生成型人工智能也是一種新的數據中心工作負載,它帶來了新的范式轉變: NVIDIA 集體通信庫( NCCL )。 網絡管理員不得不處理許多其他最近的更改: 不久前,我們可能已經通過特定網絡命令行界面( CLI )的專業水平來衡量新網絡管理員的價值。隨著混合云計算和 DevOps 的出現,從 CLI 到 API 的轉變越來越大。 Ansible 、 SALT 和 Python 方面的技能現在比 Cisco 認證更有價值。 甚至您監控和管理網絡的方式也發生了變化。您已經從使用 SNMP 和 NetFlow…
Source
]]>
7130
人人超碰97caoporen国产