NVSHMEM – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Fri, 14 Feb 2025 04:50:11 +0000
zh-CN
hourly
1
196178272 -
NVIDIA 集合通信庫 2.23 促使新的縮放算法和初始化方法的誕生
http://www.open-lab.net/zh-cn/blog/new-scaling-algorithm-and-initialization-with-nvidia-collective-communications-library-2-23/
Fri, 31 Jan 2025 04:47:14 +0000
http://www.open-lab.net/zh-cn/blog/?p=12886
Continued]]>
NVIDIA 集合通信庫 (NCCL) 可實現針對 NVIDIA GPU 和網絡進行優化的多 GPU 和多節點通信基元。NCCL 是多 GPU 深度學習訓練軟件的核心部分。它可以處理任何類型的 GPU 間通信,無論是通過 PCI、NVLink 還是網絡進行通信。它采用先進的拓撲檢測、優化的通信圖形和調整模型,可在 NVIDIA GPU 平臺上直接獲得開箱即用的最佳性能。 在本文中,我們將討論 NCCL 2.23 中發布的新功能和修復程序。查看 NVIDIA/nccl Github 存儲庫。 NVIDIA Magnum IO NCCL 是一個旨在優化 GPU 間和多節點通信的庫,對于 AI 和高性能計算 (HPC) 應用中的高效并行計算至關重要。此版本的價值在于其新功能: 以下各節將深入探討新功能的詳細信息: PAT 算法是 Bruck 算法的變體,
Source
]]>
12886
-
利用 NVIDIA Magnum IO NVSHMEM 3.0 實現跨平臺應用程序的可移植性和兼容性增強
http://www.open-lab.net/zh-cn/blog/enhancing-application-portability-and-compatibility-across-new-platforms-using-nvidia-magnum-io-nvshmem-3-0/
Fri, 06 Sep 2024 09:04:14 +0000
http://www.open-lab.net/zh-cn/blog/?p=11311
Continued]]>
NVSHMEM 是一個并行編程接口,可為 NVIDIA GPU 集群提供高效且可擴展的通信。NVSHMEM 是 NVIDIA Magnum IO 的一部分,基于 OpenSHMEM,可為跨越多個 GPU 內存的數據創建全局地址空間,并可通過細粒度的 GPU 初始化操作、CPU 初始化操作和 CUDA 流操作進行訪問。 現有的通信模型(例如 Message Passing Interface(MPI))使用 CPU 編排數據傳輸。相比之下,NVSHMEM 使用 GPU 發起的異步數據傳輸,從而消除 CPU 和 GPU 之間的同步開銷。 本文將詳細介紹NVSHMEM 3.0版本,包括我們在各個平臺和系統中啟用的新功能和支持。 NVSHMEM 3.0 引入了多節點、多互連支持、主機設備 ABI 向后兼容性和 CPU 輔助 InfiniBand GPU…
Source
]]>
11311
-
使用 NVIDIA Magnum IO NVSHMEM 和 GPUDirect Async 提高 HPC 系統的網絡性能
http://www.open-lab.net/zh-cn/blog/improving-network-performance-of-hpc-systems-using-nvidia-magnum-io-nvshmem-and-gpudirect-async/
Tue, 22 Nov 2022 11:04:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5800
Continued]]>
今天的前沿 高性能計算 ( HPC )系統包含數以萬計的 GPU 。在 NVIDIA 系統中, GPU 通過 NVLink 擴展互連在節點上連接,并通過 InfiniBand 等擴展網絡跨節點連接。 GPU 用于并行通信、共享工作和高效運行的軟件庫統稱為 NVIDIA Magnum IO ,是用于并行、異步和智能數據中心 IO 的架構。 對于許多應用,擴展到這樣的大型系統需要 GPU 之間的細粒度通信的高效率。這對于以強伸縮性為目標的工作負載尤其重要,因為在工作負載中添加了計算資源以減少解決給定問題的時間。 NVIDIA Magnum IO NVSHMEM 是一個基于 OpenSHMEM 規范的通信庫,它為 HPC 系統中所有 GPU 的存儲器提供分區全局地址空間( PGAS )數據訪問模型。 由于該庫支持 GPU 集成通信,因此對于以強擴展為目標的工作負載而言,
Source
]]>
5800
人人超碰97caoporen国产