Kaiming Ouyang – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 17 Jul 2025 06:45:23 +0000 zh-CN hourly 1 196178272 借助 NCCL 2.27 實現快速推理和彈性訓練 http://www.open-lab.net/zh-cn/blog/enabling-fast-inference-and-resilient-training-with-nccl-2-27/ Mon, 14 Jul 2025 06:41:38 +0000 http://www.open-lab.net/zh-cn/blog/?p=14631 Continued]]> 隨著 AI 工作負載的擴展,快速可靠的 GPU 通信變得至關重要,這不僅適用于訓練,而且越來越適用于大規模推理。NVIDIA 集合通信庫 (NCCL) 可提供高性能、拓撲感知型集合運算:、、、 和 ,這些運算已針對 NVIDIA GPU 以及 PCIe、NVLink、以太網 (RoCE) 和 InfiniBand (IB) 等各種互連產品進行優化。 憑借其通信和計算的單核實現,NCCL 可確保低延遲同步,成為分布式訓練和實時推理場景的理想選擇。得益于 NCCL 動態拓撲檢測和簡化的基于 C 的 API,開發者無需調整特定硬件配置即可跨節點進行擴展。 本文將介紹最新的 NCCL 2.27 版本,展示可增強推理延遲、訓練彈性和開發者可觀察性的功能。如需了解詳情并開始使用,請查看 NVIDIA/nccl GitHub 存儲庫。 NCCL 2.27 提供關鍵更新,

Source

]]>
14631
使用 NCCL 2.24 實現大規模網絡可靠性和可觀察性 http://www.open-lab.net/zh-cn/blog/networking-reliability-and-observability-at-scale-with-nccl-2-24/ Thu, 13 Mar 2025 06:26:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=13345 Continued]]> NVIDIA 集合通信庫 (NCCL) 實現了針對 NVIDIA GPU 和網絡優化的多 GPU 和多節點 (MGMN) 通信基元。NCCL 是用于多 GPU 深度學習訓練的核心軟件。 它可以處理任何類型的 GPU 間通信,無論是通過 PCI、NVLink 還是網絡。它使用先進的拓撲檢測、優化的通信圖形和調優模型,在 NVIDIA GPU 平臺上直接獲得出色的性能。如需了解有關 NCCL 的更多信息,請訪問 NVIDIA/nccl GitHub 倉庫 。 在本文中,我們將討論 NCCL 2.24 中發布的新功能和修復程序。 我們將特別解釋以下新功能: NCCL 2.24 中添加了 RAS 子系統,可幫助用戶診斷應用崩潰和掛起。在大規模上,識別應用程序缺乏進展的根本原因對于不太熟悉 NCCL 的用戶可能具有挑戰性。 RAS 是一種低開銷基礎架構,

Source

]]>
13345
人人超碰97caoporen国产