Network Architecture – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 17 Apr 2025 05:59:48 +0000 zh-CN hourly 1 196178272 AI Fabric 的彈性以及網絡融合的重要性 http://www.open-lab.net/zh-cn/blog/ai-fabric-resiliency-and-why-network-convergence-matters/ Fri, 11 Apr 2025 05:53:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=13584 Continued]]> 高性能計算和深度學習工作負載對延遲極為敏感。數據包丟失會導致通信管道中的重傳或停頓,從而直接增加延遲并中斷 GPU 之間的同步。這可能會降低集合運算(例如 all-reduce 或 broadcast)的性能,因為這些運算需要每個 GPU 的參與才能進行。 本文重點介紹基于 NVIDIA 以太網的東西向 AI 網絡解決方案 Spectrum-X。我從 AI 工作負載的角度討論了 AI 結構的彈性、鏈路翼的后果、鏈路故障,以及 NVIDIA 集合通信庫 (NCCL) 。 NCCL 專為高速和低延遲環境而設計,通常通過支持 RDMA 的無損網絡 (例如 InfiniBand、NVLink 或適用于 Ethernet 的 Spectrum-X) 實現。其性能可能會受到網絡事件的顯著影響: 為獲得最佳性能,NCCL 應在網絡上運行,并盡可能減少延遲、抖動和丟包。

Source

]]>
13584
NVIDIA 硅光網絡交換開啟數據中心網絡新時代 http://www.open-lab.net/zh-cn/blog/a-new-era-in-data-center-networking-with-nvidia-silicon-photonics-based-network-switching/ Thu, 27 Mar 2025 05:27:03 +0000 http://www.open-lab.net/zh-cn/blog/?p=13405 Continued]]> NVIDIA 通過將硅光技術直接與 NVIDIA Quantum 和 NVIDIA Spectrum 交換機 IC 集成,開辟了新的領域。在 GTC 2025 上,我們推出了全球領先的硅光交換機系統,采用先進的 200G SerDes 技術,與傳統的可插拔光模塊相比,這種創新的硅光一體封裝技術具有顯著的優勢,例如3.5 倍的能耗降低、延遲的降低、以及顯著的網絡可靠性提升等,這些都是加速大規模 AI 模型開發和推理的關鍵因素。 硅光一體化封裝技術是硬件集成的一次演進。通過將硅光光收發器直接與交換機 IC 封裝在一起,NVIDIA 實現了: 降低功耗:與傳統的可插拔光模塊相比,硅光一體化封裝可實現3.5 倍的大幅功耗降低。通過消除耗電的外部 DSP 器件和將信號路徑從英寸縮小到毫米,這項突破性技術可顯著提高能效。這種更密集、更可持續的 AI 基礎設施,將推動更快的系統可見性和擴展性,

Source

]]>
13405
人人超碰97caoporen国产