Berkin Kartal – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Mon, 14 Jul 2025 05:10:08 +0000 zh-CN hourly 1 196178272 AI Fabric 的彈性以及網絡融合的重要性 http://www.open-lab.net/zh-cn/blog/ai-fabric-resiliency-and-why-network-convergence-matters/ Fri, 11 Apr 2025 05:53:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=13584 Continued]]> 高性能計算和深度學習工作負載對延遲極為敏感。數據包丟失會導致通信管道中的重傳或停頓,從而直接增加延遲并中斷 GPU 之間的同步。這可能會降低集合運算(例如 all-reduce 或 broadcast)的性能,因為這些運算需要每個 GPU 的參與才能進行。 本文重點介紹基于 NVIDIA 以太網的東西向 AI 網絡解決方案 Spectrum-X。我從 AI 工作負載的角度討論了 AI 結構的彈性、鏈路翼的后果、鏈路故障,以及 NVIDIA 集合通信庫 (NCCL) 。 NCCL 專為高速和低延遲環境而設計,通常通過支持 RDMA 的無損網絡 (例如 InfiniBand、NVLink 或適用于 Ethernet 的 Spectrum-X) 實現。其性能可能會受到網絡事件的顯著影響: 為獲得最佳性能,NCCL 應在網絡上運行,并盡可能減少延遲、抖動和丟包。

Source

]]>
13584
用于提升數據中心冗余的解決方案比較 http://www.open-lab.net/zh-cn/blog/comparing-solutions-for-boosting-data-center-redundancy/ Fri, 29 Sep 2023 04:48:43 +0000 http://www.open-lab.net/zh-cn/blog/?p=7965 Continued]]> 在當今的數據中心,通過連接到網絡的服務器實現系統冗余的方法有很多。客戶通常會尋求冗余來提高服務可用性(例如實現端到端 AI 工作負載),并使用不同的多歸技術來提高系統效率。 在本文中,我們將討論知名的專有多機箱鏈路聚合組 (MLAG) 與基于標準的 EVPN 多歸站 (EVPN-MH) 相比的優缺點。 對于所有現代數據中心而言,多歸位都是必要的,這使得單個主機能夠連接到兩個或多個節點,并以全主動或單主動的方式提供服務。全主動側重于首先增加容量,其次是冗余。單主動主要側重于冗余。 在互聯網服務提供商領域,多域名 (Multihoming) 是一個常見的概念,主要用于接入點位置,即客戶設備與提供商邊緣設備位置互連。 此連接幾乎始終是第 3 層路由連接,不會帶來第 2 層世界的挑戰,因為它旨在解決冗余站點訪問或互聯網訪問。但是,在數據中心,

Source

]]>
7965
人人超碰97caoporen国产