十多年來,傳統的云數據中心一直是計算基礎設施的基石,滿足了各種用戶和應用程序的需求。然而,近年來,為了跟上技術的進步和對 AI 驅動的計算需求的激增,數據中心進行了發展。本文探討了網絡在塑造數據中心的未來和推動 AI 時代方面發揮的關鍵作用。
專用數據中心:AI 工廠和 AI 云
目前正在涌現兩類不同的數據中心:AI 工廠和 AI 云。這兩類數據中心都是為滿足 AI 工作負載的獨特需求而定制的,其特點是依賴于加速計算。
AI 工廠旨在處理大規模的工作流程,并開發大語言模型 (LLM) 和其他基礎 AI 模型。這些模型是構建更先進 AI 系統的基礎模組。為了實現跨數千個 GPU 的無縫擴展和資源高效利用,強大的高性能網絡勢在必行。
AI 云擴展了傳統云基礎設施的功能,以支持大規模生成式人工智能應用程序。生成式 AI 超越了傳統的 AI 系統,它基于其訓練的數據創建新的內容,例如圖像、文本和音頻。管理擁有數千名用戶的 AI 云需要高級管理工具和網絡基礎設施,以便高效處理各種工作負載。
AI 和分布式計算
AI 工作負載具有計算密集型,尤其是涉及 ChatGPT 和 BERT 等大型復雜模型的工作負載。為了加速模型訓練和處理大量數據集,AI 從業者已轉向分布式計算。這種方法涉及將工作負載分配到多個互聯服務器或通過高速、低延遲網絡連接的節點上。
分布式計算是 AI 取得成功的關鍵,而網絡的可擴展性和處理越來越多節點的能力至關重要。高度可擴展的網絡使 AI 研究人員能夠利用更多的計算資源,從而更快、更出色地實現性能。
在為 AI 數據中心構建網絡架構時,必須優先創建以分布式計算為核心的集成解決方案。數據中心架構師必須認真考慮網絡設計,并根據他們計劃部署的 AI 工作負載的獨特需求定制解決方案。
NVIDIA Quantum-2 InfiniBand 和 NVIDIA Spectrum-X 是兩個專為應對 AI 數據中心的網絡挑戰而設計和優化的網絡平臺,每個平臺都有自己獨特的功能和創新。
InfiniBand 提升 AI 性能
InfiniBand 技術一直是復雜分布式科學計算大規模超級計算部署的驅動力。它已成為 AI 工廠的事實網絡。憑借超低延遲,InfiniBand 已成為加速當今主流高性能計算 (HPC) 和 AI 應用的關鍵。高效 AI 系統所需的許多關鍵網絡功能均原生于 NVIDIA Quantum-2 InfiniBand 平臺。
由 InfiniBand 驅動的網絡計算將基于硬件的計算引擎集成到網絡中。這可以大規模卸載復雜的操作,并利用 NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) (一種網絡內聚合機制)。SHARP 支持多個并發集合操作,可將數據帶寬翻倍,以減少數據并增強性能。
InfiniBand 自適應路由能夠以最佳方式分散流量,從而緩解擁塞并提高資源利用率。在子網管理器的指導下,InfiniBand 會根據網絡條件選擇無擁塞的路由,從而在不影響數據包到達順序的情況下更大限度地提高效率。
InfiniBand 擁塞控制架構可確保確定性帶寬和延遲。它使用三個階段來管理擁塞,從而防止 AI 工作負載中的性能瓶頸。
這些固有的優化使 InfiniBand 能夠滿足 AI 應用的需求,最終實現卓越的性能和效率。
在以太網中探索 AI 部署
為 AI 基礎架構部署以太網需要滿足以太網協議的特定需求。隨著時間的推移,以太網已融入廣泛、全面且(有時)復雜的功能集,以滿足各種網絡場景的需求。
因此,開箱即用或傳統以太網并非專為高性能而設計。使用傳統以太網進行計算結構的 AI 云只能實現經過優化的網絡所能實現的一小部分性能。
在多個 AI 作業同時運行的多租戶環境中,性能隔離對于防止性能進一步降低至關重要。如果出現鏈路故障,傳統以太網結構可能會導致集群的 AI 性能減半。這是因為傳統以太網主要針對日常企業工作流程進行了優化,而不是為了滿足高性能 AI 應用程序的需求而設計,這些應用程序依賴于 NVIDIA Collective Communications Library (NCCL)。
這些性能問題是由傳統以太網的固有因素造成的,包括:
- 更高的交換機延遲,在商品 ASIC 中很常見
- 分割緩沖交換機架構,這可能會導致帶寬不公平
- 負載均衡針對 AI 工作負載生成的大型流進行了二次優化
- 性能隔離和相鄰噪聲問題
Spectrum-X 網絡平臺解決了這些問題以及更多其他問題。Spectrum – X 基于標準以太網協議構建,具有 RDMA over Converged Ethernet (RoCE) 擴展程序,可提高 AI 的性能。這些擴展程序利用 InfiniBand 原生的最佳實踐,并為以太網帶來了自適應路由和擁塞控制等創新。
Spectrum-X 是唯一一款能夠為多租戶生成式 AI 云提供高效帶寬和性能隔離的以太網平臺,這得益于 Spectrum-4 和 NVIDIA BlueField-3 DPUs。
總結
AI 時代已然來臨,而網絡是其成功的基石。為了充分發揮 AI 的潛力,數據中心架構師必須仔細考慮網絡設計,并根據 AI 工作負載的獨特需求定制這些設計。解決#網絡問題是釋放 AI 技術潛力和推動數據中心行業創新的關鍵。
NVIDIA Quantum InfiniBand 憑借超低延遲、可擴展性能和先進的功能集,成為 AI 工廠的理想選擇。而 NVIDIA Spectrum-X 則憑借專為 AI 打造的技術創新,為構建基于以太網的 AI 云的組織提供了突破性解決方案。
如需詳細了解 AI 性能需求和網絡要求,請參閱 Networking for the Era of AI 白皮書。歡迎加入 NVIDIA 開發者基礎設施和網絡論壇 進行討論。
?