加速網絡將 CPU、GPU、DPU(數據處理單元)或 SuperNIC 組合成加速計算結構,專門設計用于優化網絡工作負載。它使用專用硬件來卸載要求嚴苛的任務,以增強服務器功能。隨著 AI 和其他新工作負載的復雜性和規模不斷增加,對加速網絡的需求變得至關重要。
數據中心作為計算的新單元,隨著網絡服務對CPU壓力的增加,現代工作負載對網絡基礎設施提出了新的挑戰。網絡基礎設施需要具備敏捷性、自動化和可編程性,并配備加速器和卸載功能,這些是充分發揮人工智能技術潛力和推動創新的關鍵。
本文將探討加速網絡技術在數據中心中的優勢和實施策略,并重點介紹其在提升性能、可擴展性和效率方面的作用。
加速您的網絡
網絡加速需要優化網絡的各個方面,包括處理器、網絡接口卡 (NIC)、交換機、線纜、光學和網絡加速軟件。利用無損網絡、遠程直接內存訪問 (RDMA)、動態路由、擁塞控制、性能隔離和網絡計算,將幫助組織充分發揮現代應用程序(包括 AI)的潛力。
通過合理控制數據注入速率,可以顯著提高共享網絡的效率。在處理大規模數據流時,配備自適應路由算法的以太網交換機能夠動態平衡整個網絡中的數據負載,避免擁塞并降低延遲。交換機的多路徑和數據包噴灑技術可以進一步提升網絡效率,確保數據及時到達,并最大程度減少瓶頸。這些技術有助于防止交換機與網絡接口卡(NIC)或數據處理單元(DPU)之間的數據沖突,而流量隔離技術則通過防止一個數據流對其他數據流產生負面影響,確保數據的及時交付。
另一種優化技術是部署 SuperNIC 和 DPU。SuperNIC 是一種適用于 AI 云數據中心的網絡加速器,可在 GPU 服務器之間提供可靠、無縫的連接。DPU 是一種迅速出現的處理器類別,可實現增強、加速的網絡。在 SuperNIC 和 DPU 的幫助下,可以從主機處理器中卸載工作負載,以加速通信,從而使數據中心能夠應對不斷增長的數據移動需求。
要實現加速網絡,請考慮以下技術。
加速服務
工作負載經歷了重大的范式轉變,過渡到去中心化,通過容器和微分段分割工作負載。這導致服務器之間的網絡帶寬(東西向流量)大幅增加。
AI 工作負載是一個分布式計算問題,需要使用多個互聯服務器或節點。這會給網絡和 CPU 帶來巨大壓力。工作負載去中心化需要重新檢查網絡基礎設施,以添加加速器,從而使 CPU 和 GPU 擺脫處理網絡、存儲和安全服務的負擔。這使得 CPU 能夠專注于應用程序工作負載。加速可確保這些節點之間的高速、低延遲數據傳輸,并實現高效的工作負載分配和更快的模型訓練。
網絡抽象
向高度虛擬化數據中心和云模型的轉變正在給傳統網絡帶來壓力。傳統數據中心網絡的設計并不是為了支持當今虛擬化工作負載的動態特性。網絡抽象(包括網絡疊加)可以在物理網絡之上運行多個獨立的獨立虛擬化網絡層。這些對于提供靈活性、擴展性和加速至關重要。但是,如果實施不當,它們可能會阻礙網絡流量。
網絡優化
收集和處理的大量數據已將工作負載推向以數據為中心的時代。大型數據集的可用性與機器學習和生成式 AI 等技術進步相結合,增加了對更多數據的需求,以滿足學習算法的需求。這種數據爆炸式增長的一個結果是需要移動、處理、檢索和存儲大型數據集。
無損網絡可以保證準確的數據傳輸,而不會造成任何損失或損壞,對于移動、處理、檢索和存儲這些大型數據集至關重要。RDMA 技術通過在不涉及 CPU 的情況下實現內存位置之間的直接數據傳輸來提高網絡性能。無損網絡和 RDMA 的結合可以優化數據傳輸效率,減少 CPU 和 GPU 空閑時間,從而實現高效的數據移動,以滿足現代應用程序的需求。
端到端堆棧優化
現代工作負載具有獨特的網絡流量模式。傳統工作負載生成的流量模式具有多流、小數據包和低方差。現代應用程序的流量涉及大數據包、少流和高方差,包括 Elephant 流和流量模式的頻繁變化。
自適應路由算法用于在整個網絡中動態平衡數據,從而為這些新的流量模式防止擁塞和高延遲。顯式擁塞通知 (ECN) 等擁塞控制機制還可確保高效的數據流并最大限度地減少性能下降。為此,必須使用優化的端到端堆棧構建網絡,以加速新的流量模式。
網絡計算
現代工作負載處理大型數據集時,需要對高度并行化的算法進行超快速處理,這使得計算需求更加復雜。隨著計算需求的增加,網絡計算通過提供基于硬件的集合通信運算加速,有效地將集合運算從CPU卸載到網絡。這一功能顯著提高了分布式AI模型訓練的性能,減少了通信開銷,并加速了模型收斂。它消除了在端點之間多次發送數據的需求,從而提高了網絡性能。
網絡加速可降低 CPU 利用率,為 CPU 處理應用程序工作負載留出更多容量。它還可以減少抖動以改善數據流,并提供更高的整體吞吐量,從而更快地處理更多數據。
總結
網絡加速技術不斷發展,并變得更加專業。最新的演進將解決 AI 工作負載問題,這些工作負載需要一致、可預測的性能以及能夠運行多租戶環境的計算和能效。
要深入了解如何利用加速網絡構建更高效的高性能網絡,請閱讀這兩份白皮書:NVIDIA Spectrum-X 網絡平臺架構和AI 時代的網絡:網絡定義數據中心。此外,您還可以參考這份電子書:借助加速網絡實現數據中心現代化。
?