利用 MLAG 最大限度地提高 AI 以太網結構性能

Wed, 21 Jun 2023 07:17:18 +0000

對于專門為人工智能訓練而構建的 HPC 集群，例如 NVIDIA DGX BasePOD 和 NVIDIA DGX SuperPOD，微調集群對于提高和優化整體性能至關重要，包括調整以太網結構、存儲結構和計算結構的性能。本文討論了如何最大限度地提高以太網結構的整體吞吐量，通過使用Multi-Chassis Link Aggregation（MLAG），可在NVIDIA Cumulus Linux上實現。MLAG 使兩個獨立的交換機能夠向下游主機通告相同的 LACP 系統 ID，因此，下游主機會認為它們連接到單個 LACP 伙伴。使用 MLAG 的一個好處是物理交換機級冗余。如果兩個上行鏈路交換機中的任何一個發生故障，則下游主機流量將不會受到影響。第二個好處是聚合債券的上行鏈可以同時使用。最后， MLAG 技術使用諸如 VRR / VRRP 之類的技術提供網關級冗余。

Source

]]>

Davinder Singh – NVIDIA 技術博客

利用 MLAG 最大限度地提高 AI 以太網結構性能