生成式 AI、 大語言模型 (LLMs) 和高性能計算的指數級增長給數據中心基礎設施帶來了前所未有的需求。傳統的服務器架構難以適應現代加速計算的功率密度、散熱要求和快速迭代周期。
本文將介紹 NVIDIA MGX 的優勢,這是一種用于加速計算的模塊化參考架構,正在重新定義企業和云提供商構建可擴展 AI 工廠的方式。
模塊化架構為何如此重要
借助 NVIDIA MGX,合作伙伴可以使用構建塊方法設計多個系統,從而節省開發成本和上市時間。NVIDIA MGX 旨在支持多代產品,并支持適用于 AI、高性能計算 (HPC) 和 數字孿生 的數百種 GPU、DPU、CPU、存儲和網絡組合。
推動采用 NVIDIA MGX 的三大趨勢:
- 功率密度和散熱: 現代 AI 計算的需求正在推動功率密度和液冷基礎設施的增加。例如, NVIDIA Blackwell GPU 在采用全機架擴展解決方案時,每個機架需要高達 120 kW 的功率,以滿足由此產生的許多技術要求,并需要全機架擴展解決方案。MGX 通過液冷母線和歧管滿足這些需求,即使在 1400A 負載下,冷卻液溫差也不到 15 ° 攝氏度。這可在不影響性能或可靠性的情況下實現高密度、機架級部署。
- 異構工作負載支持:企業正在單個數據中心內管理越來越多的工作負載,包括使用 72-GPU NVIDIA GB200 NVL72 集群進行 AI 后訓練、需要測試時擴展的推理任務以及數字孿生仿真。MGX 的模塊化、混合搭配兼容性使組織能夠針對特定工作負載定制基礎設施,而無需重新設計整個機架。
- 供應鏈敏捷性 :MGX 支持在工廠預集成約 80% 的組件,包括 busbars、coldplates 和 power whips。這簡化了構建流程,使 ODM 能夠將部署時間從 12 個月縮短到 90 天以內。
基于這些趨勢,標準化和穩定的架構 (如 MGX) 可確保可靠、兼容的服務器部署,在不犧牲互操作性的情況下支持不斷變化的性能需求。這種穩定性對于希望其基礎設施投資能夠滿足未來需求,同時保持靈活性以適應新出現的工作負載和技術的企業來說至關重要。
MGX 生態系統中的多樣化采購方案允許靈活選擇組件并避免供應商鎖定,從而最大限度地降低投資風險、縮短交付時間并減少不確定性。通過支持合作伙伴從一系列經過認證的組件中進行選擇,MGX 使企業組織能夠優化其數據中心構建,以實現成本、性能和供應鏈彈性。
通過基于標準的模塊化 MGX 設計簡化集成,無需自定義解決方案,從而實現快速、經濟高效的部署和更輕松的擴展。這種方法不僅縮短了上市時間,還簡化了持續的維護和升級,使企業能夠隨著需求的增長和技術的發展而高效地擴展其 AI 工廠。
MGX 機架系統內部?
兩種基本類型的模組是 NVIDIA MGX 機架系統的核心:計算托盤和 NVLink 交換機托盤。每個計算托盤都包含 CPU 和 GPU 的強大組合,例如 NVIDIA Grace CPU 與 NVIDIA Blackwell GPU 搭配。這些組合可提供 AI 訓練、推理和仿真工作負載所需的核心加速計算性能。同時,NVLink 交換機托盤提供了將這些計算托盤連接在一起的高速、低延遲互連結構,從而實現 GPU 到 GPU 的無縫通信以及整個機架的高效擴展。
然而,功能齊全的 MGX 機架遠不止是計算和交換托盤。為了以現代 AI 工廠所需的規模和效率運行,該系統依賴于機械、電氣和管道 (冷卻) 基礎設施的堅實基礎,包括:
- 機械組件: 模塊化 MGX 機架本身可提供高密度數據中心部署所需的結構完整性和可維護性。Power Shelf Bracket 可固定機架內的電源架,Slide Rail 則可實現機架式設備的順利安裝和維護。
- 電氣組件: MGX 54v Busbar 和 MGX 1400A Busbar 在整個機架上高效分配功率,支持高性能計算負載,對于供電和連接至關重要。33 kW 的 Power Shelf 可為系統提供大量電力,而 MGX Power Whip 可在電源 Shelf 和 Busbar 之間實現靈活連接。MGX Highspeed Cable 可促進高速數據傳輸,確保計算和交換機托盤實現出色通信。
- 管道或冷卻組件: MGX Coldplate 為 GPU 提供高效的液體冷卻,保持最佳工作溫度。MGX 44RU 歧管可管理機架內的冷卻液分布。快速斷開連接 (例如 MGX NVQD (NVIDIA 快速斷開連接) 和 MGX UQD (通用快速斷開連接)) 可快速安全地連接液冷管線,從而簡化維護并更大限度地減少停機時間。
這種模塊化方法可以節省大量時間,因為標準組件可以在工廠預安裝,并與即插即用的電源和冷卻裝置現場集成。
NVIDIA GB200 NVL72 和 GB300 NVL72 系統中的 MGX 組件是管理功率密度和熱負載的基礎基礎架構,使這些液冷機架級平臺能夠提供出色的 AI 性能。通過將先進的液冷 MGX 架構集成到 Blackwell 計算節點中,NVIDIA 可滿足 GB200 NVL72 的每個機架 120 kW 的能源需求,而 GB300 NVL72 72 個 Blackwell Ultra GPU 需要更高的熱協調性,以實現高達 50 倍的 AI 推理輸出。
這一設計理念要求機械工程團隊、電源專家和制造合作伙伴開展密切合作,以優化冷卻液分配,實現高效電壓調節,并實現前端維護功能。這些都通過 NVIDIA 芯片到芯片 NVLink 互聯技術實現了統一,該技術將 36 個 Grace CPU 和 72-144 個 GPU 綁定到一個連貫的計算域中。由此產生的協同設計解決方案的能效比以前的 NVIDIA H100 集群高 25 倍,展示了支持 MGX 的系統集成如何將原始計算能力轉變為可擴展的 AI 基礎設施。
轉變 AI 工廠的設計和部署
NVIDIA MGX 為整個數據中心生態系統帶來了切實的優勢。
對于系統組裝商而言,MGX 通過使用共享參考設計將每個平臺的研發成本降低 200 – 400 萬美元,并允許團隊對完整的 NVIDIA 軟件堆棧(包括 NVIDIA CUDA-X 、 NVIDIA AI Enterprise 和 NVIDIA Omniverse )進行一次認證。
數據中心運營商能夠使用一致的電源和冷卻接口,從 8-GPU 節點無縫擴展到 144-GPU 機架,同時得益于 94% 的電源效率和可重復使用的管道,總擁有成本降低了 50%。
對于 AI 工作負載,MGX 使組織能夠使用 NVLink 交換機在 72-GPU 一致性域上訓練具有多達 1.8 萬億個參數的模型,并在 72 個節點機架中部署延遲差異低于 5 毫秒的推理集群。
開始使用?
NVIDIA MGX 不僅僅是機架式標準,而是 AI 工廠時代的基礎。隨著 200 多家生態系統合作伙伴采用 MGX 組件,企業獲得了一條面向未來的 Exascale AI 之路。隨著 NVIDIA Blackwell、NVIDIA Rubin 等不斷突破計算界限,MGX 模塊化架構可確保 AI 工廠能夠隨著芯片創新而發展,同時通過模塊化升級路徑保護數據中心投資。
開始使用 NVIDIA MGX 。如需了解更多信息,請與 NVIDIA 創始人兼首席執行官 Jensen Huang 一起參加 COMPUTEX 2025 主題演講 ,并 在 COMPUTEX 2025 上參加 GTC Taipei 分會 。
?