在日本一個秘密地點的洞穴狀房間里,一場數字革命正在展開。服務器機架像巨人一樣立著,它們的光滑框架由數千條電纜連接,充滿了潛力。
直到去年,這個龐大的 AI 工廠還不存在。現在,它將鞏固 SoftBank Corporation 的 AI 驅動創新愿景,這一愿景植根于創建一個與 AI 共存的社會,使用先進的基礎設施推動進步。
對于 SoftBank 而言,每天縮短部署時間,不僅僅是一場技術上的勝利。相反,它具有各種競爭優勢。在 AI 超級計算飛速發展的世界中,速度就是一切。
日本領先的科技巨頭之一軟銀集團與 NVIDIA 合作打造了這一系統。他們共同構建了兩個世界上最先進的計算集群 —— 集群能夠以創紀錄的速度處理大量數據,并加速由軟銀子公司 SB Intuitions 開發的大語言模型(LLM)的開發。
但是,創建 AI 工廠不僅僅是插入硬件。這是一項精心設計的工作,每個線纜、接口和組件都必須完美對齊。這就是 NVIDIA 基礎設施專家 (NVIDIA Infrastructure Specialists, NVIS) 的用武之地。NVIS 是一個專家團隊,能夠準確、高效地加速 AI 部署。借助經過驗證的劇本,NVIS 使客戶能夠在創紀錄的時間內將 bare metal 轉變為生產就緒型 AI 基礎架構。
加速協作
當 SoftBank 要求提供加速時間表時,NVIDIA 已準備好幫助將雄心勃勃的目標變為現實。盡管 SoftBank 在大規模 AI 平臺方面的經驗有限,但其敏捷性與 NVIDIA 的專業知識和參考架構相結合,確保了成功。
SoftBank 的 NVIDIA DGX SuperPOD 部署經過精確編排。每個步驟都與里程碑和時間線有關,項目分為兩個集群,以幫助管理進度。
當 SoftBank 要求在最初計劃的運營日期前 10 天提前完成時,NVIS 重新調整,以遵守新的截止日期。這種敏捷響應需要細致的資源管理、精準的物流和日常協調。
這些數字說明了一切。數千條線纜和數百臺網絡交換機互聯 510 臺 NVIDIA DGX B200 系統 即作為 DGX SuperPOD 核心的強大計算節點。這兩個集群都提供了出色的 FP64 精度性能:一個達到 89.78 gigaflops,另一個達到 91.94 gigaflops,這衡量了它們每秒處理大量數據的能力。“在這些 DGX SuperPOD 集群中部署 510 個 NVIDIA DGX 系統的精度和速度凸顯了在專業知識和協作保持一致時的可能性,”SoftBank 數據平臺戰略副總裁兼技術部門主管 Hironobu Tamba 說。這種基礎設施不僅速度快,還為日本的 AI 開發樹立了新的標準
軟銀集團擁有日本最大的 AI 計算基礎設施,現已成為日本 AI 生態系統的領導者。
憑借精度和敏捷性克服挑戰
當然,這種規模的項目在開展時都會遇到重重障礙。在 SoftBank Corp. 的案例中,有限的電力供應要求 NVIS 在業余時間進行一些測試。當網絡組件導致出現連接問題時,團隊找到了一種創造性的解決方案,重新利用第二個集群的各個部分,使第一個集群保持如期運行。
NVIDIA 團隊精心跟蹤并實時解決了每一個挑戰,確保部署如期進行。
“這不僅僅是一項工作,”一位團隊成員表示。“這更像是一個同步工作的 Formula 1 pit crew,我們每個人都知道,我們每天節省的時間對 SoftBank 來說意味著更多的價值。”
開創日本的 AI 未來
軟銀集團的部署不僅僅是一項技術成就。這是朝著構建新一代社交基礎設施邁出的一步,對于加速 LLM 開發等內部項目以及在日本各地建立更廣泛的生成式 AI 開發者生態系統至關重要。
投入運營后,該平臺還將服務于外部公司,為日本國內 AI 能力的發展做出貢獻。Tamba 說:“SoftBank Corp.’s AI 工廠是日本的一次飛躍,加速了創新,使日本的 AI 生態系統蓬勃發展。”
NVIS playbook:速度、準確性和協作
軟銀集團的部署展示了 NVIS 手冊,這是一種快速精確地管理大型 AI 項目的簡化方法。借助 NVIS,NVIDIA 每天可以安裝數千個 GPU,將大型 AI 中心轉變為高效的 AI 工廠。
軟銀集團 DGX SuperPOD 的核心是 NVIDIA Quantum-2 InfiniBand 網絡平臺,旨在處理海量數據負載,而不會出現瓶頸。這種網絡技術與 NVIDIA Air 的數字孿生功能相結合 (NVIDIA Air 是數據中心的虛擬復制品,可進行部署前測試和驗證),確保了項目從規劃到執行的順利進行。
首席執行官數學:為什么速度很重要
對于采用 NVIDIA 技術的公司而言,速度不僅僅是技術層面,更是戰略層面。其新 AI 工廠越快上線,就能越快獲得見解、簡化運營并推出新的 AI 驅動產品。
NVIDIA 的內部分析表明,如果將安裝時間從典型的 6 個多月縮短到僅僅三周,客戶可以避免因大型 AI 系統長時間部署而產生高達 $150M 的成本。這一估算基于大規模部署的運營成本,據 NVIDIA 計算,配備 8K GPU 的 1K 服務器數據中心的運營成本約為每天 $1M。
更快的部署還使客戶能夠通過運行 LLM 等工作負載而無延遲地更快地創收。NVIS 額外釋放的每一天操作都意味著避免了 $1M 的費用,并抓住了因停機而損失的收入機會。
借助 DGX SuperPOD 加快構建速度
借助 NVIDIA 基礎設施專家 (NVIDIA NVIS) 加速 DGX SuperPOD 部署,并將首次訓練時間縮短至標準時間的一小部分。有關更多信息,請參閱 AI 基礎設施服務 | NVIDIA NVIS 。