我們都知道人工智能正在改變世界。對于網絡管理員來說,人工智能可以以一些驚人的方式改善日常運營:
- 重復任務的自動化:這包括監控、故障排除和升級,節省時間,同時降低人為錯誤的風險。
- 網絡安全:人工智能可以幫助實時檢測和應對安全威脅。例如, NVIDIA Morpheus 使網絡安全開發人員能夠創建實時數據的優化 AI 管道。
- 拓撲優化:有了正確的遙測技術,人工智能可以分析流量模式并建議更改以優化網絡性能。
- 主動網絡規劃:人工智能可以使用同樣先進的網絡遙測技術來評估趨勢,以預測潛在問題,并在問題發生之前提出改變建議以避免問題的發生。
然而,人工智能無法取代經驗豐富的網絡管理員的專業知識。人工智能旨在增強你的能力,就像一個虛擬助理。因此,人工智能可能會成為你最好的朋友,但生成型人工智能也是一種新的數據中心工作負載,它帶來了新的范式轉變: NVIDIA 集體通信庫( NCCL )。
數據中心的演變
網絡管理員不得不處理許多其他最近的更改:
- 如何配置網絡
- 如何監控和管理網絡
- 如何設計網絡
- 網絡上的協議和工作負載
不久前,我們可能已經通過特定網絡命令行界面( CLI )的專業水平來衡量新網絡管理員的價值。隨著混合云計算和 DevOps 的出現,從 CLI 到 API 的轉變越來越大。 Ansible 、 SALT 和 Python 方面的技能現在比 Cisco 認證更有價值。
甚至您監控和管理網絡的方式也發生了變化。您已經從使用 SNMP 和 NetFlow 在數據中心輪詢設備的工具轉向了新的基于交換機的遙測模型,在該模型中,交換機主動流式傳輸基于流量的診斷詳細信息。
你們都熟練地將新的工作負載引入數據中心,其中許多都有獨特的網絡需求。您已經看到傳統數據庫被數據分析和大數據集群所取代。
現在,當被要求構建人工智能集群時,人們很容易認為人工智能只是一個更大、更快的大數據應用程序。但人工智能不同,如果沒有合適的工具,人工智能可能會很難。
生成人工智能和 NCCL 的影響
你是一家大型企業的網絡管理員。您的 CTO 參加了 GTC 2023 ,并聽說了生成人工智能。他們希望通過構建像 ChatGPT 這樣的大型語言模型來響應并與最終用戶交互,從而改變您的業務方式。模型必須經過訓練。這需要一個大型人工智能訓練集群,通過閃電般快速的高速網絡連接許多 GPU 加速的服務器。
這個人工智能培訓集群帶來了許多新的挑戰:
- 網絡流量模式和流量特性發生了顯著變化,而傳統 ECMP 無法很好地發揮作用。
- AI 集群參考設計需要用于計算/ GPU 、存儲甚至帶內管理的專用網絡。
- 網絡流量是異構的,由 CPU – 到 CPU 和 GPU — 到 GPU 通信生成。
- 人工智能集群必須準備好容納在一臺服務器上、多臺服務器上運行的作業,甚至是在一臺計算機上同時運行的多個作業。
- 網絡配置發生變化,參數用于優化 RoCE 和 GPU 直接通信。
- 人工智能作業必須在多次迭代中具有一致且可預測的作業完成時間。
- 具有更高帶寬交換機的新型扁平拓撲。
- 需要學習的新縮寫詞: CUDA 、 NVIDIA DOCA 、 BERT 、 LLM 、 DLRM 和 NCCL 。
- 新的監控工具:他們如何知道 AI 和 NCCL 是否表現良好?
那么,什么是 NCCL ?以下是教科書上的答案:
NVIDIA Collective Communication Library ( NCCL )實現了針對 NVIDIA GPU 和 Networking 優化的多節點通信原語。 NCCL 提供了諸如全收集、全減少、廣播、減少和減少分散以及點對點發送和接收之類的例程,這些例程經過優化,可通過節點內的 PCIe 和 NVLink 高速互連以及節點間的 NVIDIA Mellanox 網絡實現高帶寬和低延遲。
資料來源:NVIDIA Collective Communication Library (NCCL)
對于網絡管理員, NCCL 控制您閃亮的新 AI 集群的流量模式。這意味著您需要針對 NCCL 進行優化的網絡設計、針對 NCCL 優化的網絡監控工具以及針對 ZDK 7 優化的以太網交換機。
NCCL 是實現 AI 集群上運行的工作負載的高性能、一致性和可預測性的關鍵。 NCCL 也是一個交叉點:網絡管理員和數據科學家都必須說并理解它。當他們都能流利地說它時, ZDK 可以成為這些具有不同和所需技能的專業人士之間的羅塞塔石碑。
鑒于 NCCL 的重要性,正確的網絡可以決定 AI 集群的性能。人工智能集群有一些獨特的要求:
- 對噪音有彈性
- 對故障具有彈性
- 鐵路優化拓撲
- 無損網絡轉發
- 性能隔離
- 無阻塞網絡架構
那么,接下來是什么呢?
你的工作是防止網絡減緩人工智能集群的速度,但人工智能網絡需要什么?高帶寬、低延遲和高彈性是必要的,但還不夠。您將如何選擇正確的基礎設施?
- 基于數據表?不是。
- 根據供應商告訴你的?有點冒險,因為他們想賣給你一些東西。
- 基于科學家們所要求的數據?他們不是網絡專家,所以大多數人都不知道。
- 根據經驗豐富的網絡管理員的建議?很有可能他們認為是 CPU ,而不是 GPU ,并且要求發生了變化。
人工智能的聯網可能很難。“沒有人因為買 X 而被解雇”這句格言與摩爾定律一樣古老,因為人工智能的 X 因素與通用計算不同。即使是擁有專門的人工智能工程團隊來預先測試集群性能的大型 IT 商店,當隨著更多用戶的添加和多個作業的同時運行,性能急劇下降時,也會經常感到驚訝。
保證人工智能集群性能的最佳方法是遵循 NVIDIA 發布的人工智能參考架構之一,并使用具有人工智能可見性功能的基礎設施來驗證您的人工智能集群的健康狀況和饋電情況。
無論您的人工智能集群使用以太網還是 InfiniBand , NVIDIA 都會為您提供成功并成為人工智能網絡專家所需的工具、支持和培訓。
?