隨著 AI 借助代理式 AI 向規劃、研究和推理發展,工作流變得越來越復雜。為了高效部署代理式 AI 應用,AI 云需要軟件定義、硬件加速的應用交付控制器 (ADC) 。這實現了動態負載均衡、強大的安全性、云原生多租戶和豐富的可觀測性。適用于 Kubernetes 的 F5 BIG-IP ADC 由 NVIDIA BlueField-3 數據處理器 (DPU) 提供支持,可簡化 Kubernetes 應用交付和代理式 AI 的部署,同時憑借運營效率和最佳功耗降低總體擁有成本。
自 2022 年推出 OpenAI 的 ChatGPT 以來,AI 發展迅速。最初,AI 專注于使用 GPU 進行模型訓練,以處理大型數據集并優化性能。如今,研究重點已擴展到分布式推理,包括大語言模型 (LLM) 回答查詢、通過檢索增強生成 (RAG) 集成企業數據,以及開發 DeepSeek R1 等推理模型。
現在,代理式 AI 將生成式 AI 提升到了一個新的水平。與 LLM 回答問題時采用的單步方法不同,代理式 AI 通過規劃和推理來解決復雜問題。作為代理式 AI 的示例,下面 NVIDIA 的數字人藍圖工作流整合了十幾個容器化的 NVIDIA 推理微服務 ( NIM) ,包括 LLM、向量數據庫、RAG、語音識別和虛擬形象渲染。這些組件協同工作,創建了一個連貫一致的代理式工作流。

代理式工作流程 (規劃、推理、測試時間縮放和長思考) 更為復雜。由于他們在數據中心內或跨多個數據中心使用許多組件和數據存儲,因此在單個節點上實施代理式 AI 變得不切實際。代理式 AI 推理需要由加速計算、網絡和存儲組成的分布式和分解式多節點基礎設施,以處理代理式 AI 系統組件之間的持續數據移動。
BlueField-3 DPU 是優化 AI 云和 AI 工廠中 AI 數據移動的關鍵。BlueField 是一個加速網絡平臺,將高性能、可編程的加速引擎與節能高效的 Arm 計算核心相結合。這種組合可為互聯組件之間的代理式 AI 數據流編程提供性能、效率和靈活性。
為了簡化 AI 工廠的部署和運營,NVIDIA 為主權 AI 云運營商 (也稱為 NVIDIA 云合作伙伴 (NCP)) 開發了一個參考架構。BlueField 是此參考架構的關鍵組件,因為它可以高效處理 GPU 集群的南北向網絡 (包括集群間流量和存儲訪問) 。

隆重推出適用于 Kubernetes 的 F5 BIG-IP Next
優化的數據中心基礎設施對于 AI 云和 AI 工廠至關重要,高性能、高效的應用交付控制器 (ADC) 也是如此。適用于 Kubernetes (BINK) ADC 的 F5 BIG-IP Next 為 AI 工廠提供動態負載均衡、強大的安全性、云原生多租戶和豐富的可觀測性。BINK 通過 BlueField-3 加速,可為 AI 云實現高性能云原生網絡和大規模零信任安全性,從而簡化代理式 AI 部署和運營。
Kubernetes 可輕松實現云原生應用的可擴展性和監控,但通常會帶來復雜性。在 Kubernetes 中部署微服務涉及許多元素,例如入口和出口控制器、微分段、網絡策略管理、身份管理、API 策略和服務網格,這些元素使得數據流難以與應用保持一致。代理式 AI 部署非常復雜,因為它依賴于在不同環境中部署的多個微服務。此外,AI 云還面臨著對 GPU 資源進行精細劃分的挑戰,同時還能有效地跟蹤每位客戶的使用情況。
NCP 和主權 AI 云提供商需要云原生多租戶來跨多個客戶高效利用 GPU 資源,而不是為每個客戶過度配置這些資源。通過 BlueField-3 加速的 BINK 可以學習流量并將流量路由到 Kubernetes 命名空間,從而提供真正的云原生負載均衡。

通過 BlueField-3 加速的 BINK 還通過將數據路徑從主機 CPU 服務器分流到 DPU 上節能高效的 Arm 核心來提高能效,同時提高吞吐量。就每瓦吞吐量而言,這意味著網絡能效要高得多。
軟銀集團的經驗
軟銀集團運營著全球 20 臺大型超級計算機中的兩臺,并開發了日本著名的 LLM — — Sarashina。為了將其云原生數據中心從訓練擴展到提供可擴展的 AI 推理服務,軟銀需要企業級租戶隔離和安全性。它必須高效利用所有可用的計算資源,同時更大限度地降低功耗并保持高網絡性能。
軟銀集團在 NVIDIA H100 GPU 集群上測試了 BINK。概念驗證 (PoC) 用于測量在兩個獨立的 Kubernetes 命名空間上運行的應用程序的網絡性能。每個租戶命名空間的網絡流量完全隔離。
在 POC 期間,軟銀集團以 75 Gbps 的速度生成 100 個并發 HTTP GET 請求,每秒生成 18000 個請求。接下來,SoftBank 將使用 BlueField-3 加速的 BINK 的運行效率與在主機 CPU 上運行的開源 Nginx 進行了比較。結果令人印象深刻。

- CPU 卸載:使用 BlueField-3 加速的 BINK 可在不消耗任何 CPU 核心的情況下實現 77 Gbps 的吞吐量。
- 延遲:使用由 BlueField 提供支持的 BINK 時,HTTP GET 響應 ( L7 請求的第一個字節所需的時間) 降低了 11 倍。

- CPU 利用率:與 Nginx 主機軟件相比,使用 BlueField 的 BINK 的 CPU 利用率降低了 99%。
- 網絡能效 (以每瓦吞吐量衡量) :與使用開源 Nginx 時的 0.3 Gbps/ 瓦相比,BlueField 加速的能效提高了 190 倍 ( 57 Gbps/ 瓦) 。
此 PoC 展示了如何使用由 BlueField-3 加速的 F5 應用交付控制器高效管理通往 AI 云的南北向流量。
總結
AI 云和 AI 工廠需要專為高性能、高能效、云原生多租戶和安全性而構建的云原生數據中心。NVIDIA 與 F5 的合作可實現出色的性能、安全性和效率。軟銀集團令人印象深刻的 PoC 結果證實,使用 DPU 卸載和加速應用程序交付可增強 AI 工廠,以滿足現代 AI 工作負載的極端需求。
有關 SoftBank 的 PoC 和 F5 BIG-IP Next 在支持 BlueField-3 加速的 Kubernetes 上的功能的更多信息,請參閱詳細的 NVIDIA GTC 演示。
在今年的 RSA 大會上,F5 和 NVIDIA 宣布全面推出由 BlueField-3 提供支持的 BIG-IP for Kubernetes (BINK) ,以解決 AI 云的主要 Kubernetes 網絡和安全挑戰。有關演示或 PoC 咨詢,請聯系您的 F5 或 NVIDIA 銷售代表。
?