Cloud Networking – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 17 Jul 2025 06:52:50 +0000 zh-CN hourly 1 196178272 NCCL 深度解析:跨數據中心通信與網絡拓撲感知 http://www.open-lab.net/zh-cn/blog/nccl-deep-dive-cross-data-center-communication-and-network-topology-awareness/ Mon, 14 Jul 2025 06:50:10 +0000 http://www.open-lab.net/zh-cn/blog/?p=14637 Continued]]> 隨著 AI 訓練規模的擴大,單個數據中心 (DC) 不足以提供所需的計算能力。應對這一挑戰的最新方法依賴于多個數據中心位于同一地點或分布在不同地理位置。在最近的一項開源功能中,NVIDIA 集合通信庫 (NCCL) 現在能夠跨多個數據中心無縫通信,同時考慮網絡拓撲結構,以確保提供最佳性能。 下面我們將介紹所提議方法的內部運作方式,以及實現預期功能所需的關鍵關注點。 NCCL 已經支持多個通信器,每個通信器都依賴于不同的網絡。例如,用戶可以使用內部 DC 網絡將全局歸約集合組成內部 DC 歸約散射,然后在內部 DC 網絡上執行全局歸約,并在內部 DC 網絡上執行最終的全局收集。此方法已在 NVIDIA Nemo 框架中使用。 NCCL 中提議的交叉 DC 功能有兩個目標。首先,我們保證在多直流連接的情況下提供最佳性能。其次,我們支持多直流通信,對 AI 訓練工作負載的修改最少。

Source

]]>
14637
使用 DPU 加速的 Kubernetes 服務代理增強 AI 工廠 http://www.open-lab.net/zh-cn/blog/turbocharging-ai-factories-with-dpu-accelerated-service-proxy-for-kubernetes/ Mon, 07 Jul 2025 06:08:52 +0000 http://www.open-lab.net/zh-cn/blog/?p=14535 Continued]]> 隨著 AI 借助代理式 AI 向規劃、研究和推理發展,工作流變得越來越復雜。為了高效部署代理式 AI 應用,AI 云需要軟件定義、硬件加速的應用交付控制器 (ADC) 。這實現了動態負載均衡、強大的安全性、云原生多租戶和豐富的可觀測性。適用于 Kubernetes 的 F5 BIG-IP ADC 由 NVIDIA BlueField-3 數據處理器 (DPU) 提供支持,可簡化 Kubernetes 應用交付和代理式 AI 的部署,同時憑借運營效率和最佳功耗降低總體擁有成本。 自 2022 年推出 OpenAI 的 ChatGPT 以來,AI 發展迅速。最初,AI 專注于使用 GPU 進行模型訓練,以處理大型數據集并優化性能。如今,研究重點已擴展到分布式推理,包括大語言模型 (LLM) 回答查詢、通過檢索增強生成 (RAG) 集成企業數據,以及開發 DeepSeek R1 等推理模型。

Source

]]>
14535
使用外部文件上傳在 NVIDIA Air 中構建可擴展且自定義網絡拓撲的優勢 http://www.open-lab.net/zh-cn/blog/advantages-of-external-file-uploads-for-scalable-custom-network-topologies-in-nvidia-air/ Mon, 02 Jun 2025 08:17:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=14138 Continued]]> NVIDIA Air 具有仿真從小型網絡到整個數據中心的任何網絡的獨特能力。在開始配置、路由或管理之前,請先考慮拓撲。 網絡拓撲是設備在網絡內連接和通信的布局或結構。它描述了數據的物理安排和邏輯流。 需要考慮的問題包括: NVIDIA Air 提供了多個用于創建網絡拓撲的選項。本文討論了使用外部文件的優勢,您可以創建、編輯外部文件并將其上傳到 NVIDIA Air。這種方法具有很高的可擴展性和可重用性,為 NVIDIA Air 的進一步自動化打開了大門。 請觀看以下視頻,了解將外部文件導入 NVIDIA Air 的分步說明。 視頻 1:關于使用外部文件將拓撲導入 NVIDIA Air 的分步演示視頻 大型網絡需要數十或數百臺服務器。每個服務器都必須命名、分配資源并連接到您的網絡和其他服務器。

Source

]]>
14138
NVIDIA 借助 NVIDIA DGX SuperPOD 加快 AI 工廠建設速度 http://www.open-lab.net/zh-cn/blog/nvidia-helps-build-ai-factories-faster-than-ever-with-nvidia-dgx-superpod/ Fri, 11 Apr 2025 05:49:56 +0000 http://www.open-lab.net/zh-cn/blog/?p=13581 Continued]]> 在日本一個秘密地點的洞穴狀房間里,一場數字革命正在展開。服務器機架像巨人一樣立著,它們的光滑框架由數千條電纜連接,充滿了潛力。 直到去年,這個龐大的 AI 工廠還不存在。現在,它將鞏固 SoftBank Corporation 的 AI 驅動創新愿景,這一愿景植根于創建一個與 AI 共存的社會,使用先進的基礎設施推動進步。 對于 SoftBank 而言,每天縮短部署時間,不僅僅是一場技術上的勝利。相反,它具有各種競爭優勢。在 AI 超級計算飛速發展的世界中,速度就是一切。 日本領先的科技巨頭之一軟銀集團與 NVIDIA 合作打造了這一系統。他們共同構建了兩個世界上最先進的計算集群 —— 集群能夠以創紀錄的速度處理大量數據,并加速由軟銀子公司 SB Intuitions 開發的大語言模型(LLM)的開發。 但是,創建 AI 工廠不僅僅是插入硬件。這是一項精心設計的工作,

Source

]]>
13581
人人超碰97caoporen国产