網絡/通訊 – NVIDIA 技術博客

網絡/通訊 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞和內容。 Wed, 14 May 2025 05:21:35 +0000 zh-CN hourly 1 196178272 使用 NVIDIA Air 服務將模擬與現實世界連接 http://www.open-lab.net/zh-cn/blog/connect-simulations-with-the-real-world-using-nvidia-air-services/ Tue, 13 May 2025 05:12:41 +0000 http://www.open-lab.net/zh-cn/blog/?p=13788 Continued]]> NVIDIA Air 通過創建真實數據中心基礎設施部署的相同副本來實現云規模效率。借助 NVIDIA Air，您可以啟動數百臺交換機和服務器，并使用單個腳本進行配置。 NVIDIA Air 的眾多優勢之一是能夠將您的模擬與現實世界連接起來。在您的環境中啟用外部連接可以顯著增強其功能、性能和靈活性。集成云資源、API、第三方數據、協作工具或高級機器學習模型，以提高仿真的質量、規模和實時性。它還促進了協作、可擴展性，以及在本地實施難以或成本高昂的先進技術的使用。本文介紹了通過使用 NVIDIA Air 中的服務將 NVIDIA Air 模擬連接到外部世界所提供的各種用例和優勢。通過在仿真中啟用服務，可以從外部連接到仿真。服務在 sim-by-sim 的基礎上啟用。您可以在具有外部公開接口的任何節點上啟用服務。常見服務包括 HTTP、HTTPS 和 SSH 服務，

]]>

13788

NVIDIA Secure AI 正式發布 http://www.open-lab.net/zh-cn/blog/announcing-nvidia-secure-ai-general-availability/ Wed, 23 Apr 2025 05:39:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=13608 Continued]]> 隨著許多企業開始對其數據進行 AI 訓練或推理，需要保護數據和代碼，尤其是大語言模型 (LLMs) 。由于數據敏感性，許多客戶無法冒險將數據放在云端。此類數據可能包含個人身份信息 (PII) 或公司專有信息，且經過訓練的模型擁有寶貴的知識產權 (IP) 。 NVIDIA Confidential Computing (CC) 是保護大型 AI 模型和數據的出色解決方案。借助 NVIDIA CC，企業無需在性能和安全性之間做出權衡。NVIDIA 最初于 2023 年發布了 CC，并繼續與 CPU 合作伙伴、云提供商和獨立軟件供應商 (ISVs) 合作，以確保從傳統的加速工作負載到機密的加速工作負載的轉變是流暢和透明的。本文將介紹基于 NVIDIA HGX H100 8-GPU 和 NVIDIA HGX H200 8-GPU 的安全 AI（即 Protected…

]]>

13608

AI Fabric 的彈性以及網絡融合的重要性 http://www.open-lab.net/zh-cn/blog/ai-fabric-resiliency-and-why-network-convergence-matters/ Fri, 11 Apr 2025 05:53:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=13584 Continued]]> 高性能計算和深度學習工作負載對延遲極為敏感。數據包丟失會導致通信管道中的重傳或停頓，從而直接增加延遲并中斷 GPU 之間的同步。這可能會降低集合運算（例如 all-reduce 或 broadcast）的性能，因為這些運算需要每個 GPU 的參與才能進行。本文重點介紹基于 NVIDIA 以太網的東西向 AI 網絡解決方案 Spectrum-X。我從 AI 工作負載的角度討論了 AI 結構的彈性、鏈路翼的后果、鏈路故障，以及 NVIDIA 集合通信庫 (NCCL) 。 NCCL 專為高速和低延遲環境而設計，通常通過支持 RDMA 的無損網絡 (例如 InfiniBand、NVLink 或適用于 Ethernet 的 Spectrum-X) 實現。其性能可能會受到網絡事件的顯著影響：為獲得最佳性能，NCCL 應在網絡上運行，并盡可能減少延遲、抖動和丟包。

]]>

13584

NVIDIA 借助 NVIDIA DGX SuperPOD 加快 AI 工廠建設速度 http://www.open-lab.net/zh-cn/blog/nvidia-helps-build-ai-factories-faster-than-ever-with-nvidia-dgx-superpod/ Fri, 11 Apr 2025 05:49:56 +0000 http://www.open-lab.net/zh-cn/blog/?p=13581 Continued]]> 在日本一個秘密地點的洞穴狀房間里，一場數字革命正在展開。服務器機架像巨人一樣立著，它們的光滑框架由數千條電纜連接，充滿了潛力。直到去年，這個龐大的 AI 工廠還不存在。現在，它將鞏固 SoftBank Corporation 的 AI 驅動創新愿景，這一愿景植根于創建一個與 AI 共存的社會，使用先進的基礎設施推動進步。對于 SoftBank 而言，每天縮短部署時間，不僅僅是一場技術上的勝利。相反，它具有各種競爭優勢。在 AI 超級計算飛速發展的世界中，速度就是一切。日本領先的科技巨頭之一軟銀集團與 NVIDIA 合作打造了這一系統。他們共同構建了兩個世界上最先進的計算集群 —— 集群能夠以創紀錄的速度處理大量數據，并加速由軟銀子公司 SB Intuitions 開發的大語言模型（LLM）的開發。但是，創建 AI 工廠不僅僅是插入硬件。這是一項精心設計的工作，

]]>

13581

借助 Rafay 為企業 AI 工作負載提供 NVIDIA 加速計算 http://www.open-lab.net/zh-cn/blog/delivering-nvidia-accelerated-computing-for-enterprise-ai-workloads-with-rafay/ Wed, 09 Apr 2025 06:11:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=13506 Continued]]> 生成式 AI 在全球的應用推動了全球對加速計算硬件的巨大需求。在企業中，這加快了加速私有云基礎設施的部署。在地區層面，對計算基礎設施的需求催生了一類新的云提供商，他們為 AI 工作負載提供加速計算 (GPU) 能力，也稱為 GPU 云提供商或 AI 云。其中包括可能符合 NVIDIA 云合作伙伴 (NCP) 要求的云提供商。這些云提供商提供 GPU 加速的硬件和專為其區域客戶群定制的更高級別的 AI 服務。對于企業私有云和云提供商來說，任務很明確：讓 AI 基礎設施更易于使用，同時提供精心制作的解決方案，以滿足其服務的企業和地區的特定需求。在本文中，我們將討論構建自助 GPU 云的關鍵技術要求和挑戰，以及 NVIDIA 合作伙伴 Rafay 的平臺即服務 (PaaS) 模型如何應對這些挑戰。

]]>

13506

NVIDIA 硅光網絡交換開啟數據中心網絡新時代 http://www.open-lab.net/zh-cn/blog/a-new-era-in-data-center-networking-with-nvidia-silicon-photonics-based-network-switching/ Thu, 27 Mar 2025 05:27:03 +0000 http://www.open-lab.net/zh-cn/blog/?p=13405 Continued]]> NVIDIA 通過將硅光技術直接與 NVIDIA Quantum 和 NVIDIA Spectrum 交換機 IC 集成，開辟了新的領域。在 GTC 2025 上，我們推出了全球領先的硅光交換機系統，采用先進的 200G SerDes 技術，與傳統的可插拔光模塊相比，這種創新的硅光一體封裝技術具有顯著的優勢，例如3.5 倍的能耗降低、延遲的降低、以及顯著的網絡可靠性提升等，這些都是加速大規模 AI 模型開發和推理的關鍵因素。硅光一體化封裝技術是硬件集成的一次演進。通過將硅光光收發器直接與交換機 IC 封裝在一起，NVIDIA 實現了：降低功耗：與傳統的可插拔光模塊相比，硅光一體化封裝可實現3.5 倍的大幅功耗降低。通過消除耗電的外部 DSP 器件和將信號路徑從英寸縮小到毫米，這項突破性技術可顯著提高能效。這種更密集、更可持續的 AI 基礎設施，將推動更快的系統可見性和擴展性，

]]>

13405

NVIDIA Aerial Omniverse 數字孿生提升AI原生無線開發和靈活部署能力 http://www.open-lab.net/zh-cn/blog/nvidia-aerial-omniverse-digital-twin-boosts-development-of-ai-native-wireless-and-deployment-flexibility/ Wed, 19 Mar 2025 08:43:19 +0000 http://www.open-lab.net/zh-cn/blog/?p=13260 Continued]]> 在 AI 與先進 5G 和即將推出的 6G 技術融合的推動下，無線行業正處于轉型的邊緣，這些技術可為數十億 AI 驅動的端點提供無與倫比的速度、超低延遲和無縫連接。具體而言，6G 將采用 AI 原生技術，實現集成感知和通信，支持擴展現實和全息接口等沉浸式技術，并借助 AI 將網絡性能、頻譜效率和能效提升到新的水平。要充分發揮 AI 原生 5G 和 6G 無線網絡的潛力，需要在網絡設計、仿真、部署和測試方面采用創新方法。在 NVIDIA GTC 2024 大會上，我們推出了 Aerial Omniverse 數字孿生 (AODT) ，這是一個使用 NVIDIA Omniverse 構建的 AI 原生數字孿生平臺，專為 5G 和 6G 無線系統的前沿研究和開發 (R&D) 而設計。 AODT 的主要特性包括：今年，我們宣布擴展 AODT 功能，

]]>

13260

AI 推理時代的 NVIDIA Blackwell Ultra http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-ultra-for-the-era-of-ai-reasoning/ Wed, 19 Mar 2025 08:34:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=13254 Continued]]> 多年來，AI 的進步一直通過預訓練擴展遵循清晰的軌跡：更大的模型、更多的數據和更豐富的計算資源帶來了突破性的功能。在過去 5 年中，預訓練擴展使計算需求以驚人的速度增加了 50M 倍。但是，構建更智能的系統不再只是預訓練更大的模型。相反，它是關于改進它們并讓它們思考。通過將 AI 模型優化為專門任務，后訓練擴展可改進模型，以提供更多對話式響應。使用特定領域的合成數據調整模型，可增強其理解細微上下文并提供準確輸出的能力。合成數據生成作為訓練模型的可用內容沒有上限，這意味著在后訓練擴展中需要大量計算資源。現在，一種增強智能的新縮放定律已經出現：測試時縮放（test-time scaling）。測試時擴展也稱為長思考，可在 AI 推理過程中動態增加計算量，從而實現更深入的推理。AI 推理模型不僅能一次性生成答案，還能積極思考、權衡多種可能性，并實時優化答案。

]]>

13254

使用 NCCL 2.24 實現大規模網絡可靠性和可觀察性 http://www.open-lab.net/zh-cn/blog/networking-reliability-and-observability-at-scale-with-nccl-2-24/ Thu, 13 Mar 2025 06:26:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=13345 Continued]]> NVIDIA 集合通信庫 (NCCL) 實現了針對 NVIDIA GPU 和網絡優化的多 GPU 和多節點 (MGMN) 通信基元。NCCL 是用于多 GPU 深度學習訓練的核心軟件。它可以處理任何類型的 GPU 間通信，無論是通過 PCI、NVLink 還是網絡。它使用先進的拓撲檢測、優化的通信圖形和調優模型，在 NVIDIA GPU 平臺上直接獲得出色的性能。如需了解有關 NCCL 的更多信息，請訪問 NVIDIA/nccl GitHub 倉庫。在本文中，我們將討論 NCCL 2.24 中發布的新功能和修復程序。我們將特別解釋以下新功能： NCCL 2.24 中添加了 RAS 子系統，可幫助用戶診斷應用崩潰和掛起。在大規模上，識別應用程序缺乏進展的根本原因對于不太熟悉 NCCL 的用戶可能具有挑戰性。 RAS 是一種低開銷基礎架構，

]]>

13345

借助 NVIDIA NIM 和 NVIDIA Holoscan for Media 增強直播媒體工作流程效率 http://www.open-lab.net/zh-cn/blog/supercharging-live-media-workflows-with-nvidia-nim-and-nvidia-holoscan-for-media/ Wed, 05 Mar 2025 05:44:44 +0000 http://www.open-lab.net/zh-cn/blog/?p=13134 Continued]]> NVIDIA Holoscan for Media 是一個 NVIDIA 加速平臺，專為多供應商實時制作和 AI 而設計。它將在 GTC 上展示，重點介紹可增強實時制作工作流的 NVIDIA NIM、AI SDK 和微服務。容器編排平臺基于 Kubernetes 構建，通過 NVIDIA 組件 (例如 GPU 和網絡運算符)、ST 2110 的性能調優和監控堆棧簡化了媒體計時、同步和管理。參考應用使用 NVIDIA Rivermax、NVIDIA NMOS 和 NVIDIA DeepStream SDK，使您能夠從一開始就運行真實的直播媒體工作流。 Holoscan for Media 通過將新一代模型與未壓縮的直播媒體管線連接起來，提供創新的觀眾體驗和制作流程，從而加速行業對 AI 的采用。 NIM 作為通過 Helm 圖表部署在 Kubernetes…

]]>

13134

NVIDIA Spectrum-X 網絡平臺和合作伙伴提升 AI 存儲性能達48% http://www.open-lab.net/zh-cn/blog/accelerating-ai-storage-by-up-to-48-with-nvidia-spectrum-x-networking-platform-and-partners/ Tue, 04 Feb 2025 06:56:25 +0000 http://www.open-lab.net/zh-cn/blog/?p=12761 Continued]]> AI 工廠依靠的不僅僅是計算網。當然，連接 GPU 的東西向網絡對于 AI 應用的性能至關重要，而連接高速存儲陣列的存儲網也不容忽視。存儲性能在運行 AI 業務過程中的多個階段中發揮著關鍵作用, 包括訓練過程中的Checkpoint操作、推理過程中的檢索增強生成 (RAG) 等。為了滿足這些需求，NVIDIA 和存儲生態合作伙伴正在將 NVIDIA Spectrum-X 網絡平臺擴展到數據存儲網，從而帶來更高的性能和更快的實現AI的時間。由于 Spectrum-X 動態路由技術能夠緩解網絡中的流量沖突并增加有效帶寬，從而使存儲性能遠高于 RoCE v2，RoCE v2是大多數數據中心用于 AI 計算網和存儲網的以太網網絡協議。 Spectrum-X 將讀取帶寬加速了高達 48%，寫入帶寬加速了高達 41%。帶寬的增加可以更快地完成 AI 工作流中與存儲相關的操作，

]]>

12761

NVIDIA 集合通信庫 2.23 促使新的縮放算法和初始化方法的誕生 http://www.open-lab.net/zh-cn/blog/new-scaling-algorithm-and-initialization-with-nvidia-collective-communications-library-2-23/ Fri, 31 Jan 2025 04:47:14 +0000 http://www.open-lab.net/zh-cn/blog/?p=12886 Continued]]> NVIDIA 集合通信庫 (NCCL) 可實現針對 NVIDIA GPU 和網絡進行優化的多 GPU 和多節點通信基元。NCCL 是多 GPU 深度學習訓練軟件的核心部分。它可以處理任何類型的 GPU 間通信，無論是通過 PCI、NVLink 還是網絡進行通信。它采用先進的拓撲檢測、優化的通信圖形和調整模型，可在 NVIDIA GPU 平臺上直接獲得開箱即用的最佳性能。在本文中，我們將討論 NCCL 2.23 中發布的新功能和修復程序。查看 NVIDIA/nccl Github 存儲庫。 NVIDIA Magnum IO NCCL 是一個旨在優化 GPU 間和多節點通信的庫，對于 AI 和高性能計算 (HPC) 應用中的高效并行計算至關重要。此版本的價值在于其新功能：以下各節將深入探討新功能的詳細信息： PAT 算法是 Bruck 算法的變體，

]]>

12886

將數據中心轉變為 AI 工廠，迎接第 5 次工業革命 http://www.open-lab.net/zh-cn/blog/transforming-data-centers-into-ai-factories-for-the-5th-industrial-revolution/ Tue, 14 Jan 2025 05:38:22 +0000 http://www.open-lab.net/zh-cn/blog/?p=12619 Continued]]> 在最近的 DC Anti-Conference Live 演示中，NVIDIA 首席數據中心杰出工程師 Wade Vinson 分享了基于 NVIDIA 自 2016 年以來設計、構建和運營 NVIDIA DGX SuperPOD 多兆瓦級數據中心所取得的工作成果的見解。 NVIDIA 致力于使數據中心更易于訪問、更節約資源、更節能、更高效地開展業務，并可擴展到全球任何規模和地點。數據中心向 AI 數據中心的演進不僅是一種趨勢，也是 AI 工作流日益增長的計算需求所驅動的必然趨勢。這一轉型的核心在于 GPU 的強大功能。自 2012 年引入數據中心以來，GPU 實現了并行處理，并顯著縮短了密集型任務所需的時間，從而徹底改變了整個行業。這一轉變帶來了顯著的改進，與基于 CPU 的傳統系統相比，每瓦性能提高了 30 倍，每美元性能提高了 60 倍。

]]>

12619

借助 NVIDIA DOCA 平臺框架，助力新一代 DPU 加速云基礎設施 http://www.open-lab.net/zh-cn/blog/powering-the-next-wave-of-dpu-accelerated-cloud-infrastructures-with-nvidia-doca-platform-framework/ Mon, 13 Jan 2025 08:06:11 +0000 http://www.open-lab.net/zh-cn/blog/?p=12623 Continued]]> 越來越多的企業組織開始采用加速計算來滿足生成式 AI、5G 電信和主權云的需求。NVIDIA 發布了 DOCA 平臺框架 (DPF)，該框架提供了基礎構建塊來釋放 NVIDIA BlueField DPU 的強大功能，并優化 GPU 加速的計算平臺。作為一種編排框架和實施藍圖，DPF 使開發者、服務提供商和企業能夠無縫創建 BlueField 加速的云原生軟件平臺。通過簡化 DPU 調配、生命周期管理和服務編排，DPF 使 BlueField DPU 可在 Kubernetes 環境中廣泛使用，以加速 AI 和其他現代工作負載。此外，DPF 還強化了由 BlueField 加速的應用和服務組成的生態系統，推動可擴展云平臺的發展。 NVIDIA 對 CPU-GPU-DPU 三功能的承諾眾所周知，隨著 DPF 的推出，NVIDIA 正在此架構的 DPU 方面實現大膽的飛躍。

]]>

12623

NVIDIA Air 簡要介紹 http://www.open-lab.net/zh-cn/blog/an-introduction-to-nvidia-air/ Thu, 12 Dec 2024 09:14:16 +0000 http://www.open-lab.net/zh-cn/blog/?p=12325 Continued]]> AI 的出現帶來了一種新型數據中心，即 AI 工廠，專門用于處理 AI 工作負載。AI 工作負載的范圍和規模可能會有很大差異，但在每種情況下，網絡都是確保高性能和更快實現價值的關鍵。為縮短 AI 部署時間并提高投資回報率， NVIDIA Air 助力企業組織構建網絡基礎設施的數字孿生。在基于云的 NVIDIA Air 界面中，您可以對 AI 工廠中的每個交換機、適配器和電纜進行建模。此數字孿生提供了一個虛擬環境，用于測試和驗證網絡調配、自動化、安全策略等。網絡管理員可以在單個硬件交付之前開始執行這些第 0 天操作。 NVIDIA Air 專門面向模擬真實的數據中心環境。它提供了執行此類壯舉所需的巨大速度、資源和網絡功能。您可以在幾秒鐘內啟動新服務器，幾分鐘內即可啟動數十甚至數百臺。它還提供了多種版本的不同網絡操作系統，可安裝在您的交換機上，

]]>

12325

人人超碰97caoporen国产