Spectrum 以太網 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 22 May 2025 06:38:29 +0000 zh-CN hourly 1 196178272 NVIDIA ConnectX-8 SuperNIC 通過 PCIe Gen6 連接推動 AI 平臺架構發展 http://www.open-lab.net/zh-cn/blog/nvidia-connectx-8-supernics-advance-ai-platform-architecture-with-pcie-gen6-connectivity/ Sun, 18 May 2025 06:34:44 +0000 http://www.open-lab.net/zh-cn/blog/?p=13955 Continued]]> 從 大語言模型 (LLM) 到 代理式 AI 推理和 物理 AI ,隨著 AI 工作負載的復雜性和規模不斷增加,人們對更快、更可擴展的計算基礎設施的需求空前強烈。滿足這些需求需要從頭開始重新思考系統架構。 NVIDIA 正在通過 NVIDIA ConnectX-8 SuperNIC 推動平臺架構的發展。NVIDIA ConnectX-8 SuperNIC 是業內首款在單個設備中集成支持 PCIe Gen6 的交換機和超高速網絡的 SuperNIC。ConnectX-8 專為現代 AI 基礎架構設計,可提供更高的吞吐量,同時簡化系統設計并提高功耗和成本效益。 在基于 PCIe 的平臺中,尤其是配備 8 個或更多 GPU 的平臺,PCIe 交換機對于更大限度地提高 GPU 間通信帶寬和實現可擴展的 GPU 拓撲至關重要。現有設計依賴于獨立的 PCIe 交換機,

Source

]]>
13955
AI Fabric 的彈性以及網絡融合的重要性 http://www.open-lab.net/zh-cn/blog/ai-fabric-resiliency-and-why-network-convergence-matters/ Fri, 11 Apr 2025 05:53:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=13584 Continued]]> 高性能計算和深度學習工作負載對延遲極為敏感。數據包丟失會導致通信管道中的重傳或停頓,從而直接增加延遲并中斷 GPU 之間的同步。這可能會降低集合運算(例如 all-reduce 或 broadcast)的性能,因為這些運算需要每個 GPU 的參與才能進行。 本文重點介紹基于 NVIDIA 以太網的東西向 AI 網絡解決方案 Spectrum-X。我從 AI 工作負載的角度討論了 AI 結構的彈性、鏈路翼的后果、鏈路故障,以及 NVIDIA 集合通信庫 (NCCL) 。 NCCL 專為高速和低延遲環境而設計,通常通過支持 RDMA 的無損網絡 (例如 InfiniBand、NVLink 或適用于 Ethernet 的 Spectrum-X) 實現。其性能可能會受到網絡事件的顯著影響: 為獲得最佳性能,NCCL 應在網絡上運行,并盡可能減少延遲、抖動和丟包。

Source

]]>
13584
NVIDIA 硅光網絡交換開啟數據中心網絡新時代 http://www.open-lab.net/zh-cn/blog/a-new-era-in-data-center-networking-with-nvidia-silicon-photonics-based-network-switching/ Thu, 27 Mar 2025 05:27:03 +0000 http://www.open-lab.net/zh-cn/blog/?p=13405 Continued]]> NVIDIA 通過將硅光技術直接與 NVIDIA Quantum 和 NVIDIA Spectrum 交換機 IC 集成,開辟了新的領域。在 GTC 2025 上,我們推出了全球領先的硅光交換機系統,采用先進的 200G SerDes 技術,與傳統的可插拔光模塊相比,這種創新的硅光一體封裝技術具有顯著的優勢,例如3.5 倍的能耗降低、延遲的降低、以及顯著的網絡可靠性提升等,這些都是加速大規模 AI 模型開發和推理的關鍵因素。 硅光一體化封裝技術是硬件集成的一次演進。通過將硅光光收發器直接與交換機 IC 封裝在一起,NVIDIA 實現了: 降低功耗:與傳統的可插拔光模塊相比,硅光一體化封裝可實現3.5 倍的大幅功耗降低。通過消除耗電的外部 DSP 器件和將信號路徑從英寸縮小到毫米,這項突破性技術可顯著提高能效。這種更密集、更可持續的 AI 基礎設施,將推動更快的系統可見性和擴展性,

Source

]]>
13405
借助 NVIDIA Mission Control 實現 AI 工廠自動化 http://www.open-lab.net/zh-cn/blog/automating-ai-factory-operations-with-nvidia-mission-control/ Tue, 25 Mar 2025 08:51:04 +0000 http://www.open-lab.net/zh-cn/blog/?p=13363 Continued]]> DeepSeek-R1 等先進的 AI 模型證明,企業現在可以構建專用于自己的數據和專業知識的尖端 AI 模型。這些模型可以根據獨特的用例進行定制,以前所未有的方式應對各種挑戰。 基于早期 AI 采用者的成功,許多組織正在將重點轉移到全面生產的 AI 工廠 。然而,創建高效 AI 工廠的過程復雜且耗時,并且不同于構建特定于垂直行業的 AI 的目標。 它涉及到樓宇自動化,用于調配和管理復雜的基礎設施,在最新平臺上維護具有專業技能的站點可靠性工程師(SRE)團隊,以及大規模開發流程以實現超大規模的效率。此外,開發者需要一種方法來利用 AI 基礎設施的強大功能,同時具備超大規模數據中心的敏捷性、效率和規模,同時避免成本、復雜性和專業知識等方面的負擔。 本文將介紹 NVIDIA Mission Control (一個為使用 NVIDIA 參考架構構建的 AI…

Source

]]>
13363
NVIDIA Spectrum-X 網絡平臺和合作伙伴提升 AI 存儲性能達48% http://www.open-lab.net/zh-cn/blog/accelerating-ai-storage-by-up-to-48-with-nvidia-spectrum-x-networking-platform-and-partners/ Tue, 04 Feb 2025 06:56:25 +0000 http://www.open-lab.net/zh-cn/blog/?p=12761 Continued]]> AI 工廠依靠的不僅僅是計算網。當然,連接 GPU 的東西向網絡對于 AI 應用的性能至關重要,而連接高速存儲陣列的存儲網也不容忽視。存儲性能在運行 AI 業務過程中的多個階段中發揮著關鍵作用, 包括訓練過程中的Checkpoint操作、 推理過程中的檢索增強生成 (RAG) 等。 為了滿足這些需求,NVIDIA 和存儲生態合作伙伴正在將 NVIDIA Spectrum-X 網絡平臺 擴展到數據存儲網,從而帶來更高的性能和更快的實現AI的時間。由于 Spectrum-X 動態路由技術能夠緩解網絡中的流量沖突并增加有效帶寬,從而使存儲性能遠高于 RoCE v2,RoCE v2是大多數數據中心用于 AI 計算網和存儲網的以太網網絡協議。 Spectrum-X 將讀取帶寬加速了高達 48%,寫入帶寬加速了高達 41%。帶寬的增加可以更快地完成 AI 工作流中與存儲相關的操作,

Source

]]>
12761
NVIDIA SuperNIC 驅動新一代 AI 網絡發展 http://www.open-lab.net/zh-cn/blog/powering-next-generation-ai-networking-with-nvidia-supernics/ Tue, 15 Oct 2024 04:39:33 +0000 http://www.open-lab.net/zh-cn/blog/?p=11675 Continued]]> 在生成式 AI 時代,加速網絡對于為大規模分布式 AI 工作負載構建高性能計算結構至關重要。NVIDIA 在該領域繼續保持領先地位,提供先進的以太網和 InfiniBand 解決方案,可最大限度地提高 AI 工廠和云數據中心的性能和效率。 這些解決方案的核心是 NVIDIA SuperNIC,一種經過優化的新型網絡加速器,可為超大規模 AI 工作負載提供支持。這些 SuperNIC 是 NVIDIA Spectrum-X 以太網和 Quantum-X800 InfiniBand 網絡平臺的關鍵組件,旨在提供前所未有的可擴展性和性能。 NVIDIA SuperNIC 產品組合中的最新成員 ConnectX-8 SuperNIC 與 BlueField-3 SuperNIC 一起,共同推動加速的大規模 AI 計算結構的新一輪創新浪潮。

Source

]]>
11675
NVIDIA Spectrum-X 加速大規模 AI 工作負載優化 http://www.open-lab.net/zh-cn/blog/optimize-large-scale-ai-workloads-with-nvidia-spectrum-x/ Tue, 27 Aug 2024 07:34:09 +0000 http://www.open-lab.net/zh-cn/blog/?p=11104 Continued]]> 在當今迅速發展的技術格局中,保持領先地位不僅僅是一個目標——這是一個必要條件。創新浪潮,尤其是 AI 領域的創新,正在推動整個技術堆棧的巨大變革。 見證深刻變革的一個領域是以太網(Ethernet)網絡,這是數字通信的基石,數十年來一直是企業和數據中心環境的基礎。 如今,每個數據中心都在加速,以支持現代 AI 工作負載,從而增加了對支持這些工作負載的基礎設施的需求。許多企業已經非常熟悉 Ethernet,將其作為可信網絡標準。然而,他們缺乏一種解決方案來充分支持使用 Ethernet 協議的 AI 工作負載的特性。 NVIDIA 的創新愿望通常是出于對理解和響應客戶不斷變化的需求的深刻承諾,確保我們的解決方案不僅滿足而且可以預測并超過預期。 進入 NVIDIA Spectrum-X 時代,NVIDIA Spectrum-X 是全球首款高性能以太網結構,

Source

]]>
11104
借助 NVIDIA DOCA 2.7 增強 AI 云數據中心和 NVIDIA Spectrum-X http://www.open-lab.net/zh-cn/blog/enhancing-ai-cloud-data-centers-and-nvidia-spectrum-x-with-nvidia-doca-2-7/ Thu, 23 May 2024 04:51:03 +0000 http://www.open-lab.net/zh-cn/blog/?p=10093 Continued]]> 我們通過 NVIDIA DOCA 加速框架,為開發者提供了豐富的庫、驅動和 API,以創建高性能應用程序和服務,支持 NVIDIA BlueField 數據處理器 (DPU) 和 SuperNIC。DOCA 2.7 是一個功能豐富的全面版本,進一步擴展了 DOCA 軟件框架的范圍和價值,提供了多個新的庫、一站式應用和功能齊全的服務。 DOCA 2.7 擴展了 BlueField DPU 在數據中心內卸載、加速和隔離網絡、存儲、安全和管理基礎設施方面的能力。該版本還進一步增強了 AI 云數據中心,并通過 NVIDIA Spectrum-X 網絡平臺,為 AI 工作負載提供了卓越的性能。 本文中詳細介紹的版本亮點包括: DOCA 2.7 為以太網 AI 云部署啟用 NVIDIA Spectrum-X 1.0.1 (SPC-X 1.0.1) 參考架構。此架構經過嚴格測試,

Source

]]>
10093
借助加速以太網網絡和網絡存儲擴展企業 RAG http://www.open-lab.net/zh-cn/blog/scaling-enterprise-rag-with-accelerated-ethernet-networking-and-networked-storage/ Mon, 18 Mar 2024 04:50:31 +0000 http://www.open-lab.net/zh-cn/blog/?p=9282 Continued]]> 在生成式人工智能中,機器不僅可以從數據中學習,還可以生成類似人類的文本、圖像、視頻等。檢索增強生成 (RAG) 是一種突破性的方法。 RAG 工作流程基于 大型語言模型(LLM),可以理解查詢并生成響應。但是,LLM 存在局限性,包括訓練復雜性和缺乏當前 (有時是專有) 信息。此外,當未根據特定數據進行訓練以回答提示時,它們往往會產生幻覺并合成事實錯誤的信息。RAG 通過向 LLM 提供企業特定信息來增強查詢,以幫助克服這些限制。 在本文中,我們討論了 RAG 如何助力企業為各種企業用例創建高質量、相關且引人入勝的內容。我們深入探討了擴展 RAG 以處理大量數據和用戶所面臨的技術挑戰,以及如何使用由 NVIDIA GPU 計算、加速以太網網絡、網絡存儲和 AI 軟件提供支持的可擴展架構來應對這些挑戰。 典型的 RAG 工作流程使用 向量數據庫,

Source

]]>
9282
對 NVIDIA Spectrum-X 進行 AI 網絡性能基準測試,現已可從 Supermicro 獲取 http://www.open-lab.net/zh-cn/blog/benchmarking-nvidia-spectrum-x-for-ai-network-performance-now-available-from-supermicro/ Thu, 22 Feb 2024 07:10:45 +0000 http://www.open-lab.net/zh-cn/blog/?p=9061 Continued]]> NVIDIA Spectrum-X 網絡平臺作為超大規模云基礎設施中的 AI 量身打造的領先網絡平臺,NVIDIA 正在迅速獲得吸引力。Spectrum-X 網絡技術幫助企業客戶加速生成式 AI 工作負載。NVIDIA 宣布,該平臺在 2023 年 11 月新聞稿 以及由 Spectrum-X 提供支持的 NVIDIA Israel-1 超級計算機的更新。 NVIDIA 現在宣布 Supermicro 已作為 Spectrum-X 平臺的 OEM 合作伙伴加入。Spectrum-X 將納入 Supermicro GPU 超級服務器,提供 4U、5U 和 8U 外形尺寸,并將支持 NVIDIA GPU 在 NVIDIA HGX H100,NVIDIA H100 和 NVIDIA L40S PCIe 外形規格。 這些 Supermicro 系統通過提供出色的網絡性能、

Source

]]>
9061
人人超碰97caoporen国产