NVLink – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 22 May 2025 06:59:46 +0000
zh-CN
hourly
1
196178272 -
借助 NVIDIA NVLink Fusion 將半自定義計算集成到機架級架構中
http://www.open-lab.net/zh-cn/blog/integrating-custom-compute-into-rack-scale-architecture-with-nvidia-nvlink-fusion/
Sun, 18 May 2025 06:19:43 +0000
http://www.open-lab.net/zh-cn/blog/?p=13944
Continued]]>
數據中心正在重新構建,以高效交付 AI 工作負載。這是一項非常復雜的工作,NVIDIA 目前正在提供基于 NVIDIA 機架級架構的 AI 工廠。為了為 AI 工廠提供最佳性能,許多加速器需要以更大的帶寬和更低的延遲在機架規模上協同工作,以最節能的方式支持盡可能多的用戶。 設計滿足這些需求的機架會帶來許多技術挑戰。人們需要高密度的加速器、網絡接口卡 (NICs) 、交換機以及縱向擴展和橫向擴展結構,這些結構都緊密互聯。密集配置對于提供當今 AI 所需的高計算和背板帶寬至關重要。 傳統的風冷方法通常不足以滿足此類密集部署的需求,因此需要高密度液冷機架,例如 NVIDIA GB300 NVL72 或使用 NVIDIA NVLink 高速縱向擴展互聯技術的 NVIDIA GB200 NVL72。圖 1 說明了 NVLink 和更大的縱向擴展域如何提供最佳性能。
Source
]]>
13944
-
借助 NVIDIA MGX 為 AI 工廠奠定模塊化基礎
http://www.open-lab.net/zh-cn/blog/building-the-modular-foundation-for-ai-factories-with-nvidia-mgx/
Fri, 16 May 2025 06:57:05 +0000
http://www.open-lab.net/zh-cn/blog/?p=13968
Continued]]>
生成式 AI、 大語言模型 (LLMs) 和高性能計算的指數級增長給數據中心基礎設施帶來了前所未有的需求。傳統的服務器架構難以適應現代加速計算的功率密度、散熱要求和快速迭代周期。 本文將介紹 NVIDIA MGX 的優勢,這是一種用于加速計算的模塊化參考架構,正在重新定義企業和云提供商構建可擴展 AI 工廠的方式。 借助 NVIDIA MGX,合作伙伴可以使用構建塊方法設計多個系統,從而節省開發成本和上市時間。NVIDIA MGX 旨在支持多代產品,并支持適用于 AI、高性能計算 (HPC) 和 數字孿生 的數百種 GPU、DPU、CPU、存儲和網絡組合。 推動采用 NVIDIA MGX 的三大趨勢: 基于這些趨勢,標準化和穩定的架構 (如 MGX) 可確保可靠、兼容的服務器部署,在不犧牲互操作性的情況下支持不斷變化的性能需求。
Source
]]>
13968
-
NVIDIA Blackwell 在 MLPerf Inference v5.0 中實現巨大的性能飛躍
http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-massive-performance-leaps-in-mlperf-inference-v5-0/
Wed, 02 Apr 2025 05:32:46 +0000
http://www.open-lab.net/zh-cn/blog/?p=13408
Continued]]>
在不斷增長的模型大小、實時延遲要求以及最近的 AI 推理的推動下, 大語言模型 (LLM) 推理的計算需求正在快速增長。與此同時,隨著 AI 采用率的增長, AI 工廠 能否為盡可能多的用戶提供服務,同時保持良好的每位用戶體驗,是更大限度地提高其價值的關鍵。要在最新模型上實現高推理吞吐量和低推理延遲,需要在涵蓋芯片、網絡系統和軟件的整個技術堆棧中表現出色。 MLPerf Inference v5.0 是長期運行的基準套件中的最新版本,可測量一系列不同模型和用例的推理吞吐量。于 2019 年首次推出的 MLPerf Inference 不斷更新新的模型和場景,以確保它仍然是衡量 AI 計算平臺推理性能的有用工具。 本輪測試新增三個新的基準測試: 這些新基準測試加入了涵蓋各種模型和用例的眾多返回基準測試:ResNet-50、RetinaNet、3D U-Net、DLRMv2、
Source
]]>
13408
-
NVIDIA 硅光網絡交換開啟數據中心網絡新時代
http://www.open-lab.net/zh-cn/blog/a-new-era-in-data-center-networking-with-nvidia-silicon-photonics-based-network-switching/
Thu, 27 Mar 2025 05:27:03 +0000
http://www.open-lab.net/zh-cn/blog/?p=13405
Continued]]>
NVIDIA 通過將硅光技術直接與 NVIDIA Quantum 和 NVIDIA Spectrum 交換機 IC 集成,開辟了新的領域。在 GTC 2025 上,我們推出了全球領先的硅光交換機系統,采用先進的 200G SerDes 技術,與傳統的可插拔光模塊相比,這種創新的硅光一體封裝技術具有顯著的優勢,例如3.5 倍的能耗降低、延遲的降低、以及顯著的網絡可靠性提升等,這些都是加速大規模 AI 模型開發和推理的關鍵因素。 硅光一體化封裝技術是硬件集成的一次演進。通過將硅光光收發器直接與交換機 IC 封裝在一起,NVIDIA 實現了: 降低功耗:與傳統的可插拔光模塊相比,硅光一體化封裝可實現3.5 倍的大幅功耗降低。通過消除耗電的外部 DSP 器件和將信號路徑從英寸縮小到毫米,這項突破性技術可顯著提高能效。這種更密集、更可持續的 AI 基礎設施,將推動更快的系統可見性和擴展性,
Source
]]>
13405
-
借助 NVIDIA Mission Control 實現 AI 工廠自動化
http://www.open-lab.net/zh-cn/blog/automating-ai-factory-operations-with-nvidia-mission-control/
Tue, 25 Mar 2025 08:51:04 +0000
http://www.open-lab.net/zh-cn/blog/?p=13363
Continued]]>
DeepSeek-R1 等先進的 AI 模型證明,企業現在可以構建專用于自己的數據和專業知識的尖端 AI 模型。這些模型可以根據獨特的用例進行定制,以前所未有的方式應對各種挑戰。 基于早期 AI 采用者的成功,許多組織正在將重點轉移到全面生產的 AI 工廠 。然而,創建高效 AI 工廠的過程復雜且耗時,并且不同于構建特定于垂直行業的 AI 的目標。 它涉及到樓宇自動化,用于調配和管理復雜的基礎設施,在最新平臺上維護具有專業技能的站點可靠性工程師(SRE)團隊,以及大規模開發流程以實現超大規模的效率。此外,開發者需要一種方法來利用 AI 基礎設施的強大功能,同時具備超大規模數據中心的敏捷性、效率和規模,同時避免成本、復雜性和專業知識等方面的負擔。 本文將介紹 NVIDIA Mission Control (一個為使用 NVIDIA 參考架構構建的 AI…
Source
]]>
13363
-
AI 推理時代的 NVIDIA Blackwell Ultra
http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-ultra-for-the-era-of-ai-reasoning/
Wed, 19 Mar 2025 08:34:58 +0000
http://www.open-lab.net/zh-cn/blog/?p=13254
Continued]]>
多年來,AI 的進步一直通過預訓練擴展遵循清晰的軌跡:更大的模型、更多的數據和更豐富的計算資源帶來了突破性的功能。在過去 5 年中,預訓練擴展使計算需求以驚人的速度增加了 50M 倍。但是,構建更智能的系統不再只是預訓練更大的模型。相反,它是關于改進它們并讓它們思考。 通過將 AI 模型優化為專門任務,后訓練擴展可改進模型,以提供更多對話式響應。使用特定領域的合成數據調整模型,可增強其理解細微上下文并提供準確輸出的能力。合成數據生成作為訓練模型的可用內容沒有上限,這意味著在后訓練擴展中需要大量計算資源。 現在,一種增強智能的新 縮放定律 已經出現:測試時縮放(test-time scaling)。 測試時擴展也稱為 長思考 ,可在 AI 推理過程中動態增加計算量,從而實現更深入的推理。AI 推理模型不僅能一次性生成答案,還能積極思考、權衡多種可能性,并實時優化答案。
Source
]]>
13254
-
借助 NVIDIA 全棧解決方案提升 AI 推理性能
http://www.open-lab.net/zh-cn/blog/optimize-ai-inference-performance-with-nvidia-full-stack-solutions/
Tue, 24 Dec 2024 05:43:02 +0000
http://www.open-lab.net/zh-cn/blog/?p=12923
Continued]]>
AI 驅動的應用的爆炸式發展對開發者提出了前所未有的要求,他們必須在提供先進的性能與管理運營復雜性和成本以及 AI 基礎設施之間取得平衡。 NVIDIA 正在為開發者提供涵蓋芯片、系統和軟件的全棧創新,重新定義 AI 推理 的可能性,使其比以往更快、更高效、更具可擴展性。 六年前,NVIDIA 著手打造 AI 推理服務器,專為構建高吞吐量、延遲關鍵型生產應用的開發者而設計。當時,許多開發者都在努力使用定制的、特定于框架的服務器,這些服務器增加了復雜性,增加了運營成本,并且難以滿足嚴格的服務水平協議(service-level agreements)關于延遲和吞吐量的要求。 為解決這一問題,NVIDIA 開發了 NVIDIA Triton Inference Server ,這是一個開源平臺,能夠為來自任何 AI 框架的模型提供服務。通過整合特定于框架的推理服務器,
Source
]]>
12923
-
RAPIDS 與 Dask 結合實現多 GPU 數據分析的高效實踐指南
http://www.open-lab.net/zh-cn/blog/best-practices-for-multi-gpu-data-analysis-using-rapids-with-dask/
Thu, 21 Nov 2024 06:58:04 +0000
http://www.open-lab.net/zh-cn/blog/?p=12161
Continued]]>
隨著我們向更密集的計算基礎設施邁進,擁有更多的計算、更多的 GPU、加速網絡等,多 GPU 訓練和分析變得越來越流行。隨著開發者和從業者從 CPU 集群轉向 GPU 集群,我們需要工具和最佳實踐。RAPIDS 是一套開源的 GPU 加速數據科學和 AI 庫。借助 Spark 和 Dask 等工具,這些庫可以輕松地針對更大的工作負載進行橫向擴展。本博文簡要概述了 RAPIDS Dask,并重點介紹了多 GPU 數據分析的三種最佳實踐。 在使用 GPU 實現最高性能時,用戶通常會面臨內存壓力和穩定性問題。雖然 GPU 在計算方面比 CPU 更強大,但與系統內存相比,GPU 的內存通常更少。例如,GPU 工作負載通常在核外場景中執行,此時 GPU 內存小于一次處理工作負載所需的內存總量。此外,CUDA 生態系統提供了 多種類型的內存 ,用于不同的目的和應用。
Source
]]>
12161
-
NVSwitch 和 TensorRT-LLM MultiShot 共同加速 AllReduce 速度達 3 倍
http://www.open-lab.net/zh-cn/blog/3x-faster-allreduce-with-nvswitch-and-tensorrt-llm-multishot/
Fri, 01 Nov 2024 09:11:33 +0000
http://www.open-lab.net/zh-cn/blog/?p=11840
Continued]]>
在用戶數量可能在數百到數十萬之間波動,且輸入序列長度隨每個請求而變化的生產環境中,部署生成式 AI 工作負載會面臨獨特的挑戰。要在這些環境中實現低延遲推理,無論 GPU 生成方式或顯存容量如何,多 GPU 設置都是必需的。為了提高生產級設置中的推理性能,我們很高興推出 TensorRT-LLM Multi-shot,這是一種新的多 GPU 通信協議,利用 NVIDIA NVLink Switch 可將通信速度大幅提升高達 3 倍。本博客概述了這一新功能,以及它如何幫助開發者和解決方案架構師克服傳統多 GPU 通信方法的限制。 對于低延遲推理,無論單個 GPU 的顯存容量如何,多 GPU 都至關重要。但是,在低并發情況下,GPU 花在交換數據上的時間可能超過花在計算上的時間。為了獲得最佳性能, 高效的 AllReduce 操作 –結合每個參與其中的 GPU 的部分結果的集合操作…
Source
]]>
11840
-
將 AI-RAN 引入您附近的電信公司
http://www.open-lab.net/zh-cn/blog/bringing-ai-ran-to-a-telco-near-you/
Tue, 08 Oct 2024 07:54:36 +0000
http://www.open-lab.net/zh-cn/blog/?p=11453
Continued]]>
生成式 AI 和 AI 智能體的推理將推動 AI 計算基礎設施從邊緣分配到中央云的需求。 IDC 預測 ,“商業 AI (消費者除外) 將為全球經濟貢獻 19.9 萬億美元,并占 GDP 的 3.5% 直到 2030 年。” 5G 網絡還必須不斷發展,以服務于新傳入的人工智能流量。在此過程中,電信公司有機會成為托管企業人工智能工作負載的本地人工智能計算基礎設施,獨立于網絡連接,同時滿足其數據隱私和主權要求。這是加速計算基礎設施的亮點所在,能夠加速無線電信號處理和人工智能工作負載。最重要的是,相同的計算基礎設施可用于處理人工智能和無線電接入網(RAN)服務。這種組合被電信行業稱為 AI-RAN 。 NVIDIA 正在推出 Aerial RAN Computer-1,這是全球首個 AI-RAN 部署平臺,可以在通用加速基礎設施上同時服務 AI 和 RAN 工作負載。
Source
]]>
11453
-
借助 NVIDIA 集合通信庫實現顯存高效、快速初始化和成本估算優化 2.22
http://www.open-lab.net/zh-cn/blog/memory-efficiency-faster-initialization-and-cost-estimation-with-nvidia-collective-communications-library-2-22/
Mon, 16 Sep 2024 07:29:51 +0000
http://www.open-lab.net/zh-cn/blog/?p=11260
Continued]]>
在過去幾個月中,NVIDIA 集合通信庫(NCCL)開發者一直在努力開發一系列新的庫功能和錯誤修復。在本文中,我們將討論 NCCL 2.22 版本的詳細信息以及解決的痛點。 NVIDIA Magnum IO NCCL 是一個旨在優化 GPU 之間和多節點通信的庫,對于 AI 和 HPC 應用中的高效并行計算至關重要。這次版本的價值在于其新的特點: 在本節中,我們將深入探討每個新功能的詳細信息: NCCL 使用一組靜態分配的持久性連接和緩沖區,以運行其即時數據傳輸協議。對于 NCCL 支持的每種給定算法和協議,它都會創建一組單獨的連接和緩沖區,每個連接和緩沖區都需要數 MB 的 GPU 內存。 作為參考,算法定義了給定集合的參與者之間的高級數據移動,協議定義了 NCCL 發送數據的方式。根據操作、消息大小、規模和拓撲結構,選擇給定的算法和協議,
Source
]]>
11260
-
利用 NVIDIA Magnum IO NVSHMEM 3.0 實現跨平臺應用程序的可移植性和兼容性增強
http://www.open-lab.net/zh-cn/blog/enhancing-application-portability-and-compatibility-across-new-platforms-using-nvidia-magnum-io-nvshmem-3-0/
Fri, 06 Sep 2024 09:04:14 +0000
http://www.open-lab.net/zh-cn/blog/?p=11311
Continued]]>
NVSHMEM 是一個并行編程接口,可為 NVIDIA GPU 集群提供高效且可擴展的通信。NVSHMEM 是 NVIDIA Magnum IO 的一部分,基于 OpenSHMEM,可為跨越多個 GPU 內存的數據創建全局地址空間,并可通過細粒度的 GPU 初始化操作、CPU 初始化操作和 CUDA 流操作進行訪問。 現有的通信模型(例如 Message Passing Interface(MPI))使用 CPU 編排數據傳輸。相比之下,NVSHMEM 使用 GPU 發起的異步數據傳輸,從而消除 CPU 和 GPU 之間的同步開銷。 本文將詳細介紹NVSHMEM 3.0版本,包括我們在各個平臺和系統中啟用的新功能和支持。 NVSHMEM 3.0 引入了多節點、多互連支持、主機設備 ABI 向后兼容性和 CPU 輔助 InfiniBand GPU…
Source
]]>
11311
-
NVIDIA NVLink 和 NVIDIA NVSwitch 加速大語言模型推理性能
http://www.open-lab.net/zh-cn/blog/nvidia-nvlink-and-nvidia-nvswitch-supercharge-large-language-model-inference/
Mon, 12 Aug 2024 07:03:12 +0000
http://www.open-lab.net/zh-cn/blog/?p=10993
Continued]]>
大型語言模型(LLM)越來越大,增加了處理推理請求所需的計算量。為了滿足服務當今LLM的實時延遲要求,并為盡可能多的用戶提供服務,多GPU計算是必不可少的。這不僅能夠降低延遲,提高用戶體驗,還能夠提高吞吐量,降低服務成本。兩者同時重要。 即使大型模型可以裝入單個state-of-the-art GPU的內存中,該GPU生成令牌的速率也取決于可用于處理請求的總計算量。通過結合多個state-of-the-art GPU的計算能力,可以實現最新模型的實時用戶體驗。 為了解對每秒高令牌的需求,以下 GIF 展示了兩種情況: 通過使用多個 GPU 的組合計算性能和張量并行 (TP) 等技術來運行大型模型,可以快速處理推理請求,從而實現實時響應。通過精心選擇用于運行模型的 GPU 數量,云推理服務還可以同時優化用戶體驗和成本。
Source
]]>
10993
-
NVIDIA 在 MLPerf Training v4.0 中創造了新的生成式 AI 性能和規模記錄
http://www.open-lab.net/zh-cn/blog/nvidia-sets-new-generative-ai-performance-and-scale-records-in-mlperf-training-v4-0/
Wed, 12 Jun 2024 06:26:36 +0000
http://www.open-lab.net/zh-cn/blog/?p=10340
Continued]]>
生成式 AI 模型具有多種用途,例如幫助編寫計算機代碼、創作故事、作曲、生成圖像、制作視頻等。而且,隨著這些模型的大小不斷增加,并且使用更多數據進行訓練,它們將產生更高質量的輸出。 構建和部署這些更智能的模型需要非常大的計算量,需要許多高性能處理器并行工作,并由高效、通用的軟件進行編排。 例如,Meta 宣布訓練其最新的 Llama 3 系列中的 大語言模型(LLMs),使用搭載 24,576 個 NVIDIA H100 Tensor Core GPUs 的人工智能集群。模型越大,Llama 3 70B 就需要總計6.4 million H100 GPU-hours進行訓練。 預訓練 LLM 后,可以通過各種技術包括模型微調,以提高特定任務的準確性。隨著企業開始在各種應用中采用 LLM,LLM 微調正迅速成為核心行業工作負載。 AI 訓練是一項全棧挑戰,
Source
]]>
10340
-
使用 WholeGraph 優化圖形神經網絡的內存和檢索,第 2 部分
http://www.open-lab.net/zh-cn/blog/optimizing-memory-and-retrieval-for-graph-neural-networks-with-wholegraph-part-2/
Wed, 03 Apr 2024 07:42:42 +0000
http://www.open-lab.net/zh-cn/blog/?p=9439
Continued]]>
大規模圖形神經網絡 (GNN) 訓練帶來了艱巨的挑戰,特別是在圖形數據的規模和復雜性方面。這些挑戰不僅涉及神經網絡的正向和反向計算的典型問題,還包括帶寬密集型圖形特征收集和采樣以及單個 GPU 容量限制等問題。 在上一篇文章中,WholeGraph 被作為 RAPIDS cuGraph 庫中的一項突破性功能,旨在優化大規模 GNN 訓練的內存存儲和檢索。 在我的簡介文章奠定的基礎上,本文將更深入地探討 WholeGraph 的性能評估。我的重點還擴展到它作為存儲庫和 GNN 任務促進器的作用。借助 NVIDIA NVLink 技術的強大功能,我將探討 WholeGraph 如何應對 GPU 間通信帶寬的挑戰,有效打破通信瓶頸并簡化數據存儲。 通過檢查其性能和實際應用,我的目標是展示 WholeGraph 在克服大規模 GNN 訓練中固有障礙方面的有效性。
Source
]]>
9439
人人超碰97caoporen国产