GB200 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 25 Jun 2025 05:22:11 +0000 zh-CN hourly 1 196178272 搶先體驗 NVIDIA GB200 系統如何幫助 LMarena 構建評估 LLM 的模型 http://www.open-lab.net/zh-cn/blog/how-early-access-to-nvidia-gb200-systems-helped-lmarena-build-a-model-to-evaluate-llms/ Wed, 18 Jun 2025 04:42:15 +0000 http://www.open-lab.net/zh-cn/blog/?p=14375 Continued]]> 在 NVIDIA 和 Nebius 的幫助下,加州大學伯克利分校的 LMArena 可以更輕松地了解哪些大語言模型在特定任務中表現出色。該公司的排名由 Prompt-to-Leaderboard (P2L) 模型提供支持,可從人類那里收集 AI 在數學、編碼或創意寫作等領域的最佳表現方面的投票。 LMarena 聯合創始人、加州大學伯克利分校博士生 Wei-Lin Chiang 表示:“我們捕捉用戶在任務中的偏好,并應用 Bradley-Terry 系數來確定哪個模型在每個領域表現最好。過去兩年,LMArena (以前稱為 LMSys) 一直在開發 P2L。 LMArena 正在使用 NVIDIA DGX 云和 Nebius AI Cloud 大規模部署 P2L。此次合作以及 LMArena 對 NVIDIA GB200 NVL72 的使用,

Source

]]>
14375
NVIDIA GB200 NVL72 和 NVIDIA Dynamo 如何提升 MoE 模型的推理性能 http://www.open-lab.net/zh-cn/blog/how-nvidia-gb200-nvl72-and-nvidia-dynamo-boost-inference-performance-for-moe-models/ Fri, 06 Jun 2025 05:19:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=14403 Continued]]> 最新一批開源大語言模型 (LLMs) 采用了 Mixture of Experts (MoE) 架構,如 DeepSeek R1、Llama 4 和 Qwen3。與傳統的密集模型不同,MoE 在推理期間僅激活專門參數的子集 (稱為專家參數) 。這種選擇性激活可減少計算開銷,從而縮短推理時間并降低部署成本。 當與 NVIDIA Dynamo 的推理優化技術 (例如分解服務) 和 NVIDIA GB200 NVL72 的縱向擴展架構的大域相結合時,MoE 模型可以從復合效應中受益,從而將推理效率提升到新的水平。這種協同作用可以顯著增加 AI 工廠的利潤,使它們能夠在不犧牲用戶體驗的情況下,為每個 GPU 提供更多的用戶請求。 本博客借鑒了我們最近的研究成果,其中我們使用高保真數據中心級GPU性能模擬器評估了不同硬件配置中的數十萬個設計點。我們分析了分解和寬模型并行對MoE吞吐量的影響。

Source

]]>
14403
NVIDIA Blackwell 在 MLPerf Training v5.0 中實現高達 2.6 倍的性能提升 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-up-to-2-6x-higher-performance-in-mlperf-training-v5-0/ Wed, 04 Jun 2025 06:53:24 +0000 http://www.open-lab.net/zh-cn/blog/?p=14119 Continued]]> 創建先進的大語言模型 (LLM) 的過程始于預訓練過程。預訓練最先進的模型具有很高的計算要求,因為熱門的開放權重模型具有數百億到數千億個參數,并使用數萬億個令牌進行訓練。模型智能隨著模型參數數量和訓練數據集大小的增加而增長,訓練模型所需的計算量也在增加,因此需要更高性能的訓練集群來解鎖更智能、更強大的模型,同時控制訓練時間。 預訓練模型后,可以對其進行后訓練,以進一步增強其功能。例如,企業可以使用自己的專有數據集定制預訓練模型,以提高該組織特定用例的知識水平和響應準確性。其他后訓練技術可用于增加支持的上下文長度,以及增強具有推理能力的模型。總體而言,雖然單個模型的后訓練計算密集程度可能比現在的預訓練模型低,但隨著研究人員尋找提高模型能力的新方法,以及許多組織可以自定義模型,后訓練模型的計算密集程度也在快速增長。 MLPerf Training v5.0…

Source

]]>
14119
NVIDIA 800V HVDC 架構賦能新一代 AI 工廠發展 http://www.open-lab.net/zh-cn/blog/nvidia-800-v-hvdc-architecture-will-power-the-next-generation-of-ai-factories/ Tue, 20 May 2025 05:13:26 +0000 http://www.open-lab.net/zh-cn/blog/?p=13923 Continued]]> AI 工作負載的指數級增長正在增加數據中心的功率需求。傳統的 54 V 機架內配電專為千瓦(KW)-scale 機架設計,無法支持即將進入現代 AI 工廠的兆瓦(MW)-scale 機架。 從 2027 年開始,NVIDIA 正在率先向 800 V HVDC 數據中心電力基礎設施過渡,以支持 1 MW 及以上的 IT 機架。為了加速采用,NVIDIA 正在與數據中心電氣生態系統中的主要行業合作伙伴合作,包括: 該計劃將推動創新,旨在為新一代 AI 工作負載建立高效、可擴展的供電,以確保提高可靠性并降低基礎設施復雜性。 如今, AI 工廠的機架依賴于 54 V DC 電源,其中笨重的 copper busbars 將電力從機架式電源架傳輸到計算托盤。當機架功率超過 200 kilowatts 時,這種方法開始達到物理極限:

Source

]]>
13923
NVIDIA Blackwell 在 MLPerf Inference v5.0 中實現巨大的性能飛躍 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-massive-performance-leaps-in-mlperf-inference-v5-0/ Wed, 02 Apr 2025 05:32:46 +0000 http://www.open-lab.net/zh-cn/blog/?p=13408 Continued]]> 在不斷增長的模型大小、實時延遲要求以及最近的 AI 推理的推動下, 大語言模型 (LLM) 推理的計算需求正在快速增長。與此同時,隨著 AI 采用率的增長, AI 工廠 能否為盡可能多的用戶提供服務,同時保持良好的每位用戶體驗,是更大限度地提高其價值的關鍵。要在最新模型上實現高推理吞吐量和低推理延遲,需要在涵蓋芯片、網絡系統和軟件的整個技術堆棧中表現出色。 MLPerf Inference v5.0 是長期運行的基準套件中的最新版本,可測量一系列不同模型和用例的推理吞吐量。于 2019 年首次推出的 MLPerf Inference 不斷更新新的模型和場景,以確保它仍然是衡量 AI 計算平臺推理性能的有用工具。 本輪測試新增三個新的基準測試: 這些新基準測試加入了涵蓋各種模型和用例的眾多返回基準測試:ResNet-50、RetinaNet、3D U-Net、DLRMv2、

Source

]]>
13408
借助 NVIDIA Mission Control 實現 AI 工廠自動化 http://www.open-lab.net/zh-cn/blog/automating-ai-factory-operations-with-nvidia-mission-control/ Tue, 25 Mar 2025 08:51:04 +0000 http://www.open-lab.net/zh-cn/blog/?p=13363 Continued]]> DeepSeek-R1 等先進的 AI 模型證明,企業現在可以構建專用于自己的數據和專業知識的尖端 AI 模型。這些模型可以根據獨特的用例進行定制,以前所未有的方式應對各種挑戰。 基于早期 AI 采用者的成功,許多組織正在將重點轉移到全面生產的 AI 工廠 。然而,創建高效 AI 工廠的過程復雜且耗時,并且不同于構建特定于垂直行業的 AI 的目標。 它涉及到樓宇自動化,用于調配和管理復雜的基礎設施,在最新平臺上維護具有專業技能的站點可靠性工程師(SRE)團隊,以及大規模開發流程以實現超大規模的效率。此外,開發者需要一種方法來利用 AI 基礎設施的強大功能,同時具備超大規模數據中心的敏捷性、效率和規模,同時避免成本、復雜性和專業知識等方面的負擔。 本文將介紹 NVIDIA Mission Control (一個為使用 NVIDIA 參考架構構建的 AI…

Source

]]>
13363
隆重推出 NVIDIA Dynamo:用于擴展推理AI模型的低延遲分布式推理框架 http://www.open-lab.net/zh-cn/blog/introducing-nvidia-dynamo-a-low-latency-distributed-inference-framework-for-scaling-reasoning-ai-models/ Tue, 18 Mar 2025 05:47:45 +0000 http://www.open-lab.net/zh-cn/blog/?p=13330 Continued]]> NVIDIA 今天在 GTC 2025 宣布發布 NVIDIA Dynamo 。NVIDIA Dynamo 是一個高吞吐量、低延遲的開源推理服務框架,用于在大規模分布式環境中部署生成式 AI 和推理模型。在 NVIDIA Blackwell 上運行開源 DeepSeek-R1 模型時,該框架最多可將請求數量提升 30 倍。NVIDIA Dynamo 與 PyTorch、SGLang 等開源工具兼容, NVIDIA TensorRT-LLM 和 vLLM,加入不斷擴大的推理工具社區,助力開發者和 AI 研究人員加速 AI。 NVIDIA Dynamo 引入了幾項關鍵創新,包括: 從今天開始,NVIDIA Dynamo 可供開發者在 ai-dynamo/dynamo GitHub 存儲庫中使用。對于希望縮短生產時間并獲得企業級安全性、支持和穩定性的企業,

Source

]]>
13330
借助 NVIDIA 全棧解決方案提升 AI 推理性能 http://www.open-lab.net/zh-cn/blog/optimize-ai-inference-performance-with-nvidia-full-stack-solutions/ Tue, 24 Dec 2024 05:43:02 +0000 http://www.open-lab.net/zh-cn/blog/?p=12923 Continued]]> AI 驅動的應用的爆炸式發展對開發者提出了前所未有的要求,他們必須在提供先進的性能與管理運營復雜性和成本以及 AI 基礎設施之間取得平衡。 NVIDIA 正在為開發者提供涵蓋芯片、系統和軟件的全棧創新,重新定義 AI 推理 的可能性,使其比以往更快、更高效、更具可擴展性。 六年前,NVIDIA 著手打造 AI 推理服務器,專為構建高吞吐量、延遲關鍵型生產應用的開發者而設計。當時,許多開發者都在努力使用定制的、特定于框架的服務器,這些服務器增加了復雜性,增加了運營成本,并且難以滿足嚴格的服務水平協議(service-level agreements)關于延遲和吞吐量的要求。 為解決這一問題,NVIDIA 開發了 NVIDIA Triton Inference Server ,這是一個開源平臺,能夠為來自任何 AI 框架的模型提供服務。通過整合特定于框架的推理服務器,

Source

]]>
12923
NVIDIA Blackwell 在 MLPerf 訓練 v4.1 中將 LLM 訓練性能提高一倍 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-doubles-llm-training-performance-in-mlperf-training-v4-1/ Wed, 13 Nov 2024 07:46:17 +0000 http://www.open-lab.net/zh-cn/blog/?p=12054 Continued]]> 隨著模型規模的擴大以及使用更多數據進行訓練,它們的能力也隨之提升,實用性也隨之提升。為了快速訓練這些模型,需要在數據中心規模上提供更高的性能。NVIDIA Blackwell 平臺在 2024 年 GTC 大會上推出,現已全面投產,集成了七類芯片:GPU、CPU、DPU、NVLink Switch 芯片、InfiniBand Switch 和 Ethernet Switch。Blackwell 平臺在每個 GPU 的性能方面實現了巨大飛躍,旨在支持創建更大規模的 AI 集群,從而推動下一代 LLM 的開發。 在最新一輪的 MLPerf 訓練 (一套 AI 訓練基準測試) 中,NVIDIA 使用 Blackwell 平臺首次提交了基準測試預覽類別的測試結果。這些結果表明,在每個 MLPerf 訓練基準測試中,與基于 Hopper 的提交相比,每個加速器的提升幅度很大。

Source

]]>
12054
NVIDIA Grace CPU 實現全球頂級數據中心性能和突破性能效優勢 http://www.open-lab.net/zh-cn/blog/nvidia-grace-cpu-delivers-world-class-data-center-performance-and-breakthrough-energy-efficiency/ Wed, 09 Oct 2024 05:11:03 +0000 http://www.open-lab.net/zh-cn/blog/?p=11758 Continued]]> NVIDIA 將 NVIDIA Grace CPU 設計為一種新型高性能數據中心 CPU,旨在提供突破性的 能效 ,并針對數據中心規模的性能進行了優化。 與傳統 CPU 計算相比,加速計算在性能和能效方面實現了巨大的飛躍。為了實現這些加速,需要數據中心規模的全棧創新,涵蓋芯片、系統、軟件和算法。為適合的工作負載選擇合適的架構并提供出色的節能性能對于最大限度地提高數據中心的性能和最小化占用空間至關重要。 隨著工作負載的加速程度不斷提高,目前仍有一些用例主要在傳統 CPU 上運行,尤其是圖形分析等稀疏和“分支”序列化任務的代碼。與此同時,數據中心受到越來越多的電力限制,限制了其能力的增長。這意味著所有可以加速的工作負載都應該加速。那些無法加速的工作負載必須在盡可能高效的計算上運行,而 CPU 必須針對這些工作負載進行優化。

Source

]]>
11758
將 AI-RAN 引入您附近的電信公司 http://www.open-lab.net/zh-cn/blog/bringing-ai-ran-to-a-telco-near-you/ Tue, 08 Oct 2024 07:54:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=11453 Continued]]> 生成式 AI 和 AI 智能體的推理將推動 AI 計算基礎設施從邊緣分配到中央云的需求。 IDC 預測 ,“商業 AI (消費者除外) 將為全球經濟貢獻 19.9 萬億美元,并占 GDP 的 3.5% 直到 2030 年。” 5G 網絡還必須不斷發展,以服務于新傳入的人工智能流量。在此過程中,電信公司有機會成為托管企業人工智能工作負載的本地人工智能計算基礎設施,獨立于網絡連接,同時滿足其數據隱私和主權要求。這是加速計算基礎設施的亮點所在,能夠加速無線電信號處理和人工智能工作負載。最重要的是,相同的計算基礎設施可用于處理人工智能和無線電接入網(RAN)服務。這種組合被電信行業稱為 AI-RAN 。 NVIDIA 正在推出 Aerial RAN Computer-1,這是全球首個 AI-RAN 部署平臺,可以在通用加速基礎設施上同時服務 AI 和 RAN 工作負載。

Source

]]>
11453
人人超碰97caoporen国产