Blackwell – NVIDIA 技術博客

Blackwell – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞和內容。 Thu, 22 May 2025 07:49:58 +0000 zh-CN hourly 1 196178272 NVIDIA 800V HVDC 架構賦能新一代 AI 工廠發展 http://www.open-lab.net/zh-cn/blog/nvidia-800-v-hvdc-architecture-will-power-the-next-generation-of-ai-factories/ Tue, 20 May 2025 05:13:26 +0000 http://www.open-lab.net/zh-cn/blog/?p=13923 Continued]]> AI 工作負載的指數級增長正在增加數據中心的功率需求。傳統的 54 V 機架內配電專為千瓦（KW）-scale 機架設計，無法支持即將進入現代 AI 工廠的兆瓦（MW）-scale 機架。從 2027 年開始，NVIDIA 正在率先向 800 V HVDC 數據中心電力基礎設施過渡，以支持 1 MW 及以上的 IT 機架。為了加速采用，NVIDIA 正在與數據中心電氣生態系統中的主要行業合作伙伴合作，包括：該計劃將推動創新，旨在為新一代 AI 工作負載建立高效、可擴展的供電，以確保提高可靠性并降低基礎設施復雜性。如今， AI 工廠的機架依賴于 54 V DC 電源，其中笨重的 copper busbars 將電力從機架式電源架傳輸到計算托盤。當機架功率超過 200 kilowatts 時，這種方法開始達到物理極限：

]]>

13923

NVIDIA ConnectX-8 SuperNIC 通過 PCIe Gen6 連接推動 AI 平臺架構發展 http://www.open-lab.net/zh-cn/blog/nvidia-connectx-8-supernics-advance-ai-platform-architecture-with-pcie-gen6-connectivity/ Sun, 18 May 2025 06:34:44 +0000 http://www.open-lab.net/zh-cn/blog/?p=13955 Continued]]> 從大語言模型 (LLM) 到代理式 AI 推理和物理 AI ，隨著 AI 工作負載的復雜性和規模不斷增加，人們對更快、更可擴展的計算基礎設施的需求空前強烈。滿足這些需求需要從頭開始重新思考系統架構。 NVIDIA 正在通過 NVIDIA ConnectX-8 SuperNIC 推動平臺架構的發展。NVIDIA ConnectX-8 SuperNIC 是業內首款在單個設備中集成支持 PCIe Gen6 的交換機和超高速網絡的 SuperNIC。ConnectX-8 專為現代 AI 基礎架構設計，可提供更高的吞吐量，同時簡化系統設計并提高功耗和成本效益。在基于 PCIe 的平臺中，尤其是配備 8 個或更多 GPU 的平臺，PCIe 交換機對于更大限度地提高 GPU 間通信帶寬和實現可擴展的 GPU 拓撲至關重要。現有設計依賴于獨立的 PCIe 交換機，

]]>

13955

借助 NVIDIA MGX 為 AI 工廠奠定模塊化基礎 http://www.open-lab.net/zh-cn/blog/building-the-modular-foundation-for-ai-factories-with-nvidia-mgx/ Fri, 16 May 2025 06:57:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=13968 Continued]]> 生成式 AI、大語言模型 (LLMs) 和高性能計算的指數級增長給數據中心基礎設施帶來了前所未有的需求。傳統的服務器架構難以適應現代加速計算的功率密度、散熱要求和快速迭代周期。本文將介紹 NVIDIA MGX 的優勢，這是一種用于加速計算的模塊化參考架構，正在重新定義企業和云提供商構建可擴展 AI 工廠的方式。借助 NVIDIA MGX，合作伙伴可以使用構建塊方法設計多個系統，從而節省開發成本和上市時間。NVIDIA MGX 旨在支持多代產品，并支持適用于 AI、高性能計算 (HPC) 和數字孿生的數百種 GPU、DPU、CPU、存儲和網絡組合。推動采用 NVIDIA MGX 的三大趨勢：基于這些趨勢，標準化和穩定的架構 (如 MGX) 可確保可靠、兼容的服務器部署，在不犧牲互操作性的情況下支持不斷變化的性能需求。

]]>

13968

NVIDIA TensorRT 解鎖 NVIDIA Blackwell GeForce RTX 50 系列 GPU 的 FP4 圖像生成 http://www.open-lab.net/zh-cn/blog/nvidia-tensorrt-unlocks-fp4-image-generation-for-nvidia-blackwell-geforce-rtx-50-series-gpus/ Wed, 14 May 2025 07:41:19 +0000 http://www.open-lab.net/zh-cn/blog/?p=13997 Continued]]> NVIDIA Blackwell 平臺的推出開啟了生成式 AI 技術進步的新時代。其最前沿是新推出的 GeForce RTX 50 系列 GPU，適用于 PC 和工作站，配備具有 4 位浮點計算 (FP4) 的第五代 Tensor Cores，是加速 Black Forest Labs 的 FLUX 等高級生成式 AI 模型的必備。隨著新的圖像生成模型力求達到速度、準確性、更高分辨率和復雜的提示依從性，它們變得越來越大、越來越復雜。要在 PC 和工作站的本地推理中部署這些大型復雜模型，超越 16 位和 8 位計算的優勢在于。 Blackwell 與 NVIDIA TensorRT 推理工具軟件生態系統相結合，可提供易于使用的庫，這些庫支持用于推理的 FP4 量化和部署，具有出色的性能和質量。實現這一目標并非易事。為了利用 Blackwell 中的 4 位硬件創新，

]]>

13997

借助 NVIDIA RTX PRO Blackwell 臺式機 GPU 實現 Rivian 新一代XR 設計 http://www.open-lab.net/zh-cn/blog/powering-next-gen-xr-design-at-rivian-with-nvidia-rtx-pro-blackwell-desktop-gpus/ Tue, 06 May 2025 06:55:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=13838 Continued]]> 對于不斷突破 XR 界限的專業人士而言，打造身臨其境的高保真體驗始終充滿挑戰。在渲染大型數據集和驅動最新的超高分辨率高級 XR 頭顯設備時，要求嚴苛的 XR 工作流程突破了性能極限。同時集成先進的人工智能功能，提供更具交互性和直觀性的體驗，進一步提高了標準。雖然技術上存在挑戰，但這些因素正在推動硬件和軟件創新，以在汽車設計、建筑設計、制造等領域充分發揮 XR 的潛力。 NVIDIA RTX PRO Blackwell 臺式機 GPU 在 NVIDIA GTC 2025 上的發布標志著我們向前邁出了重要一步。這些新一代 GPU 具有高達 600W 的功率和 96 GB 的 GDDR7 顯存，增加了 Tensor 和 CUDA 核心，并且 PCIe Gen5 支持使用雙 GPU 的 VR-SLI 功能，這是一項重大進步。 RTX PRO Blackwell GPU…

]]>

13838

NVIDIA Blackwell 和 NVIDIA CUDA 12.9 引入基于系列的架構特性 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-and-nvidia-cuda-12-9-introduce-family-specific-architecture-features/ Thu, 01 May 2025 07:01:52 +0000 http://www.open-lab.net/zh-cn/blog/?p=13844 Continued]]> 最早進入 NVIDIA GPU CUDA 平臺的架構設計決策之一是支持 GPU 代碼的向后兼容性。這種設計意味著，新 GPU 應該能夠運行為之前的 GPU 編寫的程序，而無需進行修改。它由 CUDA 的兩個基本特性完成： PTX 是面向 NVIDIA GPU 的虛擬 ISA。您可以將其想象成組裝代碼，但它不限于特定的物理芯片硬件架構，其設計足夠通用，可以與未來的 GPU 架構兼容。自 NVIDIA 創建 CUDA 平臺使開發者能夠為 GPU 編寫通用程序以來，PTX 一直是 CUDA 不可或缺的一部分。為之前的 GPU 構建的 PTX 代碼可以由當前的驅動進行 JIT 編譯，并在當前的 GPU 上運行，無需修改。舉個例子。這是一段簡單的代碼，可打印 GPU 名稱和計算能力，還可從 GPU 內核內部打印 hello。當我們使用 CUDA 12.8…

]]>

13844

NVIDIA 加速推理 Meta Llama 4 Scout 與 Maverick 模型 http://www.open-lab.net/zh-cn/blog/nvidia-accelerates-inference-on-meta-llama-4-scout-and-maverick/ Sat, 05 Apr 2025 06:37:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=13527 Continued]]> 最新一代熱門 Llama AI 模型現已支持 Llama 4 Scout 和 Llama 4 Maverick。它們由 NVIDIA 開源軟件加速，在 NVIDIA Blackwell B200 GPU 上每秒可實現超過 40K 輸出 token，并可作為 NVIDIA NIM 微服務進行試用。 Llama 4 模型現在采用混合專家 (MoE) 架構，原生支持多模態和多語言。Llama 4 模型提供各種多模態功能，推動規模、速度和效率的提升，使您能夠打造更加個性化的體驗。 Llama 4 Scout 是一個 109B 參數模型，每個令牌活躍 17B，由 16 位專家組成，擁有 10M 上下文長度的窗口，并針對單個 NVIDIA H100 GPU 優化和量化為 int4。這支持各種用例，包括多文檔摘要、解析大量用戶活動以執行個性化任務，以及對大量代碼庫進行推理。

]]>

13527

NVIDIA Blackwell 在 MLPerf Inference v5.0 中實現巨大的性能飛躍 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-massive-performance-leaps-in-mlperf-inference-v5-0/ Wed, 02 Apr 2025 05:32:46 +0000 http://www.open-lab.net/zh-cn/blog/?p=13408 Continued]]> 在不斷增長的模型大小、實時延遲要求以及最近的 AI 推理的推動下，大語言模型 (LLM) 推理的計算需求正在快速增長。與此同時，隨著 AI 采用率的增長， AI 工廠能否為盡可能多的用戶提供服務，同時保持良好的每位用戶體驗，是更大限度地提高其價值的關鍵。要在最新模型上實現高推理吞吐量和低推理延遲，需要在涵蓋芯片、網絡系統和軟件的整個技術堆棧中表現出色。 MLPerf Inference v5.0 是長期運行的基準套件中的最新版本，可測量一系列不同模型和用例的推理吞吐量。于 2019 年首次推出的 MLPerf Inference 不斷更新新的模型和場景，以確保它仍然是衡量 AI 計算平臺推理性能的有用工具。本輪測試新增三個新的基準測試：這些新基準測試加入了涵蓋各種模型和用例的眾多返回基準測試：ResNet-50、RetinaNet、3D U-Net、DLRMv2、

]]>

13408

借助 NVIDIA Mission Control 實現 AI 工廠自動化 http://www.open-lab.net/zh-cn/blog/automating-ai-factory-operations-with-nvidia-mission-control/ Tue, 25 Mar 2025 08:51:04 +0000 http://www.open-lab.net/zh-cn/blog/?p=13363 Continued]]> DeepSeek-R1 等先進的 AI 模型證明，企業現在可以構建專用于自己的數據和專業知識的尖端 AI 模型。這些模型可以根據獨特的用例進行定制，以前所未有的方式應對各種挑戰。基于早期 AI 采用者的成功，許多組織正在將重點轉移到全面生產的 AI 工廠。然而，創建高效 AI 工廠的過程復雜且耗時，并且不同于構建特定于垂直行業的 AI 的目標。它涉及到樓宇自動化，用于調配和管理復雜的基礎設施，在最新平臺上維護具有專業技能的站點可靠性工程師（SRE）團隊，以及大規模開發流程以實現超大規模的效率。此外，開發者需要一種方法來利用 AI 基礎設施的強大功能，同時具備超大規模數據中心的敏捷性、效率和規模，同時避免成本、復雜性和專業知識等方面的負擔。本文將介紹 NVIDIA Mission Control (一個為使用 NVIDIA 參考架構構建的 AI…

]]>

13363

AI 推理時代的 NVIDIA Blackwell Ultra http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-ultra-for-the-era-of-ai-reasoning/ Wed, 19 Mar 2025 08:34:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=13254 Continued]]> 多年來，AI 的進步一直通過預訓練擴展遵循清晰的軌跡：更大的模型、更多的數據和更豐富的計算資源帶來了突破性的功能。在過去 5 年中，預訓練擴展使計算需求以驚人的速度增加了 50M 倍。但是，構建更智能的系統不再只是預訓練更大的模型。相反，它是關于改進它們并讓它們思考。通過將 AI 模型優化為專門任務，后訓練擴展可改進模型，以提供更多對話式響應。使用特定領域的合成數據調整模型，可增強其理解細微上下文并提供準確輸出的能力。合成數據生成作為訓練模型的可用內容沒有上限，這意味著在后訓練擴展中需要大量計算資源。現在，一種增強智能的新縮放定律已經出現：測試時縮放（test-time scaling）。測試時擴展也稱為長思考，可在 AI 推理過程中動態增加計算量，從而實現更深入的推理。AI 推理模型不僅能一次性生成答案，還能積極思考、權衡多種可能性，并實時優化答案。

]]>

13254

NVIDIA 虛擬 GPU 18.0 可在每個虛擬化平臺上實現適用于 AI 的 VDI http://www.open-lab.net/zh-cn/blog/nvidia-virtual-gpu-v18-0-enables-vdi-for-ai-on-every-virtualized-platform/ Wed, 19 Mar 2025 08:25:18 +0000 http://www.open-lab.net/zh-cn/blog/?p=13251 Continued]]> NVIDIA 虛擬 GPU (vGPU) 技術可在虛擬桌面基礎架構 (VDI) 中解鎖 AI 功能，使其比以往更加強大、用途更加廣泛。通過跨虛擬化環境為 AI 驅動的工作負載提供支持，vGPU 可提高工作效率、增強安全性并優化性能。新版軟件可助力企業和開發者進一步推動創新、轉變工作流程，并更大限度地發揮加速計算的潛力。本文將介紹 NVIDIA vGPU 18.0 版本亮點，包括擴展受支持的生態系統平臺、新的 AI vWS 工具包以及針對 GPU 利用率的增強功能。 NVIDIA vGPU 18.0 支持 Microsoft Windows Server 2025，使用戶能夠利用 GPU 分區和跨分布式環境實時遷移等高級管理功能。借助這些功能，用戶可以高效管理多個工作負載、執行硬件維護和升級軟件，而無需中斷虛擬機。此外，NVIDIA vGPU 18.0…

]]>

13251

NVIDIA Blackwell 實現世界紀錄的 DeepSeek-R1 推理性能 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-world-record-deepseek-r1-inference-performance/ Tue, 18 Mar 2025 05:30:54 +0000 http://www.open-lab.net/zh-cn/blog/?p=13327 Continued]]> NVIDIA 在 NVIDIA GTC 2025 上宣布了創下世界紀錄的 DeepSeek-R1 推理性能。搭載 8 個 NVIDIA Blackwell GPU 的單個 NVIDIA DGX 系統，在具有 671 億個參數的先進大型 DeepSeek-R1 模型上，每個用戶每秒可實現超過 250 個 token，或每秒超過 30,000 個 token 的最大吞吐量。得益于 NVIDIA 開放生態系統的推理開發者工具的改進 (現已針對 NVIDIA Blackwell 架構進行優化) ，這些性能頻譜兩端的快速性能提升得以實現。隨著 NVIDIA 平臺不斷突破最新 NVIDIA Blackwell Ultra GPU 和 NVIDIA Blackwell GPU 的推理極限，這些性能記錄將會得到改善。單個 DGX B200 8-GPU 系統和單個 DGX…

]]>

13327

NVIDIA Blackwell 上的 OpenAI Triton 提升 AI 性能和可編程性 http://www.open-lab.net/zh-cn/blog/openai-triton-on-nvidia-blackwell-boosts-ai-performance-and-programmability/ Wed, 05 Feb 2025 04:33:35 +0000 http://www.open-lab.net/zh-cn/blog/?p=12874 Continued]]> 矩陣乘法和注意力機制是現代 AI 工作負載的計算支柱。雖然庫如 NVIDIA cuDNN 提供高度優化的實現，而框架如 CUTLASS 提供深度自定義，但許多開發者和研究人員都需要將性能與可編程性結合起來的中間點。 NVIDIA Blackwell 架構上的開源 Triton 編譯器通過直觀的編程模型展示 Blackwell 的高級功能來滿足這一需求。得益于 NVIDIA 與 OpenAI 的持續合作，Triton 編譯器現已支持 NVIDIA Blackwell 架構。這可確保開發者和研究人員可以通過基于 Python 的編譯器 (例如 Triton) 輕松使用 Blackwell 架構中最新的出色功能。 NVIDIA Blackwell 架構在原始計算能力和架構創新方面實現了顯著提升。NVIDIA 與 OpenAI 的合作重點是通過 Triton…

]]>

12874

CUDA 工具包現已支持 NVIDIA Blackwell 架構 http://www.open-lab.net/zh-cn/blog/cuda-toolkit-12-8-delivers-nvidia-blackwell-support/ Fri, 31 Jan 2025 04:55:11 +0000 http://www.open-lab.net/zh-cn/blog/?p=12892 Continued]]> CUDA 工具包的最新版本 (版本 12.8) 使用最新的 NVIDIA CPU 和 GPU，持續提升數據科學、AI、科學計算以及計算機圖形和模擬領域的加速計算性能。本文重點介紹了此版本包含的一些新功能和增強功能： CUDA 工具包 12.8 是該工具包的第一個版本，在整個開發者工具套件 (包括性能工具和分析器、庫和編譯器) 中支持 NVIDIA Blackwell 架構。Blackwell 由 208 億個晶體管構建而成，是 NVIDIA Hopper GPU 中晶體管數量的 2.5 倍以上，是迄今為止最大的 GPU。 Blackwell 支持的主要功能包括：Key Blackwell 如需詳細了解 NVIDIA Blackwell 的領先創新，請參閱 NVIDIA Blackwell 架構技術概覽。借助 Blackwell，

]]>

12892

為 NVIDIA Blackwell GeForce RTX 50 系列 GPU 發布全新 AI SDK 和工具 http://www.open-lab.net/zh-cn/blog/new-ai-sdks-and-tools-released-for-nvidia-blackwell-geforce-rtx-50-series-gpus/ Thu, 30 Jan 2025 05:23:17 +0000 http://www.open-lab.net/zh-cn/blog/?p=12907 Continued]]> NVIDIA 最近宣布推出新一代 PC GPU – GeForce RTX 50 系列，以及面向開發者的全新 AI 賦能 SDK 和工具。GeForce RTX 50 系列由 NVIDIA Blackwell 架構、第五代 Tensor Cores 和第四代 RT Cores 提供動力支持，在神經著色器、數字人技術、幾何圖形和照明等 AI 驅動渲染方面實現了突破。今天，NVIDIA 發布了第一波適用于 GeForce RTX 50 Series GPUs 的 SDK。作為開發者，您可以開始將這些更新集成到您的應用中，以確保與 NVIDIA Blackwell RTX GPUs 的軟件兼容性和最佳性能，并展示 GeForce RTX 50 Series GPUs 的新功能。本文詳細介紹了新的和更新的 SDK，這些 SDK 可助力開發者充分利用 NVIDIA…

]]>

12907

人人超碰97caoporen国产