Grace CPU – NVIDIA 技術博客

Grace CPU – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞和內容。 Wed, 25 Jun 2025 05:08:39 +0000 zh-CN hourly 1 196178272 由 NVIDIA 驅動的現代超級計算機如何推動速度和科學的極限 http://www.open-lab.net/zh-cn/blog/nvidia-top500-supercomputers-isc-2025/ Tue, 10 Jun 2025 05:06:24 +0000 http://www.open-lab.net/zh-cn/blog/?p=14394 Continued]]> 現代高性能計算 (HPC) 實現的不僅僅是快速計算，它還為正在解鎖科學突破的 AI 系統提供支持。 HPC 已經經歷了多次迭代，每次迭代都因技術的創造性再利用而引發。例如，早期的超級計算機使用現成的組件。后來，研究人員利用個人計算機構建了強大的集群，甚至還調整了游戲 graphics cards 以用于科學工作。當今的 HPC 系統（許多由 NVIDIA 加速計算提供支持）專為速度而設計。今天在 ISC 2025 上公布的最新全球超級計算機 TOP500 榜單強調了這一點，其中 77% 的系統由 NVIDIA 提供支持。與此同時，Tensor Core 等創新功能可為矩陣乘法等常見運算提供更快的計算速度，并且混合精度 (一種結合多個浮點精度格式的技術，詳情見下文) 等技術的越來越多的使用正在提高性能和能效，從而推動氣候科學和醫學等領域的飛躍。

]]>

14394

在 NVIDIA Grace Hopper 上分析大型語言模型訓練工作流 http://www.open-lab.net/zh-cn/blog/profiling-llm-training-workflows-on-nvidia-grace-hopper/ Tue, 27 May 2025 05:45:31 +0000 http://www.open-lab.net/zh-cn/blog/?p=14054 Continued]]> AI 的快速發展催生了模型大小呈指數級增長的時代，特別是在大語言模型 (LLMs) 領域。這些模型憑借其變革能力，正在推動各行各業的創新。然而，訓練此類模型的復雜性和計算需求不斷增加，因此必須采用細致的優化和分析方法。盡管生成式 AI 和 LLM 讓人興奮不已，但底層基礎設施和優化策略仍然經常被忽視。訓練這些模型不僅需要大量計算資源，還需要仔細調整超參數、高效的代碼執行和可靠的分析機制，以確保可擴展性和成本效益。 NVIDIA GH200 Grace Hopper 超級芯片代表著 AI 硬件設計的范式轉變。憑借其創新的 CPU-GPU 集成和高帶寬內存架構，它為 LLM 訓練挑戰提供了突破性的解決方案。通過 NVLink-C2C 互連技術將 NVIDIA Hopper GPU 與 NVIDIA Grace CPU 相結合，該架構可更大限度地減少瓶頸并更大限度地提高吞吐量，

Source

]]>

14054

在 NVIDIA Grace Hopper 上訓練大型語言模型的高級優化策略 http://www.open-lab.net/zh-cn/blog/advanced-optimization-strategies-for-llm-training-on-nvidia-grace-hopper/ Tue, 27 May 2025 05:39:48 +0000 http://www.open-lab.net/zh-cn/blog/?p=14051 Continued]]> 雖然分析有助于識別效率低下的情況，但高級優化策略對于解決硬件限制和有效擴展 AI 工作負載至關重要。在本文中，我們將探討 CPU 卸載、Unified Memory、Automatic Mixed Precision 和 FP8 訓練等技術。這些方法不僅能提高性能，還能助力研究人員突破 LLM 的極限。在處理大型模型時，有效管理 GPU 內存至關重要。解決內存限制的一種策略是 CPU 卸載的激活函數。此技術涉及在模型訓練或推理期間臨時將中間激活張量從 GPU 內存移動到 CPU 內存。本節將探討這種方法的優缺點。 CPU 卸載激活函數可以處理更大的批量大小或訓練更大的模型，而不會耗盡 GPU 內存。將激活函數分流到 CPU 可騰出空間用于對訓練至關重要的其他運算，例如向前和向后傳遞。從本質上講，卸載提供了一種在內存容量有限的 GPU 上訓練更大模型的方法。

]]>

14051

在 NVIDIA Grace CPU 上使用 Polars 和 Apache Spark 實現高效 ETL http://www.open-lab.net/zh-cn/blog/efficient-etl-with-polars-and-apache-spark-on-nvidia-grace-cpu/ Tue, 11 Mar 2025 06:37:40 +0000 http://www.open-lab.net/zh-cn/blog/?p=13354 Continued]]> NVIDIA Grace CPU 超級芯片可為數據中心和云端的 CPU 工作負載提供出色的性能和出色的能效。NVIDIA Grace 的優勢包括高性能 Arm Neoverse V2 核心、NVIDIA 設計的快速可擴展一致性結構（Scalable Coherency Fabric）以及低功耗高帶寬 LPDDR5X 內存。這些功能使 Grace CPU 成為處理提取、加載、轉換 (ETL) 工作負載的理想選擇，展現出出色的性能。ETL 工作負載是在線分析處理 (OLAP) 和商業智能 (BI) 工作流的關鍵組成部分，使企業能夠獲得見解并改進組織決策制定。本文介紹了 NVIDIA Grace CPU 如何提供解決方案，在不影響性能的情況下，在單節點 Polars 和多節點 Apache Spark 上運行 ETL 工作負載時降低功耗。

]]>

13354

NVIDIA cuDSS 提高工程和科學計算中的求解器技術 http://www.open-lab.net/zh-cn/blog/nvidia-cudss-advances-solver-technologies-for-engineering-and-scientific-computing/ Tue, 25 Feb 2025 08:54:08 +0000 http://www.open-lab.net/zh-cn/blog/?p=13042 Continued]]> NVIDIA cuDSS 是第一代稀疏直接求解器庫，旨在加速工程和科學計算。cuDSS 正越來越多地應用于數據中心和其他環境，并支持單 GPU、多 GPU 和多節點（MGMN）配置。 cuDSS 已成為加速多個領域 (例如結構工程、流體動力學、電磁學、電路模擬、優化和 AI 輔助工程問題) 的計算機輔助工程 (CAE) 工作流程和科學計算的關鍵工具。本文重點介紹了 cuDSS v0.4.0 和 cuDSS v0.5.0 中提供的一些關鍵性能和可用性功能 (如表 1 中總結的內容)，cuDSS v0.4.0 可顯著提升分解和求解步驟的性能，同時還引入了一些新功能，包括內存預測 API、自動混合內存選擇和可變批量支持。cuDSS v0.5.0 增加了主機執行模式，這對較小的矩陣特別有利，并且在分析階段使用混合內存模式和主機多線程實現了顯著的性能提升，

]]>

13042

聚焦：東京大學使用 NVIDIA Grace Hopper 進行開創性的節能地震研究 http://www.open-lab.net/zh-cn/blog/spotlight-university-of-tokyo-uses-nvidia-grace-hopper-for-groundbreaking-energy-efficient-seismic-research/ Thu, 20 Feb 2025 04:36:04 +0000 http://www.open-lab.net/zh-cn/blog/?p=12968 Continued]]> 超級計算機是推動突破性發現的引擎。從預測極端天氣到推進疾病研究，以及設計更安全、更高效的基礎設施，這些機器可以模擬因規模、成本和材料要求而無法在現實世界中進行測試的復雜系統。自 1999 年推出 GPU 以來，NVIDIA 一直在不斷突破加速計算的極限，這種方法使用專業硬件，通過在并行處理中捆綁頻繁出現的任務來大幅加速工作。這種效率使超級計算機能夠處理前所未有的計算挑戰，同時減少每項任務消耗的能源。如今，由 NVIDIA 提供支持的系統在高效超級計算領域處于領先地位，在 Green500 榜單前 10 名中有 8 名入選，而 Green500 榜單是高效超級計算機的行業基準測試。德國于利希超級計算中心（Jülich Supercomputing Center）的 JEDI 系統由 NVIDIA Grace Hopper 提供動力支持，充分體現了這一進步，實現了 72.

]]>

12968

NVIDIA Grace CPU 與 Arm 軟件生態系統集成 http://www.open-lab.net/zh-cn/blog/nvidia-grace-cpu-integrates-with-the-arm-software-ecosystem/ Mon, 10 Feb 2025 03:24:16 +0000 http://www.open-lab.net/zh-cn/blog/?p=12850 Continued]]> NVIDIA Grace CPU 將節能高效的性能提升到了新的高度，正在改變數據中心的設計。Grace CPU 專為數據中心規模打造，旨在處理要求嚴苛的工作負載，同時降低功耗。 NVIDIA 相信利用 GPU 加速各種工作負載的好處。但是，并非所有工作負載都得到加速。對于涉及復雜的分支代碼 (例如圖形分析) 的工作負載尤其如此，這些代碼通常用于欺詐檢測、運營優化和社交網絡分析等熱門用例。隨著數據中心面臨越來越大的功率限制，加速盡可能多的工作負載并在盡可能高效的計算上運行其余工作負載變得至關重要。Grace CPU 經過優化，可處理加速任務和僅使用 CPU 的任務，在功耗與傳統 CPU 相同的情況下提供高達 2 倍的性能。 Grace CPU 配備 72 個高性能、高能效的 Arm Neoverse V2 核心，

]]>

12850

2024 年熱門文章：NVIDIA NIM、語言模型突破和數據科學優化的精要 http://www.open-lab.net/zh-cn/blog/top-posts-of-2024-highlight-nvidia-nim-llm-breakthroughs-and-data-science-optimization/ Mon, 16 Dec 2024 05:14:42 +0000 http://www.open-lab.net/zh-cn/blog/?p=12525 Continued]]> 對于使用 NVIDIA 技術的開發者、研究人員和創新者來說，2024 年又是具有里程碑意義的一年。從 AI 推理領域的突破性進展到助力開源貢獻，這些博客文章重點介紹了最受讀者反響的突破性成果。 NVIDIA NIM 提供經過優化的推理微服務，用于大規模部署 AI 模型 NVIDIA NIM 于 2024 年推出，是一套易于使用的推理微服務，用于加速基礎模型的部署。開發者可以在盡可能減少配置更改的情況下優化推理工作流，從而實現無縫、高效的擴展。 NVIDIA NIM 現為開發者計劃成員免費開放為了普及 AI 部署，NVIDIA 為其開發者計劃成員提供 NIM 的免費訪問權限，使更多的開發者能夠試驗和實施 AI 解決方案。 NVIDIA GB200 NVL72 提供萬億參數 LLM 訓練和實時推理…

]]>

12525

NVIDIA Blackwell 在 MLPerf 訓練 v4.1 中將 LLM 訓練性能提高一倍 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-doubles-llm-training-performance-in-mlperf-training-v4-1/ Wed, 13 Nov 2024 07:46:17 +0000 http://www.open-lab.net/zh-cn/blog/?p=12054 Continued]]> 隨著模型規模的擴大以及使用更多數據進行訓練，它們的能力也隨之提升，實用性也隨之提升。為了快速訓練這些模型，需要在數據中心規模上提供更高的性能。NVIDIA Blackwell 平臺在 2024 年 GTC 大會上推出，現已全面投產，集成了七類芯片：GPU、CPU、DPU、NVLink Switch 芯片、InfiniBand Switch 和 Ethernet Switch。Blackwell 平臺在每個 GPU 的性能方面實現了巨大飛躍，旨在支持創建更大規模的 AI 集群，從而推動下一代 LLM 的開發。在最新一輪的 MLPerf 訓練 (一套 AI 訓練基準測試) 中，NVIDIA 使用 Blackwell 平臺首次提交了基準測試預覽類別的測試結果。這些結果表明，在每個 MLPerf 訓練基準測試中，與基于 Hopper 的提交相比，每個加速器的提升幅度很大。

]]>

12054

NVIDIA Grace CPU 實現全球頂級數據中心性能和突破性能效優勢 http://www.open-lab.net/zh-cn/blog/nvidia-grace-cpu-delivers-world-class-data-center-performance-and-breakthrough-energy-efficiency/ Wed, 09 Oct 2024 05:11:03 +0000 http://www.open-lab.net/zh-cn/blog/?p=11758 Continued]]> NVIDIA 將 NVIDIA Grace CPU 設計為一種新型高性能數據中心 CPU，旨在提供突破性的能效，并針對數據中心規模的性能進行了優化。與傳統 CPU 計算相比，加速計算在性能和能效方面實現了巨大的飛躍。為了實現這些加速，需要數據中心規模的全棧創新，涵蓋芯片、系統、軟件和算法。為適合的工作負載選擇合適的架構并提供出色的節能性能對于最大限度地提高數據中心的性能和最小化占用空間至關重要。隨著工作負載的加速程度不斷提高，目前仍有一些用例主要在傳統 CPU 上運行，尤其是圖形分析等稀疏和“分支”序列化任務的代碼。與此同時，數據中心受到越來越多的電力限制，限制了其能力的增長。這意味著所有可以加速的工作負載都應該加速。那些無法加速的工作負載必須在盡可能高效的計算上運行，而 CPU 必須針對這些工作負載進行優化。

]]>

11758

將 AI-RAN 引入您附近的電信公司 http://www.open-lab.net/zh-cn/blog/bringing-ai-ran-to-a-telco-near-you/ Tue, 08 Oct 2024 07:54:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=11453 Continued]]> 生成式 AI 和 AI 智能體的推理將推動 AI 計算基礎設施從邊緣分配到中央云的需求。 IDC 預測，“商業 AI (消費者除外) 將為全球經濟貢獻 19.9 萬億美元，并占 GDP 的 3.5% 直到 2030 年。” 5G 網絡還必須不斷發展，以服務于新傳入的人工智能流量。在此過程中，電信公司有機會成為托管企業人工智能工作負載的本地人工智能計算基礎設施，獨立于網絡連接，同時滿足其數據隱私和主權要求。這是加速計算基礎設施的亮點所在，能夠加速無線電信號處理和人工智能工作負載。最重要的是，相同的計算基礎設施可用于處理人工智能和無線電接入網（RAN）服務。這種組合被電信行業稱為 AI-RAN 。 NVIDIA 正在推出 Aerial RAN Computer-1，這是全球首個 AI-RAN 部署平臺，可以在通用加速基礎設施上同時服務 AI 和 RAN 工作負載。

]]>

11453

聚焦：Petrobras 利用 NVIDIA Grace CPU 加速用于油藏模擬的線性求解器 http://www.open-lab.net/zh-cn/blog/spotlight-petrobras-accelerates-linear-solvers-for-reservoir-simulation-using-nvidia-grace-cpu/ Tue, 24 Sep 2024 07:10:21 +0000 http://www.open-lab.net/zh-cn/blog/?p=11359 Continued]]> 油藏模擬通過模擬復雜場景并與真實的現場數據進行比較，幫助油藏工程師優化資源勘探方法。這擴展到對枯竭油藏的模擬，這些油藏可以重新用于運營中的碳存儲。油藏模擬對于旨在提高勘探和生產運營效率的能源公司至關重要。本文展示了 NVIDIA Grace CPU 如何出色地解決此工作流程中的線性系統問題，與基于 x86 的替代 CPU 相比，Petrobras 實現了高達 4.5 倍的解決方案速度、4.3 倍的能效和 1.5 倍的可擴展性。 Petrobras 是一家領先的巴西能源公司，在轉向新能源的同時保持其核心油氣（O&G）勘探和生產業務。根據 Top500 和 Green500 榜單，Petrobras 擁有拉丁美洲最大的 HPC 基礎設施，由 NVIDIA 全棧加速計算平臺提供支持。他們的主要工作負載是地震處理和油藏模擬。該公司率先推出了超深海勘探作業，

]]>

11359

借助 NVIDIA Grace 系列革新數據中心效率 http://www.open-lab.net/zh-cn/blog/revolutionizing-data-center-efficiency-with-the-nvidia-grace-family/ Fri, 02 Aug 2024 05:38:22 +0000 http://www.open-lab.net/zh-cn/blog/?p=10938 Continued]]> 到 2025 年，數據處理需求的指數級增長預計將達到 175 ZB。這與 CPU 性能提升的緩慢步伐形成了鮮明的對比。十多年來，半導體的進步跟不上摩爾定律預測的步伐，因此迫切需要更高效的計算解決方案。 NVIDIA GPU 已經成為滿足這些不斷增長的計算需求的最高效方式。其處理復雜任務和并行處理工作負載的能力使其能夠最大限度地提高每單位能耗所完成的工作，使其能效比傳統 CPU 高 20 倍，適用于各種數據中心工作負載，包括人工智能、高性能計算 (HPC)、數據處理以及視頻和圖像處理。隨著越來越多的應用程序得到加速，需要在 CPU 方面進行創新，以更大限度地提高數據中心的效率。加速計算需要從硬件到軟件、平臺和跨多個領域的應用程序的全棧創新，以充分發揮數據中心的潛力。 NVIDIA 始終如一地提供突破性的 GPU 和網絡。但是，盡管 GPU 在并行工作負載方面表現優異，

]]>

10938

借助 NVIDIA Grace CPU 提升數學優化性能和能效 http://www.open-lab.net/zh-cn/blog/boosting-mathematical-optimization-performance-and-energy-efficiency-on-the-nvidia-grace-cpu/ Fri, 12 Jul 2024 05:38:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=10661 Continued]]> 數學優化是一種功能強大的工具，可以幫助企業和人們做出更明智的決策，并實現任意數量的目標。這些目標包括提高運營效率、降低成本和提高客戶滿意度。許多日常用例都可以應用數學優化，例如調度航班、定價酒店房間、選擇 GPS 路線和規劃貨運卡車路線等。然而，數學優化計算需求很高。模型復雜性和數據集大小需要復雜的 AI 算法和高性能計算。由于對更快、更好的數學優化解決方案的需求不斷增長，從系統、軟件平臺到加速庫，全棧創新是必需的。 Gurobi 成立于 2008 年，是一家數學優化求解器，可解決復雜問題，并在數秒內向全球各行各業的 1200 多家客戶提供優化解決方案。該公司獲得了一臺基于 Supermicro NVIDIA MGX 的系統，由 NVIDIA GH200 Grace Hopper 超級芯片提供支持，該系統能夠以低功耗實現快速性能。

]]>

10661

在加速計算時代構建高性能應用 http://www.open-lab.net/zh-cn/blog/building-high-performance-applications-in-the-era-of-accelerated-computing/ Mon, 25 Mar 2024 08:58:53 +0000 http://www.open-lab.net/zh-cn/blog/?p=9484 Continued]]> AI 正在通過新的數據處理、模擬和建模方法增強高性能計算 (HPC).由于這些新 AI 工作負載的計算需求，HPC 正在快速擴展。為了使應用程序能夠擴展到多 GPU 和多節點平臺，HPC 工具和庫必須支持這種增長。 NVIDIA 提供加速 HPC 軟件解決方案的全面生態系統，幫助您的應用程序滿足現代 AI 驅動工作負載的需求。除了問題修復和改進 HPC 編譯器的編譯時性能之外，HPC SDK 24.3 提供新功能，支持最新的 NVIDIA Grace Hopper 系統。在使用 OpenMP Target Offload 指令進行 GPU 編程時，NVIDIA HPC 編譯器提供統一的內存編譯模式。這增加了對 OpenACC 中 Grace Hopper 和 HMM 系統統一內存的現有支持，以及 CUDA Fortran 和標準并行度(stdpar) 編程模型，

]]>

9484

人人超碰97caoporen国产