Hopper – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 25 Jun 2025 05:08:39 +0000 zh-CN hourly 1 196178272 由 NVIDIA 驅動的現代超級計算機如何推動速度和科學的極限 http://www.open-lab.net/zh-cn/blog/nvidia-top500-supercomputers-isc-2025/ Tue, 10 Jun 2025 05:06:24 +0000 http://www.open-lab.net/zh-cn/blog/?p=14394 Continued]]> 現代高性能計算 (HPC) 實現的不僅僅是快速計算,它還為正在解鎖科學突破的 AI 系統提供支持。 HPC 已經經歷了多次迭代,每次迭代都因技術的創造性再利用而引發。例如,早期的超級計算機使用現成的組件。后來,研究人員利用個人計算機構建了強大的集群,甚至還調整了游戲 graphics cards 以用于科學工作。 當今的 HPC 系統(許多由 NVIDIA 加速計算提供支持)專為速度而設計。今天在 ISC 2025 上公布的最新全球超級計算機 TOP500 榜單強調了這一點,其中 77% 的系統由 NVIDIA 提供支持。 與此同時,Tensor Core 等創新功能可為矩陣乘法等常見運算提供更快的計算速度,并且混合精度 (一種結合多個浮點精度格式的技術,詳情見下文) 等技術的越來越多的使用正在提高性能和能效,從而推動氣候科學和醫學等領域的飛躍。

Source

]]>
14394
全球五大洲電信運營商正建立 NVIDIA 賦能的主權人工智能基礎設施 http://www.open-lab.net/zh-cn/blog/telcos-across-five-continents-are-building-nvidia-powered-sovereign-ai-infrastructure/ Fri, 30 May 2025 08:40:52 +0000 http://www.open-lab.net/zh-cn/blog/?p=14151 Continued]]> AI 正在成為各行各業創新的基石,將創造力和生產力提升到新的水平,并從根本上重塑我們的生活和工作方式。AI 工廠是一種新型基礎設施,可大規模制造智能,并為許多人認為的下一次工業革命奠定基礎。 AI 工廠代表著傳統云計算架構向專為 AI 工作負載設計和優化的加速計算基礎設施的重置。這種架構轉變為新參與者 (包括有時被稱為“新云”的專業 AI 工廠提供商) 創造了機會。這些參與者通過向研究人員、初創公司和企業提供高性能、以 GPU 為中心的 AI 云服務來訓練模型、微調和推理,從而取得了快速的成功。 新云提供商的成功推動了 AI 的普及,將強大的新 LLM 和 AI 模型帶給數百萬人。它還表明,從醫療健康到汽車,各行各業對 AI 工廠的需求是前所未有的,而且服務水平低下。 對 AI 工廠的巨大需求為電信服務提供商帶來了新的商機。麥肯錫最近的研究表明,到 2030 年,

Source

]]>
14151
在 NVIDIA Grace Hopper 上分析大型語言模型訓練工作流 http://www.open-lab.net/zh-cn/blog/profiling-llm-training-workflows-on-nvidia-grace-hopper/ Tue, 27 May 2025 05:45:31 +0000 http://www.open-lab.net/zh-cn/blog/?p=14054 Continued]]> AI 的快速發展催生了模型大小呈指數級增長的時代,特別是在大語言模型 (LLMs) 領域。這些模型憑借其變革能力,正在推動各行各業的創新。然而,訓練此類模型的復雜性和計算需求不斷增加,因此必須采用細致的優化和分析方法。 盡管生成式 AI 和 LLM 讓人興奮不已,但底層基礎設施和優化策略仍然經常被忽視。訓練這些模型不僅需要大量計算資源,還需要仔細調整超參數、高效的代碼執行和可靠的分析機制,以確保可擴展性和成本效益。 NVIDIA GH200 Grace Hopper 超級芯片代表著 AI 硬件設計的范式轉變。憑借其創新的 CPU-GPU 集成和高帶寬內存架構,它為 LLM 訓練挑戰提供了突破性的解決方案。通過 NVLink-C2C 互連技術將 NVIDIA Hopper GPU 與 NVIDIA Grace CPU 相結合,該架構可更大限度地減少瓶頸并更大限度地提高吞吐量,

Source

]]>
14054
在 NVIDIA Grace Hopper 上訓練大型語言模型的高級優化策略 http://www.open-lab.net/zh-cn/blog/advanced-optimization-strategies-for-llm-training-on-nvidia-grace-hopper/ Tue, 27 May 2025 05:39:48 +0000 http://www.open-lab.net/zh-cn/blog/?p=14051 Continued]]> 雖然分析有助于識別效率低下的情況,但高級優化策略對于解決硬件限制和有效擴展 AI 工作負載至關重要。在本文中,我們將探討 CPU 卸載、Unified Memory、Automatic Mixed Precision 和 FP8 訓練等技術。這些方法不僅能提高性能,還能助力研究人員突破 LLM 的極限。 在處理大型模型時,有效管理 GPU 內存至關重要。解決內存限制的一種策略是 CPU 卸載的激活函數。此技術涉及在模型訓練或推理期間臨時將中間激活張量從 GPU 內存移動到 CPU 內存。本節將探討這種方法的優缺點。 CPU 卸載激活函數可以處理更大的批量大小或訓練更大的模型,而不會耗盡 GPU 內存。將激活函數分流到 CPU 可騰出空間用于對訓練至關重要的其他運算,例如向前和向后傳遞。從本質上講,卸載提供了一種在內存容量有限的 GPU 上訓練更大模型的方法。

Source

]]>
14051
借助 NVIDIA cuBLAS 12.9 提高矩陣乘法速度和靈活性 http://www.open-lab.net/zh-cn/blog/boosting-matrix-multiplication-speed-and-flexibility-with-nvidia-cublas-12-9/ Thu, 01 May 2025 07:04:57 +0000 http://www.open-lab.net/zh-cn/blog/?p=13847 Continued]]> NVIDIA CUDA-X 數學庫助力開發者為 AI、科學計算、數據處理等領域構建加速應用。 CUDA-X 庫的兩個最重要的應用是訓練和推理 LLM,無論是用于日常消費者應用,還是用于藥物研發等高度專業化的科學領域。要在 NVIDIA Blackwell 架構上高效訓練 LLM 和執行 具有突破性性能的推理任務 ,多個 CUDA-X 庫不可或缺。 cuBLAS 是一個 CUDA-X 庫,可提供高度優化的內核,用于執行最基本的線性代數任務,例如矩陣乘法 (matmuls) ,這些任務對于 LLM 訓練和推理至關重要。 NVIDIA CUDA 工具包 12.9 中新推出的 cuBLAS 支持進一步優化 cuBLAS matmul 性能的新功能。它還通過調整浮點精度和利用模擬的基礎模組,實現了更大的靈活性,以平衡準確性和能效等需求。 本文將介紹 cuBLAS 12.9…

Source

]]>
13847
NVIDIA Blackwell 在 MLPerf Inference v5.0 中實現巨大的性能飛躍 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-massive-performance-leaps-in-mlperf-inference-v5-0/ Wed, 02 Apr 2025 05:32:46 +0000 http://www.open-lab.net/zh-cn/blog/?p=13408 Continued]]> 在不斷增長的模型大小、實時延遲要求以及最近的 AI 推理的推動下, 大語言模型 (LLM) 推理的計算需求正在快速增長。與此同時,隨著 AI 采用率的增長, AI 工廠 能否為盡可能多的用戶提供服務,同時保持良好的每位用戶體驗,是更大限度地提高其價值的關鍵。要在最新模型上實現高推理吞吐量和低推理延遲,需要在涵蓋芯片、網絡系統和軟件的整個技術堆棧中表現出色。 MLPerf Inference v5.0 是長期運行的基準套件中的最新版本,可測量一系列不同模型和用例的推理吞吐量。于 2019 年首次推出的 MLPerf Inference 不斷更新新的模型和場景,以確保它仍然是衡量 AI 計算平臺推理性能的有用工具。 本輪測試新增三個新的基準測試: 這些新基準測試加入了涵蓋各種模型和用例的眾多返回基準測試:ResNet-50、RetinaNet、3D U-Net、DLRMv2、

Source

]]>
13408
AI 模型為環保人士提供大規模保護漁業和野生動物的新工具 http://www.open-lab.net/zh-cn/blog/ai-model-offers-conservationists-new-tools-to-protect-fisheries-wildlife-at-scale/ Mon, 03 Mar 2025 06:06:54 +0000 http://www.open-lab.net/zh-cn/blog/?p=13143 Continued]]> 為了遏制非法捕撈,研究人員發布了一個新的開源 AI 模型,該模型可以準確識別世界上幾乎所有的航海船只的行為,包括船只是否可能非法捕撈。 位于西雅圖的 Ai2 (Allen Institute for AI) 最近發布了一個名為 Atlantes 的輕量級模型,用于分析全球近 600,000 艘遠洋船每天發出的超過五億個 GPS 信號。 該模型可以預測幾乎任何船只在任何時候的狀況,準確率約為 80%。 該模型集成到 Ai2 更大的海洋監測平臺 Skylight 中,如果船只似乎正在釣魚,則可以向海岸護衛隊、巡邏船只或其他類似用戶發出警報,以檢查是否有非法活動。 今年年初,在 Skylight 提醒一艘在其專屬經濟區內非法捕撈的船只出現可疑行為后,阿根廷海岸護衛隊攔截了該船只,并隨后對其實施了罰款。 Atlantes 是一個基于 4.7…

Source

]]>
13143
聚焦:NAVER Place 利用 NVIDIA TensorRT-LLM 優化 SLM 基礎的垂直服務 http://www.open-lab.net/zh-cn/blog/spotlight-naver-place-optimizes-slm-based-vertical-services-with-nvidia-tensorrt-llm/ Fri, 28 Feb 2025 06:40:09 +0000 http://www.open-lab.net/zh-cn/blog/?p=13155 Continued]]> NAVER 是一家韓國熱門搜索引擎公司,提供 Naver Place ,這是一項基于地理的服務,可提供有關韓國數百萬家企業和興趣點的詳細信息。用戶可以搜索不同的地點、發表評論,以及實時進行預訂或下單。 NAVER Place 垂直服務基于小語言模型 (SLMs) 來提高可用性,并專門針對 Place、Map 和 Travel。本文分享了 NVIDIA 和 NAVER 如何使用 NVIDIA TensorRT-LLM 優化 SLM 推理性能,從而在 NVIDIA Triton Inference Server 上實現基于 SLM 的垂直服務。如需詳細了解 NAVER 如何使用 AI,請參閱 NAVER Place AI 開發團隊簡介 。 與 大語言模型(LLMs) 相比,小語言模型(SLMs)是能夠以更少的參數理解自然語言的 AI 模型。眾所周知,

Source

]]>
13155
使用 DeepSeek-R1 NIM 構建具有專家推理功能的 AI 智能體 http://www.open-lab.net/zh-cn/blog/build-ai-agents-with-expert-reasoning-capabilities-using-deepseek-r1-nim/ Fri, 28 Feb 2025 06:27:48 +0000 http://www.open-lab.net/zh-cn/blog/?p=13149 Continued]]> AI 智能體 正在通過實現流程自動化、優化決策制定和簡化操作來改變業務運營。其有效性取決于專家推理,從而實現更明智的規劃和高效執行。 代理式 AI 應用可以從 DeepSeek-R1 等模型的功能中受益。DeepSeek-R1 專為解決需要高級 AI 推理的問題而構建,是一個包含 671 億個參數的 開放式專家混合模型 (MoE)。經過強化學習 (RL) 技術的訓練,該模型能夠激勵準確、結構化的推理鏈,在邏輯推理、多步驟問題解決和結構化分析方面表現出色。 DeepSeek-R1 通過 chain-of-thought (CoT) 推理將復雜問題分解為多個步驟,使其能夠更準確、更深入地處理復雜問題。為此,DeepSeek-R1 使用 test-time scaling,這是一種新的 scaling law,通過在推理過程中分配額外的計算資源來增強模型的功能和演能力。 但是,

Source

]]>
13149
聚焦:東京大學使用 NVIDIA Grace Hopper 進行開創性的節能地震研究 http://www.open-lab.net/zh-cn/blog/spotlight-university-of-tokyo-uses-nvidia-grace-hopper-for-groundbreaking-energy-efficient-seismic-research/ Thu, 20 Feb 2025 04:36:04 +0000 http://www.open-lab.net/zh-cn/blog/?p=12968 Continued]]> 超級計算機是推動突破性發現的引擎。從預測極端天氣到推進疾病研究,以及設計更安全、更高效的基礎設施,這些機器可以模擬因規模、成本和材料要求而無法在現實世界中進行測試的復雜系統。 自 1999 年推出 GPU 以來,NVIDIA 一直在不斷突破加速 計算的極限 ,這種方法使用專業硬件,通過在并行處理中捆綁頻繁出現的任務來大幅加速工作。這種效率使超級計算機能夠處理前所未有的計算挑戰,同時減少每項任務消耗的能源。 如今,由 NVIDIA 提供支持的系統在高效超級計算領域處于領先地位,在 Green500 榜單前 10 名中有 8 名入選,而 Green500 榜單是高效超級計算機的行業基準測試。德國于利希超級計算中心(Jülich Supercomputing Center)的 JEDI 系統由 NVIDIA Grace Hopper 提供動力支持,充分體現了這一進步,實現了 72.

Source

]]>
12968
使用 DeepSeek-R1 和推理時間縮放實現自動化 GPU 內核生成 http://www.open-lab.net/zh-cn/blog/automating-gpu-kernel-generation-with-deepseek-r1-and-inference-time-scaling/ Thu, 13 Feb 2025 03:04:29 +0000 http://www.open-lab.net/zh-cn/blog/?p=12838 Continued]]> 隨著 AI 模型擴展其功能以解決更復雜的挑戰,一種稱為“ 測試時擴展 ”或“ 推理時擴展 ”的新擴展法則正在出現。該技術也稱為 AI 推理 或 長時思考 技術,通過在推理過程中分配額外的計算資源來評估多種可能的結果,然后選擇最佳結果 (neural network),從而提高模型性能。這使得 AI 能夠以類似于人類剖析復雜問題并單獨解決這些問題以達成最終解決方案的方式,制定戰略并系統化地解決復雜問題。 在本文中,我們將介紹 NVIDIA 工程師完成的一項實驗,他們在推理過程中使用最新的開源模型之一 DeepSeek-R1 模型以及額外的計算能力來解決復雜的問題。該實驗旨在自動生成 GPU 注意力內核,這些內核在數值上是正確的,并針對不同的注意力類型進行了優化,而無需任何顯式編程。 事實證明,在某些情況下,最終結果優于由技術精湛的工程師開發的優化內核。

Source

]]>
12838
NVIDIA Grace CPU 與 Arm 軟件生態系統集成 http://www.open-lab.net/zh-cn/blog/nvidia-grace-cpu-integrates-with-the-arm-software-ecosystem/ Mon, 10 Feb 2025 03:24:16 +0000 http://www.open-lab.net/zh-cn/blog/?p=12850 Continued]]> NVIDIA Grace CPU 將節能高效的性能提升到了新的高度,正在改變數據中心的設計。Grace CPU 專為數據中心規模打造,旨在處理要求嚴苛的工作負載,同時降低功耗。 NVIDIA 相信利用 GPU 加速各種工作負載的好處。但是,并非所有工作負載都得到加速。對于涉及復雜的分支代碼 (例如圖形分析) 的工作負載尤其如此,這些代碼通常用于欺詐檢測、運營優化和社交網絡分析等熱門用例。 隨著數據中心面臨越來越大的功率限制,加速盡可能多的工作負載并在盡可能高效的計算上運行其余工作負載變得至關重要。Grace CPU 經過優化,可處理加速任務和僅使用 CPU 的任務,在功耗與傳統 CPU 相同的情況下提供高達 2 倍的性能。 Grace CPU 配備 72 個高性能、高能效的 Arm Neoverse V2 核心,

Source

]]>
12850
NVIDIA Blackwell 上的 OpenAI Triton 提升 AI 性能和可編程性 http://www.open-lab.net/zh-cn/blog/openai-triton-on-nvidia-blackwell-boosts-ai-performance-and-programmability/ Wed, 05 Feb 2025 04:33:35 +0000 http://www.open-lab.net/zh-cn/blog/?p=12874 Continued]]> 矩陣乘法和注意力機制是現代 AI 工作負載的計算支柱。雖然庫如 NVIDIA cuDNN 提供高度優化的實現,而框架如 CUTLASS 提供深度自定義,但許多開發者和研究人員都需要將性能與可編程性結合起來的中間點。 NVIDIA Blackwell 架構 上的 開源 Triton 編譯器 通過直觀的編程模型展示 Blackwell 的高級功能來滿足這一需求。 得益于 NVIDIA 與 OpenAI 的持續合作,Triton 編譯器現已支持 NVIDIA Blackwell 架構。這可確保開發者和研究人員可以通過基于 Python 的編譯器 (例如 Triton) 輕松使用 Blackwell 架構中最新的出色功能。 NVIDIA Blackwell 架構在原始計算能力和架構創新方面實現了顯著提升。NVIDIA 與 OpenAI 的合作重點是通過 Triton…

Source

]]>
12874
新的 AI 模型提供癌癥細胞級視圖 http://www.open-lab.net/zh-cn/blog/new-ai-model-offers-cellular-level-view-of-cancerous-tumor/ Tue, 04 Feb 2025 04:42:37 +0000 http://www.open-lab.net/zh-cn/blog/?p=12880 Continued]]> 研究癌癥的研究人員推出了一種新的 AI 模型,該模型提供了癌細胞的細胞級映射和可視化,科學家希望該模型能夠揭示某些細胞間關系如何以及為什么會引發癌癥生長。 位于圣地亞哥的初創公司 BioTuring 宣布推出 一種 AI 模型,該模型可以以單細胞分辨率快速創建癌癥腫瘤的詳細可視化圖像。這種類型的顆粒數據顯示了細胞的大小、形狀、哪些基因被激活,關鍵是顯示了組織樣本中數百萬個不同細胞的相對空間位置。 與速度慢得多的傳統生物計算方法不同,新模型提供了有關腫瘤動力學以及癌細胞和免疫細胞相互作用的實時高分辨率見解。 BioTuring 首席執行官 Son Pham 表示:“人體大約有 30 萬億個細胞,如果進行大規模的腫瘤活檢,就會發現有幾百萬個細胞。“類比是 – 想象一下,您正在以非常高分辨率分析衛星圖像,試圖了解城市的運作方式。在生物學領域,我們的模型所做的是向您展示每棟房子、

Source

]]>
12880
CUDA 工具包現已支持 NVIDIA Blackwell 架構 http://www.open-lab.net/zh-cn/blog/cuda-toolkit-12-8-delivers-nvidia-blackwell-support/ Fri, 31 Jan 2025 04:55:11 +0000 http://www.open-lab.net/zh-cn/blog/?p=12892 Continued]]> CUDA 工具包 的最新版本 (版本 12.8) 使用最新的 NVIDIA CPU 和 GPU,持續提升數據科學、AI、科學計算以及計算機圖形和模擬領域的加速計算性能。本文重點介紹了此版本包含的一些新功能和增強功能: CUDA 工具包 12.8 是該工具包的第一個版本,在整個開發者工具套件 (包括性能工具和分析器、庫和編譯器) 中支持 NVIDIA Blackwell 架構。Blackwell 由 208 億個晶體管構建而成,是 NVIDIA Hopper GPU 中晶體管數量的 2.5 倍以上,是迄今為止最大的 GPU。 Blackwell 支持的主要功能包括:Key Blackwell 如需詳細了解 NVIDIA Blackwell 的領先創新,請參閱 NVIDIA Blackwell 架構技術概覽。 借助 Blackwell,

Source

]]>
12892
人人超碰97caoporen国产