HPC/科學計算 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 22 May 2025 07:35:43 +0000 zh-CN hourly 1 196178272 借助 NVIDIA MGX 為 AI 工廠奠定模塊化基礎 http://www.open-lab.net/zh-cn/blog/building-the-modular-foundation-for-ai-factories-with-nvidia-mgx/ Fri, 16 May 2025 06:57:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=13968 Continued]]> 生成式 AI、 大語言模型 (LLMs) 和高性能計算的指數級增長給數據中心基礎設施帶來了前所未有的需求。傳統的服務器架構難以適應現代加速計算的功率密度、散熱要求和快速迭代周期。 本文將介紹 NVIDIA MGX 的優勢,這是一種用于加速計算的模塊化參考架構,正在重新定義企業和云提供商構建可擴展 AI 工廠的方式。 借助 NVIDIA MGX,合作伙伴可以使用構建塊方法設計多個系統,從而節省開發成本和上市時間。NVIDIA MGX 旨在支持多代產品,并支持適用于 AI、高性能計算 (HPC) 和 數字孿生 的數百種 GPU、DPU、CPU、存儲和網絡組合。 推動采用 NVIDIA MGX 的三大趨勢: 基于這些趨勢,標準化和穩定的架構 (如 MGX) 可確保可靠、兼容的服務器部署,在不犧牲互操作性的情況下支持不斷變化的性能需求。

Source

]]>
13968
使用 cuEmbed 加速嵌入查找 http://www.open-lab.net/zh-cn/blog/accelerating-embedding-lookups-with-cuembed/ Thu, 15 May 2025 07:30:16 +0000 http://www.open-lab.net/zh-cn/blog/?p=13987 Continued]]> NVIDIA 最近發布了 cuEmbed,這是一個高性能、僅使用標頭的 CUDA 庫,可加速 NVIDIA GPU 上的嵌入查找。如果您要構建推薦系統,嵌入操作可能會消耗大量計算資源。 嵌入查找是一項獨特的優化挑戰。它們是內存密集型操作,具有不規則的訪問模式。cuEmbed 專為應對這些挑戰而設計,其吞吐量是 power-law 分布式輸入索引的 HBM 內存帶寬峰值的兩倍以上。 在本文中,我將解釋嵌入查找是什么,它們為什么對推薦系統至關重要,以及 cuEmbed 優化技術如何提供卓越性能。無論您是直接使用 C++ 還是使用 PyTorch,我都會提供將 cuEmbed 集成到項目中的實踐指導。 NVIDIA 認識到嵌入用例因應用而異,因此將 cuEmbed 完全開源。這使您能夠自定義和擴展核心性能內核。 某些輸入自然會使用神經網絡進行處理,例如浮點數向量或像素值,

Source

]]>
13987
CUDA C++ 編譯器更新對 ELF 可見性和鏈接影響 http://www.open-lab.net/zh-cn/blog/cuda-c-compiler-updates-impacting-elf-visibility-and-linkage/ Fri, 09 May 2025 05:37:20 +0000 http://www.open-lab.net/zh-cn/blog/?p=13805 Continued]]> 在下一個 CUDA 主要版本 CUDA 13.0 中,NVIDIA 將對 NVIDIA CUDA 編譯器驅動程序 (NVCC) 作出兩項重大更改,這些更改將影響 函數和設備變量的 ELF 可見性和關聯。這些更新旨在防止長期以來難以檢測和調試的細微運行時錯誤。但是,這些更改可能會影響一些現有的 CUDA C++ 程序。 本文旨在提醒用戶注意潛在的中斷,解釋更改背后的原因,并就可以恢復舊版行為的 NVCC 標志提供指導。表 1 匯總了這兩項更改。 在 CUDA 13.0 之前的工具包中,NVCC 編譯器未修改發送給主機編譯器的代碼中 函數和 變量的 ELF 可見性。如果將生成的代碼打包到共享庫中,這些符號將對共享庫的用戶可見。 默認情況下,NVCC 鏈接 CUDA Runtime Library (CUDART) 的靜態版本。

Source

]]>
13805
使用 NVIDIA NeMo Curator 構建 Nemotron-CC:一個高質量萬億令牌數據集,用于大型語言模型預訓練,源自 Common Crawl http://www.open-lab.net/zh-cn/blog/building-nemotron-cc-a-high-quality-trillion-token-dataset-for-llm-pretraining-from-common-crawl-using-nvidia-nemo-curator/ Wed, 07 May 2025 06:32:25 +0000 http://www.open-lab.net/zh-cn/blog/?p=13827 Continued]]> 對于想要訓練先進的 大語言模型 (LLM) 的企業開發者而言,整理高質量的預訓練數據集至關重要。為了讓開發者能夠構建高度準確的 LLM,NVIDIA 之前發布了 Nemotron-CC ,這是一個價值 6.3 萬億個 token 的英語語言 Common Crawl (CC) 數據集。今天,NVIDIA NeMo Curator 團隊很高興地與大家分享,用于構建 Nemotron-CC 數據集的 pipeline 現已合并到 NeMo Curator GitHub 存儲庫 中。 Nemotron-CC 工作流現已集成到 NeMo Curator 中,為平衡大規模準確性和數據量之間的權衡提供了一種新穎的解決方案。Nemotron-CC 工作流結合使用分類器集成和合成數據重述,提供了一種可擴展的方法,可從原始數據集中生成高質量的合成數據,以擴展原始數據集。

Source

]]>
13827
NVIDIA Blackwell 和 NVIDIA CUDA 12.9 引入基于系列的架構特性 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-and-nvidia-cuda-12-9-introduce-family-specific-architecture-features/ Thu, 01 May 2025 07:01:52 +0000 http://www.open-lab.net/zh-cn/blog/?p=13844 Continued]]> 最早進入 NVIDIA GPU CUDA 平臺的架構設計決策之一是支持 GPU 代碼的向后兼容性。這種設計意味著,新 GPU 應該能夠運行為之前的 GPU 編寫的程序,而無需進行修改。它由 CUDA 的兩個基本特性完成: PTX 是面向 NVIDIA GPU 的虛擬 ISA。您可以將其想象成組裝代碼,但它不限于特定的物理芯片硬件架構,其設計足夠通用,可以與未來的 GPU 架構兼容。 自 NVIDIA 創建 CUDA 平臺使開發者能夠為 GPU 編寫通用程序以來,PTX 一直是 CUDA 不可或缺的一部分。為之前的 GPU 構建的 PTX 代碼可以由當前的驅動進行 JIT 編譯,并在當前的 GPU 上運行,無需修改。 舉個例子。這是一段簡單的代碼,可打印 GPU 名稱和計算能力,還可從 GPU 內核內部打印 hello。 當我們使用 CUDA 12.8…

Source

]]>
13844
SETI 如何利用人工智能搜索智能外星生命 http://www.open-lab.net/zh-cn/blog/how-seti-uses-ai-to-search-for-intelligent-alien-life/ Mon, 28 Apr 2025 08:55:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=13675 Continued]]> 一位來自 SETI Institute 的研究人員在 GTC 2025 上向觀眾講述了 SETI 如何成功試用一種識別星際無線電波的新方法,從理論上講,該方法也可用于識別智能外星生命的通信。 SETI 是世界上尋找其他行星智能生命跡象的重要組織,其員工工程師 Luigi Cruz 描述了他的團隊如何使用 NVIDIA Holoscan 和 AI 準確識別遙遠的脈沖星發出的無線電信號。 SETI 團隊使用位于加利福尼亞州帽子河艾倫望遠鏡陣列的 42 個不同但同步的天線,識別了位于 Crab Nebula (距離地球約 6,500 光年) 中的脈沖星發出的無線電信號。 “宇宙非常大,而且大部分都是空的,”Cruz 說。“我們需要超人的方法 — — 這就是 AI 的本質 — — 以創造性的方式搜索數據。” SETI 研究人員使用 NVIDIA Holoscan 和定制神經網絡,

Source

]]>
13675
NVIDIA cuPyNumeric 25.03 現已完全開源,支持 PIP 和 HDF5 http://www.open-lab.net/zh-cn/blog/nvidia-cupynumeric-25-03-now-fully-open-source-with-pip-and-hdf5-support/ Wed, 23 Apr 2025 05:49:32 +0000 http://www.open-lab.net/zh-cn/blog/?p=13614 Continued]]> NVIDIA cuPyNumeric 是一個庫,旨在為基于 Legate 框架構建的 NumPy 提供分布式和加速的插入式替換。它為多 GPU 和多節點 (MGMN) 加速計算帶來了零代碼更改擴展。 cuPyNumeric 25.03 是一次里程碑式的更新,為用戶和開發者引入了強大的新功能,并增強了可訪問性,詳情請參閱本文。 “借助 cuPyNumeric 25.03,NVIDIA 在 Apache 2 許可證下開源了支持 cuPyNumeric 的 Legate 框架和運行時層。現在,cuPyNumeric 的整個堆棧均在 Apache 2 許可證下提供。此舉符合 NVIDIA 對透明度、再現性和協作性的承諾。貢獻者現在可以毫無障礙地探索、審核、貢獻和擴展系統的任何組件。” cuPyNumeric 從一開始就支持通過 conda 進行安裝。現在,

Source

]]>
13614
宣布推出基于 CUDA 評估 LLM 的開源框架 ComputeEval http://www.open-lab.net/zh-cn/blog/announcing-computeeval-an-open-source-framework-for-evaluating-llms-on-cuda/ Wed, 16 Apr 2025 05:12:10 +0000 http://www.open-lab.net/zh-cn/blog/?p=13566 Continued]]> 大語言模型 (LLMs) 正在徹底改變開發者的編碼方式和編碼學習方式。對于經驗豐富的或初級的開發者來說,如今的先進模型可以生成 Python 腳本、基于 React 的網站等。未來,強大的 AI 模型將幫助開發者編寫高性能 GPU 代碼。這就提出了一個重要問題:如何確定 LLM 是否能夠處理復雜的 CUDA 編程? ComputeEval 是一個開源框架和數據集,旨在評估 LLM 在 CUDA 代碼生成上的能力。該數據集旨在評估 LLM 在不同的并行編程領域(如內存管理和線程同步)生成正確 CUDA 代碼的能力。該框架旨在簡化對生成代碼的評估。 本文將介紹 ComputeEval 作為評估框架的工作原理、我們對先進模型的評估結果,以及它對 AI 輔助 GPU 開發的未來意味著什么。 ComputeEval 旨在專門為 CUDA 和高性能 GPU…

Source

]]>
13566
人工智能如何推動氣候創新和可持續增長 http://www.open-lab.net/zh-cn/blog/how-ai-is-shaping-climate-innovation-and-sustainable-growth/ Tue, 01 Apr 2025 08:09:48 +0000 http://www.open-lab.net/zh-cn/blog/?p=13433 Continued]]> 在 GTC 2025 大會上,來自整個技術生態系統的行業領導者小組分享了他們如何使用 AI 來減輕氣候變化帶來的破壞性越來越大的影響,并幫助客戶做好準備。 NVIDIA Inception 計劃可持續未來全球負責人 Tenika Versey 主持了一場小組討論會,與會者包括 Generation Investment Management 創始合伙人 Colin le Duc、Salesforce 執行副總裁兼首席影響官 Suzanne DiBianca、Tomorrow.io 首席執行官 Shimon Elkabetz 和 NVIDIA 杰出科學家兼工程師 Karthik Kashinath。 Tomorrow.io 的首席執行官 Elkabetz 說:“當被問及是什么讓首席執行官們夜以繼日時,他們一致認為:極端天氣事件和網絡安全。“在各行各業中,

Source

]]>
13433
借助 SES AI 的 NVIDIA 驅動的電動汽車創新技術,加速運輸業的未來發展 http://www.open-lab.net/zh-cn/blog/accelerating-the-future-of-transportation-with-ses-ais-nvidia-powered-innovation-for-electric-vehicles/ Tue, 25 Mar 2025 09:04:47 +0000 http://www.open-lab.net/zh-cn/blog/?p=13369 Continued]]> 電動汽車 (EV) 正在改變交通運輸方式,但成本、使用壽命和續航里程等挑戰仍然是廣泛采用電動汽車的障礙。這些挑戰的核心在于電池技術,尤其是電解質,這是實現能源存儲和輸送的關鍵組件。電解質的特性直接影響電池的充電速度、功率輸出、穩定性和安全性。 為了克服這些障礙,研究人員開始采用 AI 驅動的方法來加速新型電池材料的發現。 作為電池創新領域的領導者,SES AI 正在利用先進的 NVIDIA 硬件和軟件生態系統來革新材料發現。SES AI 將適用于特定領域的 LLM 與 AI 模型和 GPU 加速的模擬相結合,將數十年的研究壓縮為幾個月,并在電動汽車電池性能方面取得突破性進展。 SES AI 的開創性工作分為以下關鍵步驟: SES AI 正在創建全面的分子字典,以繪制數百萬個小分子的物理和化學性質。

Source

]]>
13369
NVIDIA CUDA-Q 助力量子應用研究 http://www.open-lab.net/zh-cn/blog/nvidia-cuda-q-powers-quantum-applications-research/ Thu, 20 Mar 2025 08:01:08 +0000 http://www.open-lab.net/zh-cn/blog/?p=13238 Continued]]> source-zh.html NVIDIA CUDA-Q 平臺旨在簡化混合式加速量子超級計算機的軟件和硬件開發。用戶可以編寫一次代碼,在任何 QPU 或模擬器上進行測試,并加速工作流程的所有部分。這為實現科學突破騰出了時間,而無需等待結果。 CUDA-Q v0.10 具有更多功能和更高的性能,比以往任何時候都更加不可或缺和靈活。例如,用戶現在可以在 Pasqal 的中立原子 QPU 上運行作業,總計四個不同量子比特模式的 八個 QPU 后端 。CUDA-Q v0.10 現在還支持先進的 NVIDIA Blackwell GPU 。 憑借 v0.10 對 NVIDIA GB200 NVL72 及其第五代多節點 NVLink 功能的支持,CUDA-Q 性能現在可以比以往得到進一步提升。基于多個標準化 Quantum Economic Development…

Source

]]>
13238
NVIDIA Earth-2 為阿聯酋的區域 AI 天氣預報提供支持 http://www.open-lab.net/zh-cn/blog/nvidia-earth-2-powers-regional-ai-weather-forecasting-in-the-united-arab-emirates/ Wed, 19 Mar 2025 08:39:11 +0000 http://www.open-lab.net/zh-cn/blog/?p=13257 Continued]]> 在阿聯酋 (UAE) ,極端天氣事件破壞日常生活、延誤航班、危及交通并使城市規劃復雜化。白天的高溫限制了人類在戶外的活動,而濃霧則是導致嚴重且往往致命的車禍的常見原因。與此同時,2024 年是該國 75 年來最強烈的降水事件,在通常干旱的地區引發了嚴重的洪水。 G42 是一家總部位于阿聯酋的領先 AI 和云計算公司 ,開發了先進的區域生成式 AI 預測系統,能夠以高達 200 米的分辨率預測阿聯酋的各種氣象事件。在本文中,我們展示了 G42 如何使用 NVIDIA GPUs 和 Earth-2 平臺構建此系統。 在阿聯酋,區域天氣預報在應對極端天氣事件(例如暴雨、濃霧、沙塵暴和酷熱)帶來的挑戰方面發揮著至關重要的作用,這些事件可能會造成基礎設施損壞,并破壞交通、物流和公共安全。除了這些緊迫的問題之外,局部天氣預報對于能源轉型也至關重要,因為它可以為將可再生能源納入電網提供信息,

Source

]]>
13257
NVIDIA 和 QuEra 利用人工智能解碼量子錯誤 http://www.open-lab.net/zh-cn/blog/nvidia-and-quera-decode-quantum-errors-with-ai/ Tue, 18 Mar 2025 06:04:51 +0000 http://www.open-lab.net/zh-cn/blog/?p=13336 Continued]]> 量子位本身對噪聲很敏感,預計即使是最可靠的量子位也始終會表現出比實際量子應用所需數量級的噪聲水平。 此噪聲問題可通過 量子糾錯(Quantum Error Correction,QEC) 解決。這是一系列能夠以可控方式識別和消除錯誤的技術,前提是量子位的噪聲級別可以低于某個更可實現的閾值級別。QEC 代碼將許多物理量子位編碼為邏輯量子位,這些量子位在防止錯誤時保持穩健性。 在這種方法中,通過重復測量構成邏輯量子位的許多物理量子位的選定組,然后在推理錯誤發生位置的傳統算法中使用測量結果 (此過程稱為 解碼 ) 來糾正錯誤。解碼具有計算挑戰性,是 QEC 技術的主要瓶頸之一。 構建快速、準確且可擴展的解碼器對于實現有用的量子計算機至關重要。在許多案例中, AI 通過解決與 QEC、編譯、 算法開發 等相關的挑戰來支持量子計算 ,這是一個很好的例子。 在 GTC 25 上,

Source

]]>
13336
了解 CUDA GPU 計算的匯編語言 PTX http://www.open-lab.net/zh-cn/blog/understanding-ptx-the-assembly-language-of-cuda-gpu-computing/ Wed, 12 Mar 2025 06:29:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=13348 Continued]]> 并行線程執行(PTX)是一種虛擬機指令集架構,從一開始就是 CUDA 的一部分。您可以將 PTX 視為 NVIDIA CUDA GPU 計算平臺的匯編語言。 在本文中,我們將解釋這意味著什么,PTX 的用途,以及您需要了解哪些內容才能在您的應用中充分利用 CUDA。我們將首先介紹 CUDA 如何生成、存儲和加載最終在 GPU 上運行的代碼。然后,我們將展示 PTX 如何實現前向兼容性,以及如何使用 PTX 讓特定領域的編程語言和其他編程語言面向 CUDA。 指令集架構(ISA)是對處理器可以執行的指令、其格式、這些指令的行為以及二進制編碼的規范。每個處理器都有 ISA。例如,x86_64 是 CPU ISA。ARM64 是另一類。GPU 也具有 ISA。對于 NVIDIA GPU,對于不同世代的 GPU,甚至是一代內不同產品線的 GPU,ISA 可能會有所不同。

Source

]]>
13348
優化 CUDA C++ 編譯時間 http://www.open-lab.net/zh-cn/blog/optimizing-compile-times-for-cuda-c/ Mon, 10 Mar 2025 08:58:34 +0000 http://www.open-lab.net/zh-cn/blog/?p=13121 Continued]]> 在現代軟件開發中,時間是非常寶貴的資源,尤其是在編譯過程中。對于在大規模 GPU 加速應用程序上使用 CUDA C++的開發者而言,優化編譯時間可以顯著提高工作效率并簡化整個開發周期。 使用 編譯器進行離線編譯時,高效的編譯時間使您能夠快速構建代碼并保持勢頭。在使用 nvrtc 的即時 (JIT) 編譯環境中,最小化編譯時間有助于減少執行或運行時延遲,并提高應用程序性能。如果您在實時系統或交互式應用程序上工作,您將從盡可能快的編譯時間中受益匪淺。 理解編譯瓶頸的來源并不總是那么簡單。CUDA 編譯過程十分復雜,因為編譯器會對代碼執行各種優化和轉換,幾乎看不到代碼的哪些部分需要很長時間才能編譯。 例如,看似簡單的代碼行可能會觸發復雜的模板實例化,從而導致其他模板的遞歸擴展,進而消耗過多的編譯時間。如果不清楚幕后發生了什么,您就不知道編譯時間較長的根本原因是什么,

Source

]]>
13121
人人超碰97caoporen国产