HPC /科學計算 – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Wed, 19 Mar 2025 08:40:49 +0000
zh-CN
hourly
1
196178272 -
利用 NVIDIA CUDA-Q 和 NVIDIA cuDNN 加速太陽能預測的量子算法實現
http://www.open-lab.net/zh-cn/blog/accelerating-quantum-algorithms-for-solar-energy-prediction-with-nvidia-cuda-q-and-nvidia-cudnn/
Wed, 23 Oct 2024 05:24:37 +0000
http://www.open-lab.net/zh-cn/blog/?p=11697
Continued]]>
改善可持續能源的來源是一個全球性問題,具有環境和經濟安全方面的影響。臺灣中原基督教大學電力系統與能源杰出教授 Ying-Yi Hong 研究混合量子經典方法,這些方法利用 量子計算 來解決電力系統和可持續能源方面的挑戰性問題。 Hong 教授的研究團隊重點關注太陽輻射預測,目標是利用地理和歷史數據來預測光伏發電場的發電量,使電力公司能夠以最佳方式調度傳統的基于礦物燃料的發電。 Hong 教授和他的學生 Dylan Lopez 使用 NVIDIA CUDA-Q 平臺 ,通過混合量子神經網絡(HQNN)運行的計算來預測太陽輻射。這項工作最近發表在論文《 使用混合量子神經網絡進行太陽輻射預測:GPU-Based Workflow 開發平臺的比較 》中。 與其他領先的量子模擬器相比,HQNN 的這項工作利用了 CUDA-Q 與 NVIDIA cuDNN 庫的互操作性,
Source
]]>
11697
-
NVIDIA CUDA-X 現可加速 Polars 數據處理庫
http://www.open-lab.net/zh-cn/blog/nvidia-cuda-x-now-accelerates-the-polars-data-processing-library/
Tue, 08 Oct 2024 07:52:07 +0000
http://www.open-lab.net/zh-cn/blog/?p=11450
Continued]]>
Polar 是發展最快的數據分析工具之一,每月的下載量剛剛突破 900 萬次。作為現代 DataFrame 庫,它旨在高效處理適合在單臺機器上運行的數據集,而不會產生大規模工作負載所需的分布式計算系統的開銷和復雜性。 隨著企業不斷處理復雜的數據問題——從檢測信用卡交易中的時間限制模式到管理全球客戶群快速變化的庫存需求——更高的性能至關重要。 Polars 和 NVIDIA 工程師剛剛發布了由 RAPIDS cuDF 提供支持的 Polars GPU 引擎 的公開測試版,將加速計算引入到不斷發展的 Polars 社區,無需更改代碼。這進一步加速了 Polars 的查詢執行,與在 CPU 上運行相比,這款快速數據處理軟件的速度提高了 13 倍。這就像為獵豹提供火箭燃料,幫助它更快地沖刺。 Polars 的作者兼首席執行官 Ritchie Vink 表示:
Source
]]>
11450
-
AI 驅動的 3D 打印技術助力外科醫生模擬手術訓練
http://www.open-lab.net/zh-cn/blog/new-ai-powered-3d-printing-can-help-surgeons-rehearse-procedures/
Fri, 20 Sep 2024 07:34:12 +0000
http://www.open-lab.net/zh-cn/blog/?p=11368
Continued]]>
華盛頓州立大學(WSU)的研究人員公布了一種新的 AI 指導 3D 打印技術,該技術可以幫助醫生打印復雜的人體器官復制品。外科醫生可以在進行實際手術之前使用這些器官模型進行練習,從而為醫生提供更多的工具來改善手術結果。 該 AI 算法根據人體腎和前列腺的圖像和關鍵屬性(包括重量、大小、孔隙率和血管結構等特征)進行訓練。該算法與 3D 打印機配合使用的過程不斷改進,有助于為 3D 打印的三個重要部分找到最佳設置:模型的準確性、重量以及打印所需的時間。 WSU 機械和材料工程助理教授 Kaiyan Qiu 是這項 研究 的合著者之一,他說,AI 優化可以顯著縮短創建可行的 3D 模型所需的時間。該算法調整關鍵的 3D 打印變量,包括打印機的噴頭尺寸和行駛速度、打印材料的分配壓力以及每個打印層的高度,然后指導打印機為特定用例創建合適的模型。 “對于手術前器官模型,
Source
]]>
11368
-
AI 賦能平臺推動個性化癌癥診斷和治療
http://www.open-lab.net/zh-cn/blog/ai-powered-platform-advances-personalized-cancer-diagnostics-and-treatments/
Thu, 05 Sep 2024 04:36:03 +0000
http://www.open-lab.net/zh-cn/blog/?p=11176
Continued]]>
近期的一項研究引入了先進的 AI 病理學平臺,該平臺可幫助醫生快速、準確地診斷和評估肺癌患者。該工具由 University of Cologne 的醫學院和 University Hospital Cologne 的一組研究人員開發,可對良性腫瘤和癌變組織進行全自動、深入的分析,從而實現更快、更個性化的治療。 肺癌以高死亡率而聞名,但精確的診斷和個性化治療可改善患者的治療效果。傳統上,腫瘤科醫生會在顯微鏡下手動檢查組織樣本,以識別揭示癌癥的細胞和結構特征然而,即使進行專家分析,這一過程也非常耗時、主觀且容易發生變化,從而導致誤診。 研究人員開發了一個基于深度學習的多類別組織分割平臺,該平臺可以自動分析數字化肺部組織樣本,并篩查癌癥,提供該區域的細胞細節。 該 AI 模型基于來自六家機構的大型數據集進行訓練和驗證,共包含來自 1,527 名患者的 4,097…
Source
]]>
11176
-
通過降低指令緩存未命中率提高 GPU 性能
http://www.open-lab.net/zh-cn/blog/improving-gpu-performance-by-reducing-instruction-cache-misses-2/
Thu, 08 Aug 2024 02:25:26 +0000
http://www.open-lab.net/zh-cn/blog/?p=10885
Continued]]>
GPU 專為高速處理大量數據而設計。GPU 具有稱為流多處理器 (SM) 的大量計算資源,以及一系列可為其提供數據的設施:高帶寬內存、高大小數據緩存,以及在活躍的線程束用完時切換到其他線程束的能力,而不會產生任何開銷。 然而,數據乏現象可能仍會發生,許多代碼優化都集中在這個問題上。在某些情況下,SMs 不是數據乏,而是指令乏。本文介紹了對 GPU 工作負載的調查,該工作負載因指令緩存丟失而經歷了速度放慢。本文介紹了如何識別此瓶頸,以及消除瓶頸以提高性能的技術。 這項研究的起源是基因組學領域的應用程序,在該領域中,必須解決與將 DNA 樣本的小部分與參考基因組進行比對相關的許多小的獨立問題。背景是眾所周知的 Smith-Waterman 算法(但這本身對討論并不重要)。 在強大的 NVIDIA H100 Hopper GPU 上,擁有 114 個 SM…
Source
]]>
10885
-
使用深度學習框架 fVDB 根據真實的 3D 數據構建空間智能
http://www.open-lab.net/zh-cn/blog/building-spatial-intelligence-from-real-world-3d-data-using-deep-learning-framework-fvdb/
Mon, 29 Jul 2024 07:19:51 +0000
http://www.open-lab.net/zh-cn/blog/?p=10811
Continued]]>
生成式物理 AI 模型可以在物理世界中理解和執行具有精細或粗運動技能的動作。了解和在物理世界的三維空間中導航需要空間智能。要在物理 AI 中實現空間智能,需要將現實世界轉換為模型可以理解的 AI 就緒型虛擬表示,以便模型能夠更好地理解和執行物理世界中的動作。 但是,根據真實數據構建空間智能需要能夠處理大規模和高分辨率現實的基礎設施。通常情況下,開發者必須拼湊不同的庫來構建空間智能框架,這種方法通常會導致錯誤和低效,從而限制虛擬環境的范圍。由于沒有統一的框架,在多個數據結構之間復制數據會引入性能瓶頸、規模受限和不必要的工作。 為了提供強大、一致的框架,以處理現實規模的物理 AI,NVIDIA 建立了 fVDB,一個為稀疏、大規模和高性能空間智能而設計的深度學習框架。 對于從事涉及大規模 3D 數據(例如通常與現實世界的模擬或測量相關的數據)的深度學習應用程序的從業者和研究人員而言,
Source
]]>
10811
-
在 cuBLAS 中引入分組 GEMM API 以及更多性能更新
http://www.open-lab.net/zh-cn/blog/introducing-grouped-gemm-apis-in-cublas-and-more-performance-updates/
Wed, 12 Jun 2024 05:43:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=10332
Continued]]>
最新版本 NVIDIA cuBLAS 庫版本 12.5 將繼續為深度學習(DL)和高性能計算(HPC)工作負載提供功能和性能。本文將概述自版本 12.0以來 cuBLAS 矩陣乘法(matrix multiplications)中的以下更新: 分組的 GEMM API 可視為批量 API 的泛化,可在一次內核啟動中對不同的矩陣大小、轉置和縮放因子進行分組和并行化。 這種方法提供加速的一個示例是多專家 (MoE)模型的批量大小為 8 和 64,以及 FP16 輸入和輸出。在本示例中,分組的 GEMM API 可以使用批量 GEMM API 實現比單純循環快 1.2 倍的速度。 這一點令人印象深刻,因為當前分組的 GEMM 核函數僅利用線程束級 MMA 指令。它們已證明可以與利用線程束級 MMA (wgmma) 指令的分批 GEMM 核函數進行競爭。
Source
]]>
10332
-
借助 NVIDIA JetPack 6.0 助力邊緣云原生微服務,現已正式發布
http://www.open-lab.net/zh-cn/blog/power-cloud-native-microservices-at-the-edge-with-nvidia-jetpack-6-0-now-ga/
Tue, 04 Jun 2024 07:34:51 +0000
http://www.open-lab.net/zh-cn/blog/?p=10204
Continued]]>
NVIDIA JetPack SDK 為 NVIDIA Jetson 模組提供支持,為構建端到端加速的人工智能應用提供全面的解決方案。JetPack 6 通過微服務和一系列新功能擴展了 Jetson 平臺的靈活性和可擴展性。這是 JetPack 2024 年下載次數最多的版本。 隨著 JetPack 6.0 正式發布,開發者可以滿懷信心地將這些新功能引入更先進的嵌入式 AI 和機器人應用。本文重點介紹了主要功能和新的 AI 工作流程。 JetPack 6 支持在 Jetson 上擴展一系列基于 Linux 的發行版。其中包括 Canonical 的 Ubuntu 服務器、Redhat 的 RHEL 9.4、SUSE、Wind River Linux、Redhawk Real Time OS 以及各種基于 Yocto 的發行版。這些基于 Linux 的發行版在 Jetson…
Source
]]>
10204
-
NVIDIA IGX 平臺上的生產就緒型企業級軟件,支持 NVIDIA RTX 6000 ADA 等
http://www.open-lab.net/zh-cn/blog/production-ready-enterprise-grade-software-on-nvidia-igx-platform-support-for-nvidia-rtx-6000-ada-and-more/
Sun, 02 Jun 2024 08:50:30 +0000
http://www.open-lab.net/zh-cn/blog/?p=10258
Continued]]>
實時邊緣 AI 對于醫療、工業和科學計算至關重要,因為這些任務關鍵型應用程序需要即時數據處理、低延遲和高可靠性,以確保及時準確的決策。這些挑戰不僅涉及硬件平臺上的高帶寬傳感器處理和 AI 計算,而且還需要企業級 AI 軟件來支持整個邊緣計算軟件堆棧。 專門為工業和醫療環境設計,NVIDIA IGX 為組織提供邊緣人工智能所需的性能、可靠性、安全性和可維護性。IGX 無需花費數年時間設計自定義系統和定制人工智能模型,而是借助 NVIDIA AI Enterprise 上的 GPU 加速計算,加速各行業先進的人工智能解決方案的開發,從而大幅減少時間和成本。 在 COMPUTEX 2024 上,IGX 通過生產就緒型 NVIDIA AI Enterprise IGX、對 NVIDIA RTX 6000 Ada dGPU 的支持、IGX 系統的擴展等,對平臺進行了重大更新。
Source
]]>
10258
-
生成式 AI 智能體開發者競賽:入門技巧
http://www.open-lab.net/zh-cn/blog/generative-ai-agents-developer-contest-top-tips-for-getting-started/
Wed, 29 May 2024 06:34:26 +0000
http://www.open-lab.net/zh-cn/blog/?p=10133
Continued]]>
參加我們將于 6 月 17 日結束的比賽,使用前沿技術展示您的創新成果:由生成式 AI 驅動的應用程序,該應用程序使用 NVIDIA 和 LangChain 技術。為了讓您開始,我們將探索一些用于激發您的創意之旅的應用程序,同時分享提示和最佳實踐,幫助您在開發過程中取得成功。 生成式 AI 智能體有許多不同的實際應用。在之前的比賽中開發的智能體或 Copilot 應用會根據應用的隱私、安全和計算要求使用大型語言模型 (LLM) 或小型語言模型 (SLM)。 這些示例包括: 開發者可以在游戲、醫療健康、媒體和娛樂等領域創建用于內容生成的應用。其他選項包括總結、在醫療健康領域,客服人員可以通過分析患者癥狀、病史和臨床數據來幫助診斷疾病,例如問答環節。 其中許多想法都適用于您的數據和您想要解決的問題 – 無論是使用客服改善每周的雜貨店購物,
Source
]]>
10133
-
NVIDIA CUDA-Q 新功能提升量子應用程序性能
http://www.open-lab.net/zh-cn/blog/new-nvidia-cuda-q-features-boost-quantum-application-performance/
Sun, 12 May 2024 07:15:11 +0000
http://www.open-lab.net/zh-cn/blog/?p=10020
Continued]]>
NVIDIA CUDA-Q(前身為 NVIDIA CUDA Quantum)是一個開源編程模型,旨在構建 量子加速超級計算,充分發揮 CPU、GPU 和 QPU 的計算能力。由于開發這些應用程序具有挑戰性,需要一個易于使用的編碼環境,能夠提供強大的量子模擬能力,以有效評估和提高新算法的性能。 CUDA-Q 包括許多顯著提高性能的新功能,使用戶能夠突破經典超級計算機上模擬的極限。這篇文章展示了 CUDA-Q 在量子模擬中的性能增強,并簡要解釋了這些改進。 計算期望值是變分量子本征求解器(VQE)應用中的主要量子任務。您可以使用 作用來確定兩個小分子(C2H2 和 C2H4)的期望值。實驗使用標準的 UCCSD 模擬,并使用 Python 進行編寫。 對于每個版本(v0.6、v0.7、v0.7.1),我們測試了三個狀態向量模擬器后端:(單精度)、(雙倍精度)和(具有柵極融合)。
Source
]]>
10020
-
Mistral Large 和 Mixtral 8x22B LLM 現已由 NVIDIA NIM 和 NVIDIA API 提供支持
http://www.open-lab.net/zh-cn/blog/mistral-large-and-mixtral-8x22b-llms-now-powered-by-nvidia-nim-and-nvidia-api/
Mon, 22 Apr 2024 04:56:57 +0000
http://www.open-lab.net/zh-cn/blog/?p=9644
Continued]]>
本周發布的模型包括兩個新的 NVIDIA AI 基礎模型:Mistral Large 和 Mixtral 8x22B。這兩個高級文本生成 AI 模型由 Mistral AI 開發,并通過 NVIDIA NIM 微服務提供預構建容器,以簡化部署過程,將部署時間從數周縮短到幾分鐘。這兩個模型可通過 NVIDIA API 目錄 訪問。 Mistral Large 是大型語言模型 (LLM),它擅長處理復雜的多語種推理任務,包括文本理解、轉換和代碼生成。它因精通英語、法語、西班牙語、德語和意大利語以及對語法和文化語境的深入理解而脫穎而出。 該模型具有 32K 令牌上下文窗口,可從大量文檔中調用精確信息。它在指令跟隨和函數調用方面表現出色。Mistral Large 在各種基準測試中表現強勁,并展示了應對編碼和數學挑戰的強大推理能力。
Source
]]>
9644
-
在加速計算時代構建高性能應用
http://www.open-lab.net/zh-cn/blog/building-high-performance-applications-in-the-era-of-accelerated-computing/
Mon, 25 Mar 2024 08:58:53 +0000
http://www.open-lab.net/zh-cn/blog/?p=9484
Continued]]>
AI 正在通過新的數據處理、模擬和建模方法增強高性能計算 (HPC).由于這些新 AI 工作負載的計算需求,HPC 正在快速擴展。 為了使應用程序能夠擴展到多 GPU 和多節點平臺,HPC 工具和庫必須支持這種增長。 NVIDIA 提供加速 HPC 軟件解決方案的全面生態系統,幫助您的應用程序滿足現代 AI 驅動工作負載的需求。 除了問題修復和改進 HPC 編譯器的編譯時性能之外,HPC SDK 24.3 提供新功能,支持最新的 NVIDIA Grace Hopper 系統。 在使用 OpenMP Target Offload 指令進行 GPU 編程時,NVIDIA HPC 編譯器提供統一的內存編譯模式。這增加了對 OpenACC 中 Grace Hopper 和 HMM 系統統一內存的現有支持,以及 CUDA Fortran 和 標準并行度(stdpar) 編程模型,
Source
]]>
9484
-
NVIDIA 語音和翻譯 AI 模型在速度和準確性方面創下記錄
http://www.open-lab.net/zh-cn/blog/nvidia-speech-and-translation-ai-models-set-records-for-speed-and-accuracy/
Tue, 19 Mar 2024 06:06:09 +0000
http://www.open-lab.net/zh-cn/blog/?p=9349
Continued]]>
NVIDIA 開發的語音和翻譯 AI 模型正在推動性能和創新的發展。NVIDIA Parakeet 自動語音識別 (ASR) 模型系列以及 NVIDIA Canary 多語種、多任務 ASR 和翻譯模型在 Hugging Face 開放 ASR 排行榜 上表現出色。此外,多語種 P-Flow 基于文本轉語音 (TTS) 的模型在 LIMMITS 的 24 項挑戰 中取得了優異成績,使用簡短的音頻片段將說話者的聲音合成為 7 種語言。 本文詳細介紹了其中一些出色的模型如何在語音和翻譯 AI (從語音識別到自定義語音創建) 領域開辟新天地。 NVIDIA Parakeet 模型系列包括 Parakeet CTC 1.1 B, Parakeet CTC 0.6 B, Parakeet RNNT 1.1 B, Parakeet RNNT 0.6 B 以及 Parakeet-TDT…
Source
]]>
9349
-
NVIDIA GB200 NVL72 提供萬億參數 LLM 訓練和實時推理
http://www.open-lab.net/zh-cn/blog/nvidia-gb200-nvl72-delivers-trillion-parameter-llm-training-and-real-time-inference/
Mon, 18 Mar 2024 07:00:33 +0000
http://www.open-lab.net/zh-cn/blog/?p=9393
Continued]]>
對萬億參數模型的興趣是什么?我們知道當今的許多用例,并且由于有望提高以下方面的能力,人們的興趣正在增加: 其優勢是巨大的,但訓練和部署大型模型的計算成本高昂且需要大量資源。旨在提供實時推理的計算高效、經濟高效且節能的系統對于廣泛部署至關重要。新的 NVIDIA GB200 NVL72 就是這樣一個系統,可以完成這項任務。 為了說明這一點,我們考慮一下多專家模型 (MoE).這些模型有助于在多個專家之間分配計算負載,并使用模型并行和管道并行跨數千個 GPU 進行訓練。提高系統效率。 然而,并行計算、高速顯存和高性能通信的新水平可以使 GPU 集群能夠應對棘手的技術挑戰。 NVIDIA GB200 NVL72 機架級架構實現了這一目標,我們將在以下博文中詳細介紹。 核心 GB200 NVL72 是 NVIDIA GB200 Grace Blackwell 超級芯片。
Source
]]>
9393
人人超碰97caoporen国产