高性能計算 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 25 Aug 2022 03:50:20 +0000 zh-CN hourly 1 196178272 NVIDIA Grace CPU 內部:NVIDIA 為 HPC 和 AI 加強超級芯片工程 http://www.open-lab.net/zh-cn/blog/inside-nvidia-grace-cpu-nvidia-amps-up-superchip-engineering-for-hpc-and-ai/ Tue, 23 Aug 2022 03:46:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4954 Continued]]> NVIDIA Grace CPU 是 NVIDIA 開發的第一個數據中心 CPU 。它是從頭開始建造的,以創建 世界上第一個超級芯片 . 旨在提供卓越的性能和能效,以滿足現代數據中心工作負載的供電需求 數字孿生 , 云游戲和圖形 , 人工智能 和 高性能計算 ( HPC ) NVIDIA Grace CPU 具有 72 個 Armv9 GPU 內核,實現 Arm 可伸縮向量擴展第二版 ( SVE2 )指令集。核心還包括具有嵌套虛擬化功能和 S-EL2 支持的虛擬化擴展。 NVIDIA Grace CPU 還符合以下 Arm 規范: Grace CPU 被構建為與 NVIDIA Hopper GPU 創建用于大規模人工智能訓練、推理和高性能計算的 NVIDIA Grace CPU 超級芯片,或與另一個 Grace CPU ,構建高性能[Z1K22],

Source

]]>
4954
騰訊廣告視頻抽幀的全流程 GPU 加速 http://www.open-lab.net/zh-cn/blog/nvidia-tencent-gpu-accelerate/ Thu, 19 May 2022 09:10:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=4051 Continued]]> 騰訊廣告的開發人員改進了視頻抽幀的實現方式,使得全流程的操作均在 GPU 上完成,取代了原有的 CPU 抽幀流程,提高了性能,并降低了成本。 視頻已成為內容和廣告的主要媒介形式,但目前的視頻內容理解或審核等 AI 能力,主流依然是先抽幀,再基于圖像幀做特征提取和預測。 騰訊廣告部門日常處理大量的視頻信息,而抽幀是視頻分析的第一步。抽幀由于步驟多、計算重,在視頻 AI 推理場景很容易成為性能瓶頸。 在騰訊廣告的流量中,視頻所占比例逐年快速提升,視頻抽幀這里如果出現時耗或吞吐瓶頸(特別是針對高 FPS 抽幀的情況),很容易影響到后續的特征提取以及模型預測性能。在當前的廣告視頻 AI 推理服務中,抽幀往往占據了其中大部分時耗,因此,視頻抽幀的性能對于視頻內容理解服務的時耗和整體資源開銷,有著舉足輕重的地位。 視頻抽幀的幾個步驟,

Source

]]>
4051
NVIDIA A100 加速醫學圖像處理深度學習研究 http://www.open-lab.net/zh-cn/blog/nvidia-a100-sklmr/ Thu, 19 May 2022 08:51:18 +0000 http://www.open-lab.net/zh-cn/blog/?p=4047 Continued]]> 本案例中通過 NVIDIA A100 GPU 加速器,上海市磁共振重點實驗室構建了高效的深度學習科研硬件平臺,建立高效且穩定的針對醫學圖像處理的深度學習平臺。 • 本案例中 NVIDIA 精英級合作伙伴信弘智能助力上海市磁共振重點實驗室部署了高效的科研硬件平臺。 上海市磁共振重點實驗室(Shanghai Key Laboratory of Magnetic Resonance)是從屬于華東師范大學的省部級重點實驗室, 是國內核磁共振研究和人才培養的主要基地之一。多年來,堅持自己在磁振物理學上的專業特色,逐漸形成了應用研究與技術研發并重,磁共振波譜與磁共振成像兼顧的局面,并先后建立了“上海市磁共振成像技術平臺”和“上海市核磁共振波譜技術服務平臺”兩個開放平臺,進一步強化了實驗室的開放服務功能。

Source

]]>
4047
多節點多 GPU :大規模使用 NVIDIA cuFFTMp FFT http://www.open-lab.net/zh-cn/blog/multinode-multi-gpu-using-nvidia-cufftmp-ffts-at-scale/ Thu, 27 Jan 2022 05:41:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2965 Continued]]> 今天,NVIDIA 宣布發布 Early Access ( EA )的 cuFFTMp 。 cuFFTMp 是 cuFFT 的多節點、多進程擴展,使科學家和工程師能夠在 exascale 平臺上解決具有挑戰性的問題。 FFTs ( Fast Fourier Transforms )廣泛應用于分子動力學、信號處理、計算流體力學( CFD )、無線多媒體和機器學習等領域。有了 cuFFTMp , NVIDIA 現在不僅支持單個系統中的多個 GPU ,還支持跨多個節點的多個 GPU 。 圖 1 顯示, cuFFTMp 達到 1.8 PFlop / s 以上,超過該規模轉換峰值機器帶寬的 70% 。 在圖 2 中,問題大小保持不變,但 GPU 的數量從 8 增加到 2048 。可以看到, cuFFTMp 成功地擴展了問題,將單精度時間從 8 GPU ( 1 個節點)的…

Source

]]>
2965
使用最新的 Nsight Compute 進行高級內核評測 http://www.open-lab.net/zh-cn/blog/advanced-kernel-profiling-with-the-latest-nsight-compute/ Thu, 27 Jan 2022 05:18:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2956 Continued]]> NVIDIA Nsight Compute 是用于 CUDA 應用程序的交互式內核分析器。它通過用戶界面和命令行工具提供詳細的性能指標和 API 調試。 Nsight Compute 2022.1 更新了數據收集模式,為性能分析提供了新的用例和選項。 立即下載>> Nsight Compute 的這一版本擴展了現有的重播模式,提供了范圍重播的高要求功能。 Range Replay 捕獲并重放分析應用程序中 CUDA API 調用和內核啟動的完整范圍。度量與整個范圍相關聯,而不是單個內核。這允許該工具在不序列化的情況下執行內核,并支持出于正確性或性能原因而需要并發運行的評測內核。范圍由起點和終點標記組成;并包括所有 CUDA API 調用和從任何 CPU 線程在這些標記之間啟動的內核。 范圍標記可以使用以下任一方法定義: 有關完整的詳細信息,

Source

]]>
2956
CUDA 11.6 工具包發布新版本 http://www.open-lab.net/zh-cn/blog/cuda-11-6-toolkit-new-release-revealed/ Mon, 17 Jan 2022 03:51:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2802 Continued]]> NVIDIA 發布了 CUDA 開發環境 CUDA 11.6 的最新版本。本版本的重點是增強 CUDA 應用程序的編程模型和性能。 CUDA 繼續推動 GPU 加速度的邊界,并為 HPC 、可視化、 AI 、 ML 和 DL 和數據科學中的新應用奠定基礎。 CUDA 11.6 有幾個重要特性。這篇文章概述了關鍵功能: CUDA 11.6 附帶 R510 驅動程序,這是一個更新分支。 CUDA 11.6 工具包可供下載 . GSP 驅動程序體系結構現在是所有列出的圖靈和安培 GPU 的默認驅動程序模式。較舊的驅動程序體系結構作為后備支持。有關更多信息,請參閱 R510 驅動程序自述 。 我們添加了一個新的 API ,以允許禁用實例化圖中的節點。在此版本中,支持僅限于內核節點。相應的 API 允許查詢節點的啟用狀態。我們還添加了禁用空內核圖節點啟動的功能。

Source

]]>
2802
使用 NVIDIA CUDA-Pointpillars 檢測點云中的對象 http://www.open-lab.net/zh-cn/blog/detecting-objects-in-point-clouds-with-cuda-pointpillars/ Thu, 13 Jan 2022 05:02:31 +0000 http://www.open-lab.net/zh-cn/blog/?p=2761 Continued]]> 點云是坐標系中的點數據集。點包含豐富的信息,包括三維坐標(X、Y、Z)、顏色、分類值、強度值和時間等。點云主要來自于各種NVIDIA Jetson用例中常用的激光雷達,如自主機器、感知模塊和3D建模。 其中一個關鍵應用是利用遠程和高精度的數據集來實現3D對象的感知、映射和定位算法。 PointPillars是最常用于點云推理的模型之一。本文將探討為Jetson開發者提供的NVIDIA CUDA加速PointPillars模型。馬上下載CUDA-PointPillars模型。 本文所介紹的CUDA-Pointpillars可以檢測點云中的對象。其流程如下: 基本預處理步驟將點云轉換為基本特征圖。基本特征圖包含以下組成部分: 預處理步驟將基本特征圖(4個通道)轉換為 BEV 特征圖(10個通道)。

Source

]]>
2761
用標準語言并行性開發加速代碼 http://www.open-lab.net/zh-cn/blog/developing-accelerated-code-with-standard-language-parallelism/ Wed, 12 Jan 2022 05:03:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2768 Continued]]> NVIDIA 平臺是最成熟、最完整的加速計算平臺。在這篇文章中,我將介紹最簡單、最高效、最可移植的加速計算方法。有三種編程方法 GPU (圖 1 )。 CUDA C ++ Fortran 是 NVIDIA 可以展示新硬件和軟件創新的創新平臺,在這里,您可以調整應用程序以在 NVIDIA GPU 上實現最佳性能。許多開發人員認為這就是 NVIDIA 希望每個人為 GPU 編程的方式。 相反,我們預計,開發者首次來到NVIDIA 平臺將使用標準的并行編程語言,如 ISO C ++、 ISO Fortran 和 Python 。在這篇文章中,我強調了使用這種方法進行并行編程的一些成功,以證明進入NVIDIA CUDA 生態系統的最有成效的途徑。 NVIDIA 戰略的基礎是提供一套豐富、成熟的 SDK 和庫,在這些數據庫上可以構建應用程序。

Source

]]>
2768
通過 NVIDIA DLI 的入門課程開始學習 NVIDIA Triton http://www.open-lab.net/zh-cn/blog/getting-started-on-nvidia-triton-with-an-introductory-course-from-nvidia-dli/ Wed, 05 Jan 2022 04:24:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2716 Continued]]> 很多人喜歡構建機器學習模型。挑戰包括確定要預測的變量、尋找最佳模型體系結構的實驗,以及對正確的訓練數據進行采樣。但是,如果您無法訪問該模型,它又有什么好處呢? 進入 NVIDIA Triton 推理服務器 . NVIDIA Triton 幫助數據科學家和系統管理員將用于訓練模型的機器轉變為用于模型預測的 web 服務器。雖然不需要 GPU ,但 NVIDIA Triton 推理服務器可以利用多個安裝的 GPU 快速處理大批量請求。 為了獲得實時服務器的實踐, NVIDIA 深度學習培訓中心(DLI) 提供了一個名為大規模推理部署模型的 4 學時在線自主培訓課程。 NVIDIA Triton 是在考慮到 機器學習操作 或 MLOps 的情況下創建的。 MLOps 是從開發人員操作( DevOps )演變而來的一個相對較新的領域,其重點是在生產環境中擴展和維護機器學習模型。

Source

]]>
2716
利用高性能虛擬工作站加速地球科學工作流程 http://www.open-lab.net/zh-cn/blog/accelerating-geoscience-workflows-with-high-performance-virtual-workstations/ Fri, 17 Dec 2021 06:01:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2700 Continued]]> 無論是遠程工作還是辦公室工作,地球科學家都依賴于快速訪問大型復雜數據集來提高工作效率。然而,他們高達 40% 的時間花在等待數據加載上,額外的時間浪費在等待使用高成本遺留 IT 系統的地球科學應用上。 為了提高地球科學家的生產力,地球計算集團、聯想和 NVIDIA 合作開發了一種遠程解釋和可視化設備( RiVA )。高性能計算平臺是專門為地下工作流程創建的,包括地震分析和儲層模擬。 使用 RiVA ,石油和天然氣企業能夠以 50 到 100 倍的速度訪問數據,并顯著縮短模型部署時間。 Riva 為勘探和生產中使用的遠程托管、行業標準應用程序提供了高性能、低延遲、整合的環境。該平臺將聯想服務器和存儲與 NVIDIA RTX 、 GPU 、 NVIDIA RTX 虛擬工作站以及 Infiniband 高速網絡集成在一起。

Source

]]>
2700
使用 HPC SDK 21.11 (現已提供)最大限度地提高 HPC 應用程序的性能 http://www.open-lab.net/zh-cn/blog/maximize-performance-of-hpc-apps-with-hpc-sdk-21-11-available-now/ Mon, 13 Dec 2021 04:38:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2634 Continued]]> 在超級計算大會 (SC21) 上,NVIDIA 預先宣布了 HPC SDK 的下一次更新。今天,HPC SDK 21.11 版本發布給開發者計劃成員免費下載 高性能 NVIDIA SDK 是一套全面的編譯器和庫,用于高性能計算開發。它包括各種各樣的工具,這些工具被證明可以最大限度地提高開發人員的生產率,以及 HPC 應用程序的性能和可移植性。 HPC SDK 及其組件每年都會更新多次,包括新功能、性能提升和其他增強功能。 此 21.11 版本將包括對 HPC ++/ Fortran 編譯器支持和開發人員環境的更新,以及新的多節點多 GPU 庫功能。 …

Source

]]>
2634
使用 cuTENSOR v1.4 編程分布式多 GPU 張量運算 http://www.open-lab.net/zh-cn/blog/programming-distributed-multi-gpu-tensor-operations-with-cutensor-v1-4/ Mon, 29 Nov 2021 04:32:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2449 Continued]]> 今天, NVIDIA 宣布推出 cuTENSOR 1.4 版,它支持多達 64 維張量、分布式多 GPU 張量操作,并幫助改進張量收縮性能模型。現在可以免費下載此軟件。 下載 cuTENSOR 軟件。 有關更多信息,請參閱 cuTENSOR 發行說明 。 cuTENSOR 是一個用于張量原語的高性能 CUDA 庫;其主要特點包括: …

Source

]]>
2449
使用 CUTLASS v2.8 實現高性能矩陣乘法 http://www.open-lab.net/zh-cn/blog/implementing-high-performance-matrix-multiplication-using-cutlass-v2-8/ Tue, 23 Nov 2021 02:20:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2435 Continued]]> NVIDIA 繼續增強 Cutslass ,以提供對混合精度計算的廣泛支持,提供專門的數據移動和多重累積抽象。今天, NVIDIA 宣布推出 Cutslass 2 . 8 版。 下載 免費 Cutslass v2 . 8 軟件。 有關更多信息,請參閱 CUTLASS 發行說明 。 CUTLASS 是 CUDA C ++模板抽象的集合,用于在 CUDA 的所有級別和規模上實現高性能矩陣乘法( GEMM )。它結合了分層分解和數據移動的策略,類似于用于實現的策略。 CUTLASS 將這些“運動部件”分解為 C ++模板類抽象的可重用和模塊化的軟件組件。這些線程范圍、扭曲范圍、塊范圍和設備范圍的原語可以通過自定義平鋪大小、數據類型和其他算法策略進行專門化和調優。由此產生的靈活性簡化了它們在定制內核和應用程序中作為構建塊的使用。 為了支持多種應用程序,

Source

]]>
2435
MLPerf HPC v1.0 :深入研究優化,創造 NVIDIA 創紀錄的性能 http://www.open-lab.net/zh-cn/blog/mlperf-hpc-v1-0-deep-dive-into-optimizations-leading-to-record-setting-nvidia-performance/ Wed, 17 Nov 2021 07:10:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2387 Continued]]> 在 MLPerf HPC v1 . 0 中, NVIDIA 供電系統贏得了五項新的行業指標中的四項,這些指標主要關注 HPC 中的人工智能性能。作為一個全行業人工智能聯盟, MLPerf HPC 評估了一套性能基準,涵蓋了廣泛使用的人工智能工作負載。 在這一輪中,與 MLPerf 0 . 7 的強大擴展性結果相比, NVIDIA 在 CosmoFlow 上的性能提高了 5 倍,在 DeepCAM 上的性能提高了 7 倍。這一強大的表現得益于成熟的 NVIDIA AI 平臺和全套軟件。 提供豐富多樣的庫、 SDK 、工具、編譯器和探查器,很難知道在正確的情況下何時何地應用正確的資產。這篇文章詳細介紹了各種場景的工具、技術和好處,并概述了 CosmoFlow 和 DeepCAM 基準測試所取得的成果。 我們已經為 MLPerf Training v1.0…

Source

]]>
2387
以百萬倍的性能克服高級計算難題 http://www.open-lab.net/zh-cn/blog/overcoming-advanced-computing-challenges-with-million-x-performance/ Wed, 17 Nov 2021 06:56:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2381 Continued]]> 上周在 NVIDIA GTC 上,Jensen Huang 在計算性能方面展示了 the vision for realizing multi-Million-X speedups 。這一突破可以解決數據密集型研究中面臨的計算需求挑戰,幫助科學家進一步開展工作。 百萬 X 開啟了潛力的新世界,其應用非常廣泛。 NVIDIA 目前的例子包括加速藥物發現、準確模擬氣候變化以及推動制造業的未來。 NVIDIA 、加州理工學院和初創公司 Entos 的研究人員將機器學習和物理相結合,創建了 OrbNet ,將分子模擬速度提高了許多數量級。因此, Entos 可以將其藥物發現模擬速度提高 1000 倍,在 3 小時內完成本應花費 3 個多月時間的任務。 上周,Jensen Huang 宣布了 創建 Earth 2 的計劃 ,

Source

]]>
2381
人人超碰97caoporen国产