• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 數據中心/云端

    在加速計算時代構建高性能應用

    AI 正在通過新的數據處理、模擬和建模方法增強高性能計算 (HPC).由于這些新 AI 工作負載的計算需求,HPC 正在快速擴展。

    為了使應用程序能夠擴展到多 GPU 和多節點平臺,HPC 工具和庫必須支持這種增長。 NVIDIA 提供加速 HPC 軟件解決方案的全面生態系統,幫助您的應用程序滿足現代 AI 驅動工作負載的需求。

    HPC SDK 24.3

    除了問題修復和改進 HPC 編譯器的編譯時性能之外,HPC SDK 24.3 提供新功能,支持最新的 NVIDIA Grace Hopper 系統。

    在使用 OpenMP Target Offload 指令進行 GPU 編程時,NVIDIA HPC 編譯器提供統一的內存編譯模式。這增加了對 OpenACC 中 Grace Hopper 和 HMM 系統統一內存的現有支持,以及 CUDA Fortran標準并行度(stdpar) 編程模型,這些模型在 nv c++ 和 nv Fortran 中通過 `-gpu=unified` 命令行標志實現。

    對于 CUDA Fortran 程序,`unified` 屬性已被添加,以提供額外的類型信息。此信息使應用程序能夠針對統一內存系統 (例如 Grace Hopper) 進行進一步優化。

    所有這些功能以及其他性能增強功能現在已在 HPC SDK 24.3 版本中提供。有關更多信息,請參閱 HPC SDK 24.3 版本說明

    適用于 Grace CPU 的 NVIDIA 性能庫

    AI 模型 在云、超大規模和科學工作負載中正在發生變化。這些工作負載在不同的配置中快速擴展。NVIDIA Grace CPU 通過提供高性能、高能效和高帶寬連接,解決 AI 模型日益增長的復雜性和規模問題。它將 NVIDIA 數據中心的 CPU 和 GPU 緊密合。

    為了加速應用程序中的 CPU 工作負載,NVIDIA 性能庫(NVPL)可替代目前許多應用程序使用的行業標準數學庫。NVPL 對 Grace CPU 進行優化,使您能夠將應用程序移植到 Grace 架構,而無需更改源代碼。

    NVPL 現已在 HPC SDK 24.3 版本中提供。

    NVPL 還可用于 獨立下載,其中包含 NVPL TENSOR,用于加速 Grace CPU 上的深度學習和推理,并支持 Tensor 收縮、歸約和元素級運算。

    用于構建和優化微服務的工具

    云和高性能計算應用程序對可擴展解決方案的需求不斷增加。隨著應用程序跨數據中心和云的擴展,NVIDIA Nsight 開發者工具 持續發展以提供幫助。

    Nsight Systems 2024.2 版本引入了新功能,以幫助您構建和優化微服務。更多信息請參閱 Nsight Systems 2024.2 文檔

    視頻 1. 借助 NVIDIA Nsight Systems 將 AI 應用擴展到數據中心和云

    已增強對 Kubernetes 和 Docker 等容器系統的分析支持,包括 Azure、Amazon、Oracle 和 Google 等主要提供商提供的 CSP Kubernetes 服務。

    稱為 recipe 的 Python 腳本使您能夠在應用程序跨數據中心執行時執行單節點和多節點分析。然后,Nsight Systems 使用 JupyterLab 集成,以提供交互式分析和可重用的工作流程。

    網絡分析方法已發布,揭示了計算冷點與通信之間的關系。您可以生成多節點熱圖,以確定在何處進行優化 InfinibandNVLink 實現峰值性能。

    為了滿足您編寫代碼的需求,服務器開發由遠程 GUI 流容器提供支持。Nsight Systems 還與 Jupyter Lab 無縫集成,使您能夠分析代碼并直接在 Jupyter 中查看文本結果,或啟動 GUI 流容器進行深入分析。

    立即下載?Nsight Systems 2024.2,并開始探索。有關工具和教程的更多信息,請參閱?此處

    CUDA GPU 加速的數學庫

    CUDA GPU 加速的數學庫 可在 HPC 應用程序中實現峰值性能。現已推出,cuDSS(預覽) 是一個 GPU 加速的直接稀疏求解器庫,用于求解稀疏矩陣線性系統,這在自動駕駛和過程模擬中很常見。有關更多信息,請參閱 此文:Honeywell 借助 NVIDIA cuDSS 加速工業過程模擬

    基本線性代數子程序 (BLAS) 是 AI 和 HPC 應用的基石。cuBLAS 提供 GPU 加速的 BLAS,以在峰值性能下執行這些操作。CUDA 工具包 12.4 此外,cuBLAS 增加了對單精度和雙精度計算的分組批量 GEMM (通用矩陣乘法) 實驗支持。分組批量模式使您能夠同時求解具有以下差異的 GEMM:

    • 尺寸:(m, n, k)
    • 領先維度(ldaldbldc
    • 轉換(transa, transb
    • 縮放系數 (α,測試版)

    融合 CUDA 內核中的數值運算可減少內存訪問用度和內核啟動用度,從而提高 GPU 加速應用程序的性能。這兩個庫現在均可獨立下載:

    • cuBLASDx 允許您利用 BLAS 的融合數值運算。
    • cuFFTDx 為深度學習和計算機視覺應用中常用的快速里葉變換 (FFT) 提供了相同的功能。

    除了,cuTENSOR 2.0 cuTENSOR 庫已發布,全面更新 cuTENSOR 庫以提高速度和靈活性。cuTENSOR 為張量計算(元素級、歸約和收縮)提供了優化例程,從而加速神經網絡的訓練和推理。

    版本 2.0 在性能和功能方面對庫進行了升級,包括即時內核編譯的支持。有關更多信息,請參閱 cuTENSOR 2.0:加速張量計算的綜合指南

    多 GPU 多節點數學庫

    分布式計算為滿足 AI 的計算需求提供了基礎設施。大規模數據處理任務分布在多個節點和 GPU 之間并進行并行化,以加快訓練和推理時間。隨著 HPC 應用程序的擴展,基礎數學庫還必須支持新的多 GPU 多節點計算環境。

    CUDA 數學庫為這些計算密集型應用程序提供關鍵的數學算法。主機 API 擴展程序現已推出,支持數學庫來解決百億億級 (Exascale) 問題。

    cuBLASMp(預覽) 是一個高性能、多進程庫,適用于分布式、基礎、密集線性代數。它利用 Tensor Core 加速,同時在 GPU 之間進行高效通信并同步其進程。該庫可下載于 HPC SDK 或獨立下載。

    NVIDIA 還提供 cuSOLVERMp,用于解決分布式密集線性系統和特征值問題。此外,還提供了 cuFFTMp,用于解決多 GPU 多節點平臺上的 FFT 問題。

    立即開始使用 CUDA 數學庫

    結束語

    為使應用程序能夠跨多 GPU 多節點平臺進行擴展,NVIDIA 提供一個由工具、庫和編譯器組成的生態系統,用于大規模加速計算。加速計算是 AI 驅動的 HPC 應用程序的引擎。深入了解加速計算主題 加速計算 開發者論壇以了解更多信息。

    0

    標簽

    人人超碰97caoporen国产