standard parallelism – NVIDIA 技術博客

NVIDIA HPC SDK v22.11 現已提供新的異步編程模型庫

Thu, 17 Nov 2022 11:06:00 +0000

為慶祝 SuperComputing 2022 國際會議， NVIDIA 宣布發布 HPC 軟件開發工具包（ SDK ） v22.11 。 NVIDIA 開發者計劃的成員可以免費下載。 NVIDIA HPC SDK 是一套面向高性能計算（ HPC ）開發人員的編譯器、庫和工具。它提供了開發人員高效開發高性能應用程序所需的一切。 HPC SDK 及其組件每年都會進行多次更新，包括新功能、性能提升和其他增強。除了通常的修復和增強之外，新的 v22.1 版本還為您提供了一個創新的庫的預覽，該庫旨在標準化 C ++異步。該庫使開發人員能夠編寫不特定于 CPU 或 GPU 機器的高級算法代碼，從而提高了程序員的生產力和應用程序的可移植性。庫引入了異步調度工作的能力，這導致了比現有 C ++并行算法更好的資源利用率和性能。這實現了細粒度的執行控制、最小化延遲，

Source

]]>

用 Fortran 標準并行編程實現 GPU 加速

Fri, 27 May 2022 07:25:00 +0000

這是標準并行編程系列的第四篇文章，旨在指導開發人員在標準語言中使用并行來加速計算的優勢：標準語言已經開始添加編譯器可用于加速 GPU 和 CPU 并行編程的功能，例如 Fortran 中的循環和數組數學內部函數。使用標準語言特性有許多優點，主要優點是未來的可驗證性。由于 Fortran 的是一種標準語言功能，因此將來失去支持的可能性很小。這個特性在初始代碼開發中使用起來也相對簡單，并且增加了可移植性和并行性。在初始代碼開發中使用有助于鼓勵您在編寫和實現循環時從一開始就考慮并行性。對于初始代碼開發，是添加 GPU 支持的好方法，無需學習指令。然而，即使是已經通過使用 OpenACC 和 OpenMP 等指令進行 GPU 加速的代碼，也可以從重構到標準并行性中獲益，原因如下： POT3D 是一個 Fortran 代碼，它使用表面場觀測值作為輸入，

Source

]]>

多個 GPU 標準 C ++并行編程，第 2 部分

Mon, 18 Apr 2022 03:27:00 +0000

這是標準并行編程系列的第三篇文章，講述在標準語言中使用并行性來加速計算的優點。在第 1 部分中，我們解釋了：在這篇文章中，我們繼續優化 ISOC ++算法的性能，然后使用 MPI 來跨多個 GPU 來縮放應用。期望 CPU 到 GPU 端口的性能低于專用 HPC 代碼的性能似乎很自然。畢竟，您受到軟件體系結構、已建立的 API 的限制，以及考慮用戶群期望的復雜額外功能的需要。不僅如此， C ++標準并行化的簡單編程模型允許比專用語言（如 CUDA ）更少的手動微調。在現實中，通常可以將這種性能損失控制和限制到可以忽略不計的程度。關鍵是分析各個代碼部分的性能指標，消除不能反映軟件框架實際需求的性能瓶頸。一個好的做法是為數值算法的核心組件維護一個單獨的原理證明代碼。這種方法的性能可以更自由地優化，并與完整、復雜的軟件框架（如 Palabos…

Source

]]>

多個 GPU 標準 C ++并行編程，第 1 部分

Mon, 18 Apr 2022 03:12:00 +0000

這是標準并行編程系列的第二篇文章，講述在標準語言中使用并行性來加速計算的優點。將應用程序移植到 GPU 的難度因情況而異。在最佳情況下，您可以通過調用現有的 GPU 優化庫來加速關鍵代碼部分。例如，當模擬軟件的構建塊由 BLAS 線性代數函數組成時，可以使用 cuBLAS 對其進行加速。但在許多代碼中，你不能四處做一些手工工作。在這些場景中，您可以考慮使用特定于域的語言，例如 CUDA 來針對特定的加速器。或者，您可以使用基于指令的方法，如 OpenMP 或 OpenACC ，以保持原始語言，并使用相同的代碼針對主機和各種類型的設備。隨著本機形式的并行在C++、FORTRAN和 Python 編程語言的現代版本中的出現，現在可以利用類似的高級方法而不需要語言擴展。我們的重點是 C ++語言，它作為 C ++ 17 標準，

Source

]]>