Parallel Programming – NVIDIA 技術博客

NVIDIA HPC SDK v22.11 現已提供新的異步編程模型庫

Thu, 17 Nov 2022 11:06:00 +0000

為慶祝 SuperComputing 2022 國際會議， NVIDIA 宣布發布 HPC 軟件開發工具包（ SDK ） v22.11 。 NVIDIA 開發者計劃的成員可以免費下載。 NVIDIA HPC SDK 是一套面向高性能計算（ HPC ）開發人員的編譯器、庫和工具。它提供了開發人員高效開發高性能應用程序所需的一切。 HPC SDK 及其組件每年都會進行多次更新，包括新功能、性能提升和其他增強。除了通常的修復和增強之外，新的 v22.1 版本還為您提供了一個創新的庫的預覽，該庫旨在標準化 C ++異步。該庫使開發人員能夠編寫不特定于 CPU 或 GPU 機器的高級算法代碼，從而提高了程序員的生產力和應用程序的可移植性。庫引入了異步調度工作的能力，這導致了比現有 C ++并行算法更好的資源利用率和性能。這實現了細粒度的執行控制、最小化延遲，

Source

]]>

通過 NVIDIA Magnum IO 擴展 VASP

Tue, 15 Nov 2022 07:33:00 +0000

你可以提出一個論點，即文明和技術進步的歷史就是物質的探索和發現的歷史。時代不是以領導人或文明命名的，而是以定義他們的材料命名的：石器時代、青銅時代等等。當前的數字或信息時代可以改名為硅或半導體時代，并保留相同的含義。盡管硅和其他半導體材料可能是當今推動變革的最重要的材料，但研究中還有其他幾種材料同樣可以推動下一代變革，包括以下任何一種：半導體是構建芯片的核心，這些芯片能夠對這種新型材料進行廣泛而復雜的搜索。 2011 年，美國 Materials Genome Initiative 推動使用模擬識別新材料。然而，在當時，甚至在今天的某種程度上，即使在現代超級計算機上，根據第一原理計算材料性質也可能會非常緩慢。 Vienna Ab initio Simulation Package (VASP) 是用于此類預測的最流行的軟件工具之一，

Source

]]>

介紹 QODA ：混合量子經典計算平臺

Tue, 12 Jul 2022 05:18:00 +0000

在過去的十年里，量子計算從學術實驗室躍入主流。創業公司和大公司都在努力制造更好的量子計算機。雖然目前尚不清楚我們離在常見問題上使用量子優勢還有多遠，但很明顯，現在是構建交付有價值的量子應用所需工具的時候了。首先，我們需要在理解量子算法方面取得進展。去年， NVIDIA 發布了 cuQuantum ，這是一款用于加速量子計算模擬的軟件開發工具包（ SDK ）。在 GPU 上使用 cuQuantum 模擬量子電路，使算法研究的性能和規模遠遠超過了目前在量子處理單元（ QPU ）上可以實現的性能和規模。這為在理解如何充分利用量子計算機方面取得突破鋪平了道路。除了改進量子算法外，我們還需要充分利用 QPU 以及經典計算資源 CPU 和 GPU 。如今， NVIDIA 宣布推出量子優化設備架構（ QODA ）是一個混合量子經典計算平臺，其使命是實現這一效用。

Source

]]>

通過 GPU 使用 DPDK 和 GPUdev 增強內聯數據包處理

Thu, 28 Apr 2022 09:34:00 +0000

使用 GPU 對網絡數據包進行內聯處理是一種數據包分析技術，可用于許多不同的應用領域：信號處理、網絡安全、信息收集、輸入重建等。這些應用程序類型的主要要求是盡快將接收到的數據包移動到 GPU 內存中，以觸發負責對其執行并行處理的 CUDA 內核。總體思路是創建一個連續的異步管道，能夠將數據包從網卡直接接收到 GPU 內存中。您還可以使用 CUDA 內核來處理傳入的數據包，而無需同步 GPU 和 CPU 。有效的應用程序工作流包括使用無鎖通信機制在以下播放器組件之間創建一個協調的連續異步管道：圖 1 顯示了使用 NVIDIA GPU 和 ConnectX 網卡的加速內聯數據包處理應用程序的典型數據包工作流場景。在這種情況下，避免延遲是至關重要的。不同組件之間的通信越優化，系統的響應速度就越快，吞吐量也就越高。每一步都必須在所需資源可用時以內聯方式進行，

Source

]]>

多個 GPU 標準 C ++并行編程，第 2 部分

Mon, 18 Apr 2022 03:27:00 +0000

這是標準并行編程系列的第三篇文章，講述在標準語言中使用并行性來加速計算的優點。在第 1 部分中，我們解釋了：在這篇文章中，我們繼續優化 ISOC ++算法的性能，然后使用 MPI 來跨多個 GPU 來縮放應用。期望 CPU 到 GPU 端口的性能低于專用 HPC 代碼的性能似乎很自然。畢竟，您受到軟件體系結構、已建立的 API 的限制，以及考慮用戶群期望的復雜額外功能的需要。不僅如此， C ++標準并行化的簡單編程模型允許比專用語言（如 CUDA ）更少的手動微調。在現實中，通常可以將這種性能損失控制和限制到可以忽略不計的程度。關鍵是分析各個代碼部分的性能指標，消除不能反映軟件框架實際需求的性能瓶頸。一個好的做法是為數值算法的核心組件維護一個單獨的原理證明代碼。這種方法的性能可以更自由地優化，并與完整、復雜的軟件框架（如 Palabos…

Source

]]>

多個 GPU 標準 C ++并行編程，第 1 部分

Mon, 18 Apr 2022 03:12:00 +0000

這是標準并行編程系列的第二篇文章，講述在標準語言中使用并行性來加速計算的優點。將應用程序移植到 GPU 的難度因情況而異。在最佳情況下，您可以通過調用現有的 GPU 優化庫來加速關鍵代碼部分。例如，當模擬軟件的構建塊由 BLAS 線性代數函數組成時，可以使用 cuBLAS 對其進行加速。但在許多代碼中，你不能四處做一些手工工作。在這些場景中，您可以考慮使用特定于域的語言，例如 CUDA 來針對特定的加速器。或者，您可以使用基于指令的方法，如 OpenMP 或 OpenACC ，以保持原始語言，并使用相同的代碼針對主機和各種類型的設備。隨著本機形式的并行在C++、FORTRAN和 Python 編程語言的現代版本中的出現，現在可以利用類似的高級方法而不需要語言擴展。我們的重點是 C ++語言，它作為 C ++ 17 標準，

Source

]]>

用標準語言并行性開發加速代碼

Wed, 12 Jan 2022 05:03:00 +0000

NVIDIA 平臺是最成熟、最完整的加速計算平臺。在這篇文章中，我將介紹最簡單、最高效、最可移植的加速計算方法。有三種編程方法 GPU （圖 1 ）。 CUDA C ++ Fortran 是 NVIDIA 可以展示新硬件和軟件創新的創新平臺，在這里，您可以調整應用程序以在 NVIDIA GPU 上實現最佳性能。許多開發人員認為這就是 NVIDIA 希望每個人為 GPU 編程的方式。相反，我們預計，開發者首次來到NVIDIA 平臺將使用標準的并行編程語言，如 ISO C ++、 ISO Fortran 和 Python 。在這篇文章中，我強調了使用這種方法進行并行編程的一些成功，以證明進入NVIDIA CUDA 生態系統的最有成效的途徑。 NVIDIA 戰略的基礎是提供一套豐富、成熟的 SDK 和庫，在這些數據庫上可以構建應用程序。

Source

]]>