HPC / Supercomputing – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 09 Mar 2023 04:40:23 +0000 zh-CN hourly 1 196178272 使用 NVIDIA cuQuantum 實現基于矩陣產品狀態的量子電路仿真 http://www.open-lab.net/zh-cn/blog/enabling-matrix-product-state-based-quantum-circuit-simulation-with-nvidia-cuquantum/ Mon, 06 Mar 2023 04:36:45 +0000 http://www.open-lab.net/zh-cn/blog/?p=6415 Continued]]> 量子電路模擬 是設計量子就緒算法的最佳方法,因此您可以在強大的量子計算機可用時立即利用它們。 NVIDIA cuQuantum 是一個 SDK ,它使您能夠利用不同的方式來執行量子電路模擬。 cuStateVec ,一個為狀態向量量子模擬器構建的高性能庫,依賴于在 GPU 存儲器中保存量子狀態向量。它的內存需求按 O ( 2 ^ N )進行縮放, N 表示量子位的數量。當你開始擴展到超過 40 個量子位時,這可能會非常昂貴。 為了減輕使用狀態向量方法的量子電路模擬的存儲器需求的指數縮放,可以使用張量網絡作為替代方案。你可以通過用增加的計算換取減少的空間來模擬更大的量子電路。 cuTensorNet 使您可以利用 NVIDIA GPU 上的張量網絡方法,與其他替代方案相比,提供了更高的可擴展性和更好的性能。盡管最近在加速張量收縮路徑發現方面取得了進展,

Source

]]>
6415
基于 FLAME GPU 的 NVIDIA GPU 快速大規模代理模擬 http://www.open-lab.net/zh-cn/blog/fast-large-scale-agent-based-simulations-on-nvidia-gpus-with-flame-gpu/ Fri, 10 Feb 2023 03:09:49 +0000 http://www.open-lab.net/zh-cn/blog/?p=6284 Continued]]> 新冠肺炎疫情引起了公眾對基于代理的建模與仿真( ABMS )的關注。它是研究行為的一種強大的計算技術,無論是流行病學、生物學、社會學還是其他方面。該過程在概念上很簡單: 這里有一個經典的例子:羊群、學校和牛群的行為。通過與群體保持緊密聯系(凝聚力)、避免沖突(分離)和匹配鄰居的速度(對齊)等相對簡單的行為,可以觀察到美麗的涌現模式。 FLAME GPU 是用于模擬復雜系統的開源軟件。它是獨立于領域的,可以用于任何使用基于代理的建模思想的模擬。描述個體行為和觀察緊急輸出的基于代理的建模方法使 FLAME GPU 能夠用于植絨、細胞生物學和運輸等示例。 以下視頻顯示了 FLAME GPU 軟件輸出的植絨示例。 視頻 1 。 FLAME GPU 基于 GPU 上 100K 代理的 Boids 模擬 無論給定模擬的主題如何,

Source

]]>
6284
通過 GROMACS 大幅提高多節點 NVIDIA GPU 的可擴展性 http://www.open-lab.net/zh-cn/blog/massively-improved-multi-node-nvidia-gpu-scalability-with-gromacs/ Thu, 09 Feb 2023 02:54:24 +0000 http://www.open-lab.net/zh-cn/blog/?p=6266 Continued]]> GROMACS 是一種廣泛用于模擬生物分子系統的科學軟件包,在理解對疾病預防和治療重要的重要生物學過程中發揮著至關重要的作用。 GROMACS 可以并行使用多個 GPU 以盡可能快地運行每個模擬。 在過去幾年中, NVIDIA 和 主要 GROMACS 開發人員 合作進行了一系列多 GPU 和多節點優化。 在這篇文章中,我們展示了這些改進中的最新進展,通過啟用 GPU 粒子網格 Ewald ( PME )分解和 GPU directcommunication :新 GROMACS 2023 發布版本中提供的一項功能。我們觀察到,通過這項工作,性能提高了 21 倍。 在 之前的文章 中,我們對單個節點內的多 GPU 可伸縮性進行了優化,包括 GPU direct 通信的開發。我們描述了 GROMACS 通常如何將一個 GPU 分配給 PME…

Source

]]>
6266
NVIDIA Hopper GPU 上的新 cuBLAS 12.0 功能和矩陣乘法性能 http://www.open-lab.net/zh-cn/blog/new-cublas-12-0-features-and-matrix-multiplication-performance-on-nvidia-hopper-gpus/ Wed, 01 Feb 2023 02:48:04 +0000 http://www.open-lab.net/zh-cn/blog/?p=6207 Continued]]> NVIDIA H100 TensorCore GPU 基于 NVIDIA Hopper 架構 和第四代 NVIDIA Tensor Cores ,最近推出了 提供前所未有的性能 和 全面的 AI 基準 ,如 MLPerf training 。 人工智能和機器學習基準測試中相當一部分操作是 通用矩陣乘法 ,也稱為 matmul 函數。 GEMs 也存在于深度學習訓練的前向和后向通道以及推理中。 GEMM 的突出性使得深度學習軟件能夠最大限度地利用用于矩陣乘法的硬件,同時支持幾個關鍵的 AI 組件。這些成分包括具有偏置和流行激活功能的融合體及其衍生物。 本文探討了 NVIDIA cuBLAS 庫 在里面 CUDA 12.0 重點是最近推出的 FP8 format 、 NVIDIA Hopper 上的 GEM 性能 GPU ,以及新 64 位整數應用程序編程接口 ( API…

Source

]]>
6207
使用 cuNumeric 和 Legate 加速 Python 應用程序 http://www.open-lab.net/zh-cn/blog/accelerating-python-applications-with-cunumeric-and-legate/ Tue, 31 Jan 2023 06:58:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=6113 Continued]]> cuNumeric 是一個庫,旨在為支持所有 indexing view 功能(如就地更新、 NumPy 和完整 indexing view 語義)的 NumPy API 提供分布式和加速插入替換。這意味著,當切換到使用 cuNumeric 時,任何使用 NumPy 在大型數據集上操作的 Python 代碼都可以自動并行化,以利用 CPU 和 GPU 的大型集群的功能。 NumPy 是科學計算中的基礎 Python 庫,用于執行基于陣列的數值計算。大多數程序員使用的 NumPy 的規范實現在單個 CPU 內核上運行,只有少數操作在內核之間并行化。對單個節點 CPU 執行的這種限制限制了可以處理的數據的大小和解決問題的速度。 到目前為止, NumPy 的幾個替換庫加速下降(例如 CuPy 和 NumS )。然而,它們中沒有一個在具有許多 CPU 和 GPU…

Source

]]>
6113
CUDA 12.0 編譯器使用 nvJitLink 庫支持運行時 LTO http://www.open-lab.net/zh-cn/blog/cuda-12-0-compiler-support-for-runtime-lto-using-nvjitlink-library/ Tue, 17 Jan 2023 09:12:42 +0000 http://www.open-lab.net/zh-cn/blog/?p=6157 Continued]]> CUDA Toolkit 12.0 引入了一個新的 nvJitLink 庫,用于實時鏈接時間優化( JIT LTO )支持。在 CUDA 的早期,為了獲得最大性能,開發人員必須在整個編程模式下將 CUDA 內核構建和編譯為單個源文件。這限制了 SDK 和應用程序具有大量代碼,跨越多個文件,需要從移植到 CUDA 進行單獨編譯。性能的提高與整個程序的編譯不符。 隨著 CUDA 工具包 11.2 的發布, NVCC 增加了對離線鏈接時間優化( LTO )的支持,以使單獨編譯的應用程序和庫能夠獲得與從單個翻譯單元編譯的完全優化程序類似的 GPU 運行時性能。在某些情況下,據報告,性能增益約為 20% 或更高。要了解更多信息,請參見 Improving GPU Application Performance with NVIDIA CUDA 11.2…

Source

]]>
6157
回顧年度: 2022 年趨勢文章 http://www.open-lab.net/zh-cn/blog/year-in-review-trending-posts-of-2022/ Tue, 03 Jan 2023 05:26:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5914 Continued]]> 2022 年標志著新技術和不斷發展的一年,各行業產生了廣泛的進步和人工智能驅動的解決方案。其中包括提高 HPC 和 AI 的工作量、研究突破以及 3D 圖形、游戲、模擬、機器人等方面的新功能。 在創紀錄的一年里, NVIDIA 技術博客發布了近 550 篇帖子,并獲得了超過 200 萬的訪問量。以下是 2022 年最受歡迎的 10 個帖子。 NVIDIA 發布開源 GPU 內核模塊 Linux 中 NVIDIA GPU 的 GPU 內核模塊的第一個開源版本創建了與操作系統的更緊密集成,并使開發人員能夠調試、集成和貢獻。 開始使用 NVIDIA Instant NeRFs 使用新的 NVIDIA NGP Instant NeRF ,您可以編譯代碼庫、準備圖像并訓練第一個 NeRF 。 Instant NeRF 只需要幾分鐘就能訓練出好看的視覺效果。

Source

]]>
5914
使用 NVIDIA cuQuantum 設備進行大規模最佳量子電路仿真 http://www.open-lab.net/zh-cn/blog/best-in-class-quantum-circuit-simulation-at-scale-with-nvidia-cuquantum-appliance/ Thu, 15 Dec 2022 06:55:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5897 Continued]]> 政府、企業和學術界的量子算法研究人員有興趣在越來越大的量子系統上開發和測試新的量子算法。用例包括藥物發現、網絡安全、高能物理和風險建模。 然而,這些系統仍然很小,質量仍有待提高,容量有限。因此,在量子電路模擬器上開發應用程序和算法是很常見的。 NVIDIA cuQuantum 是一個軟件開發工具包( SDK ),使用戶能夠使用 GPU 輕松加速和縮放量子電路模擬。一種 計算狀態向量的自然工具 ,它使用戶能夠模擬比現在的量子計算機更深(更多的門)和更寬(更多的量子比特)的量子電路。 cuQuantum 包括最近發布的 NVIDIA cuQuantum Appliance ,這是一個具有多 GPU 、多節點狀態向量仿真支持的部署就緒軟件容器。 NVIDIA cuStateVec 中也提供了通用的多 GPU API ,可輕松集成到任何模擬器中。 對于張量網絡模擬,

Source

]]>
5897
CUDA 工具包 12.0 正式發布 http://www.open-lab.net/zh-cn/blog/cuda-toolkit-12-0-released-for-general-availability/ Mon, 12 Dec 2022 06:48:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5955 Continued]]> NVIDIA 宣布最新的 CUDA 工具包軟件版本 12.0 。該版本是多年來的第一個主要版本,它專注于通過新的硬件功能實現新的編程模型和 CUDA 應用程序加速。 現在,您可以使用 CUDA 自定義代碼、增強的庫和開發人員工具,針對 NVIDIA Hopper 和 NVIDIA Ada Lovelace 架構中特定于架構的功能和指令。 CUDA 12.0 包括許多主要和次要的變化。這里并沒有列出所有更改,但本文概述了關鍵功能。 有關詳細信息,請參見 CUDA Toolkit 12.0 Release Notes 。 CUDA Toolkit 12.0 可供下載。 CUDA 應用程序可以立即受益于新 GPU 系列中增加的流式多處理器( SM )計數、更高的內存帶寬和更高的時鐘速率。 CUDA 和 CUDA 庫基于 GPU 硬件架構增強提供了新的性能優化。

Source

]]>
5955
CUDA 上下文無關模塊加載 http://www.open-lab.net/zh-cn/blog/cuda-context-independent-module-loading/ Mon, 12 Dec 2022 06:46:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5952 Continued]]> 大多數 CUDA 開發人員都熟悉 API 及其對應的 API ,用于將包含設備代碼的模塊加載到 CUDA context 中。在大多數情況下,您希望在所有設備上加載相同的設備代碼。這需要將設備代碼顯式加載到每個 CUDA 上下文中。此外,不控制上下文創建和銷毀的庫和框架必須跟蹤它們,以顯式加載和卸載模塊。 本文討論了 CUDA 12.0 中引入的上下文無關加載,它解決了這些問題。 傳統上,模塊加載總是與 CUDA 上下文相關聯。下面的代碼示例顯示了將相同的設備代碼加載到兩個設備中,然后在它們上啟動內核的傳統方法。 在每個設備上啟動內核需要檢索每個模塊,如以下代碼示例所示: 這增加了應用程序中的代碼復雜性,因為您必須檢索和跟蹤每個上下文和每個模塊類型。您還必須使用 API 顯式卸載每個模塊。 當庫或框架主要使用 CUDA 驅動程序 API 來加載自己的模塊時,

Source

]]>
5952
使用 NVIDIA Hopper GPU DPX 指令提高動態編程性能 http://www.open-lab.net/zh-cn/blog/boosting-dynamic-programming-performance-using-nvidia-hopper-gpu-dpx-instructions/ Thu, 08 Dec 2022 07:04:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5968 Continued]]> 動態編程( DP )是一種眾所周知的算法技術和數學優化,幾十年來一直被用于解決計算機科學中的突破性問題。 DP 用例的一個示例是使用 Floyd-Warshall 全對最短路徑算法的具有數百或數千個約束或權重的路線優化。另一個用例是使用 Needleman-Wunsch 或 Smith-Waterman 算法進行基因組序列比對的讀取比對。 NVIDIA Hopper GPU 動態編程 X ( DPX )指令加速了基因組學、蛋白質組學和機器人路徑規劃等領域中使用的一大類動態編程算法。加速這些動態編程算法可以幫助研究人員、科學家和從業人員更快地了解潛在的 DNA 或蛋白質結構以及其他幾個領域。 DP 技術最初涉及遞歸地表達算法,其中較大的問題被分解為更容易解決的子問題。 DP 中常用的一種計算優化是保存子問題的結果,并在問題的后續步驟中使用它們,而不是每次都重新計算解決方案。

Source

]]>
5968
NVIDIA HPC SDK v22.11 現已提供新的異步編程模型庫 http://www.open-lab.net/zh-cn/blog/new-asynchronous-programming-model-library-now-available-with-nvidia-hpc-sdk-v22-11/ Thu, 17 Nov 2022 11:06:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5803 Continued]]> 為慶祝 SuperComputing 2022 國際會議, NVIDIA 宣布發布 HPC 軟件開發工具包( SDK ) v22.11 。 NVIDIA 開發者計劃 的成員可以免費 下載 。 NVIDIA HPC SDK 是一套面向高性能計算( HPC )開發人員的編譯器、庫和工具。它提供了開發人員高效開發高性能應用程序所需的一切。 HPC SDK 及其組件每年都會進行多次更新,包括新功能、性能提升和其他增強。 除了通常的修復和增強之外,新的 v22.1 版本還為您提供了一個創新的庫的預覽,該庫旨在標準化 C ++異步。該庫使開發人員能夠編寫不特定于 CPU 或 GPU 機器的高級算法代碼,從而提高了程序員的生產力和應用程序的可移植性。 庫引入了異步調度工作的能力,這導致了比現有 C ++并行算法更好的資源利用率和性能。這實現了細粒度的執行控制、最小化延遲,

Source

]]>
5803
使用 NVIDIA Arm HPC 開發套件評估應用程序 http://www.open-lab.net/zh-cn/blog/evaluating-applications-using-the-nvidia-arm-hpc-development-kit/ Wed, 16 Nov 2022 07:38:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5699 Continued]]> NVIDIA Arm HPC 開發者套件 是一個集成的硬件和軟件平臺,用于在異構 GPU 和 CPU 加速計算系統上創建、評估和基準測試 HPC 、 AI 和科學計算應用程序。 NVIDIA 于 2021 3 月宣布上市。 該套件被設計為 HPC 和 AI 應用的下一代 NVIDIA Grace Hopper 超級芯片 的墊腳石。它可用于識別不明顯的 x86 依賴關系,并確保 1H23 中 NVIDIA Grace Hopper 系統 之前的軟件準備就緒。有關詳細信息,請參閱 NVIDIA Grace Hopper 超級芯片白皮書 。 Oak Ridge National Laboratory Leadership Computing Facility ( OLCF )將 NVIDIA Arm HPC 開發套件集成到其現有的 Wombat Arm cluster 中。

Source

]]>
5699
通過 NVIDIA Magnum IO 擴展 VASP http://www.open-lab.net/zh-cn/blog/scaling-vasp-with-nvidia-magnum-io/ Tue, 15 Nov 2022 07:33:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5695 Continued]]> 你可以提出一個論點,即文明和技術進步的歷史就是物質的探索和發現的歷史。時代不是以領導人或文明命名的,而是以定義他們的材料命名的:石器時代、青銅時代等等。當前的數字或信息時代可以改名為硅或半導體時代,并保留相同的含義。 盡管硅和其他半導體材料可能是當今推動變革的最重要的材料,但研究中還有其他幾種材料同樣可以推動下一代變革,包括以下任何一種: 半導體是構建芯片的核心,這些芯片能夠對這種新型材料進行廣泛而復雜的搜索。 2011 年,美國 Materials Genome Initiative 推動使用模擬識別新材料。然而,在當時,甚至在今天的某種程度上,即使在現代超級計算機上,根據第一原理計算材料性質也可能會非常緩慢。 Vienna Ab initio Simulation Package (VASP) 是用于此類預測的最流行的軟件工具之一,

Source

]]>
5695
深度了解 NVIDIA Grace Hopper 超級芯片架構 http://www.open-lab.net/zh-cn/blog/nvidia-grace-hopper-superchip-architecture-in-depth/ Thu, 10 Nov 2022 07:21:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5685 Continued]]> NVIDIA Grace Hopper 超級芯片架構 是 高性能計算 ( HPC )和 AI 工作負載的第一個真正的異構加速平臺。它利用 GPU 和 CPU 的優勢加速應用程序,同時提供迄今為止最簡單和最高效的分布式異構編程模型。科學家和工程師可以專注于解決世界上最重要的問題。 在這篇文章中,您將了解 Grace Hopper 超級芯片的所有信息,并重點介紹 NVIDIA Grace Hoppper 所帶來的性能突破。有關 Grace Hopper 使用 NVIDIA Hopper H100 GPU 在最強大的基于 PCIe 的加速平臺上實現的加速的更多信息,請參閱 NVIDIA Grace Hopper Superchip Architecture 白皮書。 NVIDIA Grace Hopper 超級芯片架構將 NVIDIA Hopper GPU…

Source

]]>
5685
人人超碰97caoporen国产