Multi-GPU – NVIDIA 技術ブログ
http://www.open-lab.net/ja-jp/blog
Fri, 28 Apr 2023 02:31:13 +0000
ja
hourly
1
-
GROMACS 2023 における CUDA Graphs のガイド
http://www.open-lab.net/ja-jp/blog/a-guide-to-cuda-graphs-in-gromacs-2023/
Fri, 14 Apr 2023 01:54:58 +0000
http://www.open-lab.net/ja-jp/blog/?p=1615
Reading Time: 4 minutes GPU は新しい世代になるごとに高速化され続けており、GPU 上の各アクティビティ (カーネルやメモリ コピーなど) が非常に速く完了することがよくあります。従來、各アクティビティは CPU が個別にスケジューリング ( … Continued]]>
Reading Time: 4 minutes GPU は新しい世代になるごとに高速化され続けており、GPU 上の各アクティビティ (カーネルやメモリ コピーなど) が非常に速く完了することがよくあります。従來、各アクティビティは CPU が個別にスケジューリング (起動) する必要があり、関連するオーバーヘッドが蓄積して性能のボトルネックになることがありました。CUDA Graphs 機能は、複數の GPU アクティビティを 1 つの計算グラフとしてスケジュールできるようにすることで、この問題に対処します。 この記事では、生體分子システムのシミュレーション パッケージであり、世界で最も利用されている科學ソフトウェア アプリケーションの 1 つである GROMACS で、CUDA Graphs がどのように最近では活用されているかをご説明します。
Source
]]>
1615
-
NVIDIA HPC SDK v22.11 で新しい非同期プログラミング モデル ライブラリが利用可能に
http://www.open-lab.net/ja-jp/blog/new-asynchronous-programming-model-library-now-available-with-nvidia-hpc-sdk-v22-11/
Thu, 17 Nov 2022 01:30:00 +0000
http://www.open-lab.net/ja-jp/blog/?p=1132
Reading Time: < 1 minute SuperComputing 2022 の國際會議開催に合わせて、NVIDIA は HPC Software Development Kit (SDK) v22.11 のリリースを発表しました。NVIDIA Develo … Continued]]>
Reading Time: < 1 minute SuperComputing 2022 の國際會議開催に合わせて、NVIDIA は HPC Software Development Kit (SDK) v22.11 のリリースを発表しました。NVIDIA Developer プログラムに登録したメンバーは、このリリースを今すぐ無料でダウンロードすることができます。 NVIDIA HPC SDK は、ハイ パフォーマンス コンピューティング (HPC) 開発者向けのコンパイラ、ライブラリ、ツールの包括的なスイートです。開発者が高性能アプリケーションを生産的に開発するために必要なもの全てを提供します。HPC SDK とそのコンポーネントは、新機能、性能の向上、その他の強化のために、毎年何度も更新されています。 通常の修正と機能強化に加え、新しい v22.11…
Source
]]>
1132
-
第 3 世代の NVIDIA NVSwitch でマルチ GPU の相互接続性をアップグレード
http://www.open-lab.net/ja-jp/blog/upgrading-multi-gpu-interconnectivity-with-the-third-generation-nvidia-nvswitch/
Tue, 23 Aug 2022 02:13:00 +0000
http://www.open-lab.net/ja-jp/blog/?p=814
Reading Time: 5 minutes AI やハイパフォーマンス コンピューティング (HPC) における需要の高まりにより、すべての GPU 間で高速通信が可能な、より高速で柔軟性の高い相互接続のニーズが高まっています。 第 3 世代の NVIDIA NV … Continued]]>
Reading Time: 5 minutes AI やハイパフォーマンス コンピューティング (HPC) における需要の高まりにより、すべての GPU 間で高速通信が可能な、より高速で柔軟性の高い相互接続のニーズが高まっています。 第 3 世代の NVIDIA NVSwitch は、この通信ニーズを満たすように設計されています。この最新の NVSwitch と H100 Tensor コア GPU は、NVIDIA の最新の高速ポイントツーポイントの相互接続インターコネクトである第 4 世代の NVLink を採用しています。 第 3 世代の NVIDIA NVSwitch は、NVLink Switch System のノード內またはノード外部の GPU への接続性を提供するように設計されています。また、
Source
]]>
814
-
標準並列 C++ によるマルチ GPU プログラミング、パート 2
http://www.open-lab.net/ja-jp/blog/multi-gpu-programming-with-standard-parallel-c-part-2/
Mon, 18 Apr 2022 12:47:00 +0000
http://www.open-lab.net/ja-jp/blog/?p=609
Reading Time: 3 minutes これは「標準並列プログラミング」シリーズの 3 回目の投稿です。このシリーズでは、標準言語による並列化をアクセラレーテッド コンピューティングで使用することの利點を取り上げています。 標準言語による並列処理を利用したコー … Continued]]>
Reading Time: 3 minutes これは「標準並列プログラミング」シリーズの 3 回目の投稿です。このシリーズでは、標準言語による並列化をアクセラレーテッド コンピューティングで使用することの利點を取り上げています。 パート 1 では、次を説明しました。 この投稿では、引き続き ISO C++ アルゴリズムのパフォーマンスを最適化し、MPI を使用して複數の GPU にアプリケーションを拡張します。 自分のコードを CPU から GPU に移植するとき、パフォーマンスが専用 HPC コードより低くなると予想するのは當然かもしれません。結局のところ、ソフトウェア アーキテクチャの制約や、確立している API、ユーザー ベースから求められる高性能な追加機能を考慮する必要性によって、制限を受けます。それだけでなく、
Source
]]>
609
-
標準並列 C++ によるマルチ GPU プログラミング、パート 1
http://www.open-lab.net/ja-jp/blog/multi-gpu-programming-with-standard-parallel-c-part-1/
Mon, 18 Apr 2022 04:58:00 +0000
http://www.open-lab.net/ja-jp/blog/?p=601
Reading Time: 3 minutes これは「標準並列プログラミング」シリーズの 2 回目の投稿です。このシリーズでは、標準言語による並列化をアクセラレーテッド コンピューティングで使用することの利點を取り上げています。 標準言語による並列処理を利用したコー … Continued]]>
Reading Time: 3 minutes これは「標準並列プログラミング」シリーズの 2 回目の投稿です。このシリーズでは、標準言語による並列化をアクセラレーテッド コンピューティングで使用することの利點を取り上げています。 アプリケーションを GPU に移植することの難しさはケースバイケースです。最高のシナリオは、GPU で最適化された既存のライブラリを呼び出すことで、重要なコード セクションを高速化することです。たとえば、シミュレーション ソフトウェアの構成要素が BLAS の線形代數関數で構成されている場合、cuBLAS を利用して高速化することが可能です。 しかしながら、多くのコードでは、相當な量の手作業を回避できません。そのような場合は、特定のアクセラレータをターゲットにした CUDA のようなドメイン固有言語の使用を検討するでしょう。
Source
]]>
601
-
マルチノード マルチ GPU: NVIDIA cuFFTMp FFTs の大規模利用
http://www.open-lab.net/ja-jp/blog/multinode-multi-gpu-using-nvidia-cufftmp-ffts-at-scale/
Thu, 27 Jan 2022 16:11:00 +0000
http://www.open-lab.net/ja-jp/blog/?p=185
Reading Time: 4 minutes 本日、NVIDIA は早期アクセス (EA) 向けの cuFFTMp をリリースしたことを発表しました。cuFFTMp は、cuFFT のマルチノード、マルチプロセス拡張で、科學者やエンジニアがエクサスケール プラットフ … Continued]]>
Reading Time: 4 minutes 本日、NVIDIA は早期アクセス (EA) 向けの cuFFTMp をリリースしたことを発表しました。cuFFTMp は、cuFFT のマルチノード、マルチプロセス拡張で、科學者やエンジニアがエクサスケール プラットフォーム上で難題を解けるようにするものです。 FFT (高速フーリエ変換) は、分子動力學、信號処理、CFD (數値流體力學) からワイヤレス マルチメディア、機械學習アプリケーションまで、様々な分野で広く利用されています。NVIDIA は cuFFTMp により、単一システム內の複數の GPU だけでなく、複數ノードにまたがる多數の GPU をサポートするようになりました。 図 1 は、cuFFTMp が 1.8PFlop/s 以上に達し、この規模の変換におけるピーク時のマシン バンド幅の 70%
Source
]]>
185
人人超碰97caoporen国产