編程語言/編譯器 – NVIDIA 技術博客

借助 NVIDIA CUDA 實現高性能 GPU 編程的高級策略

Wed, 11 Sep 2024 08:08:06 +0000

Stephen Jones 是杰出的專家，也是杰出的 NVIDIA CUDA 架構師。他提供指導和見解，深入探討將應用程序映射到大規模并行機器的復雜性。除了探索 GPU 編程復雜性的基礎知識之外，他還專注于實用技術，例如并行程序設計和 GPU 優化的具體細節，以提高應用程序的效率和性能。作為正在進行的系列講座的一部分，本會議基于之前的講座。雖然不要求您看過之前的講座，但您可以探索 GPU 計算的工作原理、CUDA 編程的工作原理以及如何編寫 CUDA 程序等基礎主題。無論您是剛接觸 CUDA，還是希望提高 GPU 編程技能，本課程都會提供在高性能計算方面取得出色表現所需的理論知識和可行策略。歡迎閱讀會議的 PDF 格式，您將掌握編寫高效 CUDA 程序所需的高級技能和見解，從而充分發揮您的 GPU 的效用。您將深入了解：

Source

]]>

通過降低指令緩存未命中率提高 GPU 性能

Thu, 08 Aug 2024 02:25:26 +0000

GPU 專為高速處理大量數據而設計。GPU 具有稱為流多處理器 (SM) 的大量計算資源，以及一系列可為其提供數據的設施：高帶寬內存、高大小數據緩存，以及在活躍的線程束用完時切換到其他線程束的能力，而不會產生任何開銷。然而，數據乏現象可能仍會發生，許多代碼優化都集中在這個問題上。在某些情況下，SMs 不是數據乏，而是指令乏。本文介紹了對 GPU 工作負載的調查，該工作負載因指令緩存丟失而經歷了速度放慢。本文介紹了如何識別此瓶頸，以及消除瓶頸以提高性能的技術。這項研究的起源是基因組學領域的應用程序，在該領域中，必須解決與將 DNA 樣本的小部分與參考基因組進行比對相關的許多小的獨立問題。背景是眾所周知的 Smith-Waterman 算法（但這本身對討論并不重要）。在強大的 NVIDIA H100 Hopper GPU 上，擁有 114 個 SM…

Source

]]>