CUDA 專業提示：通過矢量化內存訪問提高性能

Mon, 04 Aug 2025 07:26:50 +0000

許多 CUDA 內核受帶寬限制，新硬件中 FLOPS 與帶寬的比例不斷增加，導致更多內核受帶寬限制。因此，采取措施緩解代碼中的帶寬瓶頸非常重要。在這篇文章中，我將向您展示如何在 CUDA C++ 中使用向量加載和存儲來幫助提高帶寬利用率，同時減少執行指令的數量。首先，讓我們來看一下以下簡單的內存復制內核。在此代碼中，我使用了網格步長循環，如之前的 CUDA Pro Tip 帖子中所述。圖 1 顯示了內核的吞吐量（單位：GB/s）與復制大小的關系。我們可以使用 CUDA 工具包中包含的 cuobjdump 工具來檢查此內核的匯編。標量復制內核的 SASS 包括以下指令： LDG.E 和 STG.E 指令分別從全局內存中加載和存儲 32 位。我們可以通過使用矢量化加載和存儲指令 LDG.E 來提高此操作的性能。

Source

]]>

WholeGraph 存儲：優化圖形神經網絡的內存和檢索

Fri, 08 Mar 2024 08:20:14 +0000

圖形神經網絡 (GNN) 徹底改變了圖形結構數據的機器學習。與傳統神經網絡不同，GNN 擅長捕捉圖形中的復雜關系，為從社交網絡到化學領域的應用程序提供動力支持。在節點分類和邊鏈預測等場景中，GNN 可預測圖形節點的標簽，并決定節點之間的邊是否存在。在單個前向或反向通道中處理大型圖形會非常耗費計算資源和內存。大規模 GNN 訓練的工作流通常從子圖形采樣開始，以便使用 mini-batch 訓練。這包括收集特征，以便在子圖形中捕捉所需的上下文信息。隨后，提取的特征和子圖形將用于神經網絡訓練。在這一階段，GNN 能夠整合信息并實現節點知識的迭代傳播。但是，處理大型圖形會帶來挑戰。在社交網絡或個性化推薦等場景中，圖形可能包含大量節點和邊緣，每個節點都攜帶大量特征數據。節點特征數據每個頂點的大小可能達到幾千字節，因此節點特征數據的總大小可以輕松超過圖形拓撲數據的大小。

Source

]]>

顯存 – NVIDIA 技術博客

CUDA 專業提示：通過矢量化內存訪問提高性能

WholeGraph 存儲：優化圖形神經網絡的內存和檢索