顯存 – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Tue, 05 Aug 2025 07:32:08 +0000
zh-CN
hourly
1
196178272 -
CUDA 專業提示:通過矢量化內存訪問提高性能
http://www.open-lab.net/zh-cn/blog/cuda-pro-tip-increase-performance-with-vectorized-memory-access/
Mon, 04 Aug 2025 07:26:50 +0000
http://www.open-lab.net/zh-cn/blog/?p=14777
Continued]]>
許多 CUDA 內核受帶寬限制,新硬件中 FLOPS 與帶寬的比例不斷增加,導致更多內核受帶寬限制。因此,采取措施緩解代碼中的帶寬瓶頸非常重要。在這篇文章中,我將向您展示如何在 CUDA C++ 中使用向量加載和存儲來幫助提高帶寬利用率,同時減少執行指令的數量。 首先,讓我們來看一下以下簡單的內存復制內核。 在此代碼中,我使用了網格步長循環,如之前的 CUDA Pro Tip 帖子中所述。圖 1 顯示了內核的吞吐量(單位:GB/s)與復制大小的關系。 我們可以使用 CUDA 工具包中包含的 cuobjdump 工具來檢查此內核的匯編。 標量復制內核的 SASS 包括以下指令: LDG.E 和 STG.E 指令分別從全局內存中加載和存儲 32 位。 我們可以通過使用矢量化加載和存儲指令 LDG.E 來提高此操作的性能。
Source
]]>
14777
-
WholeGraph 存儲:優化圖形神經網絡的內存和檢索
http://www.open-lab.net/zh-cn/blog/wholegraph-storage-optimizing-memory-and-retrieval-for-graph-neural-networks/
Fri, 08 Mar 2024 08:20:14 +0000
http://www.open-lab.net/zh-cn/blog/?p=9232
Continued]]>
圖形神經網絡 (GNN) 徹底改變了圖形結構數據的機器學習。與傳統神經網絡不同,GNN 擅長捕捉圖形中的復雜關系,為從社交網絡到化學領域的應用程序提供動力支持。在節點分類和邊鏈預測等場景中,GNN 可預測圖形節點的標簽,并決定節點之間的邊是否存在。 在單個前向或反向通道中處理大型圖形會非常耗費計算資源和內存。 大規模 GNN 訓練的工作流通常從子圖形采樣開始,以便使用 mini-batch 訓練。這包括收集特征,以便在子圖形中捕捉所需的上下文信息。隨后,提取的特征和子圖形將用于神經網絡訓練。在這一階段,GNN 能夠整合信息并實現節點知識的迭代傳播。 但是,處理大型圖形會帶來挑戰。在社交網絡或個性化推薦等場景中,圖形可能包含大量節點和邊緣,每個節點都攜帶大量特征數據。 節點特征數據每個頂點的大小可能達到幾千字節,因此節點特征數據的總大小可以輕松超過圖形拓撲數據的大小。
Source
]]>
9232
人人超碰97caoporen国产