NVIDIA Nsight Compute 是用于 CUDA 應用程序的交互式內核分析器。它通過用戶界面和命令行工具提供詳細的性能指標和 API 調試。 Nsight Compute 2022.1 更新了數據收集模式,為性能分析提供了新的用例和選項。
有什么新鮮事嗎
距離重播
Nsight Compute 的這一版本擴展了現有的重播模式,提供了范圍重播的高要求功能。 Range Replay 捕獲并重放分析應用程序中 CUDA API 調用和內核啟動的完整范圍。度量與整個范圍相關聯,而不是單個內核。這允許該工具在不序列化的情況下執行內核,并支持出于正確性或性能原因而需要并發運行的評測內核。范圍由起點和終點標記組成;并包括所有 CUDA API 調用和從任何 CPU 線程在這些標記之間啟動的內核。
范圍標記可以使用以下任一方法定義:
- 分析器啟動/停止 API
- NVTX 系列
有關完整的詳細信息,請參閱 Nsight Compute 的內核評測指南 中的“重播”部分。
記憶分析
在 A100 上評測時,內存分析部分中的一個新二級緩存收回策略表可以幫助您了解各種 緩存逐出策略 的訪問次數和達到的命中率。在同一部分中,二級緩存表現在有一個新的 ECC 行,用于顯示通過在 GPU 上啟用硬件糾錯代碼而創建的流量。
引導分析
Nsight Compute 現在通過在打開報表時在摘要和詳細信息頁面之間動態選擇,可以更輕松地在多結果集合中選擇初始分析目標。規則被擴展以檢測非融合浮點指令作為優化機會。最后,但并非最不重要的一點是,當觸發未恢復的內存訪問規則時,它們會顯示一個包含五個最有價值實例的表,從而更容易在源頁面上檢查和解決它們。
其他改進
進一步的改進包括 Occupancy Calculator 自動更新。源頁面中 Register Dependency 列還有一個新的“執行的線程指令”度量和注冊名工具提示,以及 NVLink 更新。
在十一月的 GTC ,我們發布了展示 NVIEW 工具能力的有洞察力的資產:
- 借助最新的開發工具,了解 CUDA 應用程序行為、性能和優化變得更加容易 ? [A31048]
- 使用 Nsight 評測工具優化 CUDA 機器學習代碼 [DLIT1605]
- Nsight 計算的引導分析? 演示