• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 高性能計算

    使用最新的 Nsight Compute 進行高級內核評測

    NVIDIA Nsight Compute 是用于 CUDA 應用程序的交互式內核分析器。它通過用戶界面和命令行工具提供詳細的性能指標和 API 調試。 Nsight Compute 2022.1 更新了數據收集模式,為性能分析提供了新的用例和選項。

    立即下載>>

    有什么新鮮事嗎

    距離重播

    Nsight Compute 的這一版本擴展了現有的重播模式,提供了范圍重播的高要求功能。 Range Replay 捕獲并重放分析應用程序中 CUDA API 調用和內核啟動的完整范圍。度量與整個范圍相關聯,而不是單個內核。這允許該工具在不序列化的情況下執行內核,并支持出于正確性或性能原因而需要并發運行的評測內核。范圍由起點和終點標記組成;并包括所有 CUDA API 調用和從任何 CPU 線程在這些標記之間啟動的內核。

    范圍標記可以使用以下任一方法定義:

    • 分析器啟動/停止 API
    • NVTX 系列

    有關完整的詳細信息,請參閱 Nsight Compute 的內核評測指南 中的“重播”部分。

    This is a flowchart diagram of how the Range Replay feature Nsight Compute captures a range of CUDA API calls and collects performance information to display for the profiled application.This is a flowchart diagram of how the Range Replay feature Nsight Compute captures a range of CUDA API calls and collects performance information to display for the profiled application.
    圖 1 。范圍回放可視化:捕獲范圍后,每個過程都會收集整個范圍的性能信息。

    記憶分析

    在 A100 上評測時,內存分析部分中的一個新二級緩存收回策略表可以幫助您了解各種 緩存逐出策略 的訪問次數和達到的命中率。在同一部分中,二級緩存表現在有一個新的 ECC 行,用于顯示通過在 GPU 上啟用硬件糾錯代碼而創建的流量。

    This is a screenshot of Nsight Compute showing tables with ECC and L2 cache eviction policy information using the Memory Workload Analysis feature. This is a screenshot of Nsight Compute showing tables with ECC and L2 cache eviction policy information using the Memory Workload Analysis feature.
    圖 2 。內存工作負載分析表的改進: ECC 和二級緩存逐出策略信息。

    引導分析

    Nsight Compute 現在通過在打開報表時在摘要和詳細信息頁面之間動態選擇,可以更輕松地在多結果集合中選擇初始分析目標。規則被擴展以檢測非融合浮點指令作為優化機會。最后,但并非最不重要的一點是,當觸發未恢復的內存訪問規則時,它們會顯示一個包含五個最有價值實例的表,從而更容易在源頁面上檢查和解決它們。

    This figure is a screen capture Nsight Compute showing a summary page of multiresult reports, with the ability to sort and optimize the order of presentation.This figure is a screen capture Nsight Compute showing a summary page of multiresult reports, with the ability to sort and optimize the order of presentation.
    圖 3 。打開多結果報告現在會顯示摘要頁面,允許您對結果進行排序并決定優化順序。
    This is a screen capture of Nsight Compute displaying how the two Uncoalesced Memory Access rules are better presented in a concise and sorted format.This is a screen capture of Nsight Compute displaying how the two Uncoalesced Memory Access rules are better presented in a concise and sorted format.
    圖 4 。這兩種未恢復的內存訪問規則都以更簡潔、更有序的格式呈現結果。

    其他改進

    進一步的改進包括 Occupancy Calculator 自動更新。源頁面中 Register Dependency 列還有一個新的“執行的線程指令”度量和注冊名工具提示,以及 NVLink 更新。

    在十一月的 GTC ,我們發布了展示 NVIEW 工具能力的有洞察力的資產:

    資源

    0

    標簽

    人人超碰97caoporen国产