• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 線上獲取開發者見解,在 GTC 2022 與專家交流。免費注冊 >



    NVIDIA TensorRT? 是用于高性能深度學習推理的 SDK。此 SDK 包含深度學習推理優化器和運行時環境,可為深度學習推理應用提供低延遲和高吞吐量。



    在推理過程中,基于 TensorRT 的應用程序的執行速度可比 CPU 平臺的速度快 40 倍。借助 TensorRT,您可以優化在所有主要框架中訓練的神經網絡模型,精確校正低精度,并最終將模型部署到超大規模數據中心、嵌入式或汽車產品平臺中。

    TensorRT 以 NVIDIA 的并行編程模型 CUDA 為基礎構建而成,可幫助您利用 CUDA-X 中的庫、開發工具和技術,針對人工智能、自主機器、高性能計算和圖形優化所有深度學習框架中的推理。

    TensorRT 針對多種深度學習推理應用的生產部署提供 INT8 和 FP16 優化,例如視頻流式傳輸、語音識別、推薦和自然語言處理。推理精度降低后可顯著減少應用延遲,這恰巧滿足了許多實時服務、自動和嵌入式應用的要求。

    Rocket Fuel

    (點擊縮放)


    您可以從每個深度學習框架中將已訓練模型導入到 TensorRT。應用優化后,TensorRT 選擇平臺特定的內核,在數據中心、Jetson 嵌入式平臺以及 NVIDIA DRIVE? 自動駕駛平臺上更大限度提升 Tesla GPU 的性能。

    借助 TensorRT,開發者可專注于創建新穎的 AI 支持應用,無需費力調節性能來部署推理工作。



    TensorRT 優化與性能



    權重與激活精度校準

    通過將模型量化為 INT8 來更大限度地提高吞吐量,同時保持高準確度


    層與張量融合

    通過融合內核中的節點,優化 GPU 顯存和帶寬的使用


    內核自動調整

    基于目標 GPU 平臺選擇最佳數據層和算法


    動態張量顯存

    更大限度減少顯存占用,并高效地為張量重復利用內存


    多流執行

    用于并行處理多個輸入流的可擴展設計


    TensorRT 顯著提高了 NVIDIA GPU 上的深度學習推理性能。查看其如何在具有高吞吐量和超低延遲的多個網絡上支持推理需求。




    廣泛采用






    與所有主要框架集成



    NVIDIA 與深度學習框架開發者緊密合作,使用 TensorRT 在 AI 平臺上實現優化的推理性能。如果您的訓練模型采用 ONNX 格式或其他熱門框架(例如 TensorFlow 和 MATLAB),您可以通過一些簡單的方法將模型導入到 TensorRT 以進行推理。下面介紹了一些集成,其中包含了新手入門信息。

    Tensor logo


    TensorRT 和 TensorFlow 已緊密集成,因此您可以同時盡享 TensorFlow 的靈活性和 TensorRT 的超強優化性能。有關詳情,請參閱 TensorRT 與 TensorFlow 集成 博文。

    Mathworks logo

    MATLAB 已通過 GPU 編碼器實現與 TensorRT 的集成,這能協助工程師和科學家在使用 MATLAB 時為 Jetson、DRIVE 和 Tesla 平臺自動生成高性能推理引擎。有關詳情,請參加此在線研討會

    ONNX logo

    TensorRT 提供了一個 ONNX 解析器,因此您可以輕松地從框架(例如 Caffe 2、Chainer、Microsoft Cognitive Toolkit、MxNet 和 PyTorch)中將 ONNX 模型導入到 TensorRT。請單擊此處,詳細了解 TensorRT 中的 ONNX 支持。

    TensorRT 還與 ONNX Runtime 集成,助您以 ONNX 格式輕松實現機器學習模型的高性能推理。請單擊此處,詳細了解 ONNX Runtime 與 TensorRT 的集成。

    如果您在專有或自定義框架中執行深度學習訓練,請使用 TensorRT C++ API 來導入和加速模型。有關詳情,請參閱 TensorRT 文檔


    “通過使用 NVIDIA Tesla V100 GPU,我們發現與基于 CPU 的平臺相比,運行基于深度學習的推薦應用的 TensorRT 在評估時的推理速度和吞吐量高出 45 倍。我們相信 TensorRT 可以為我們的企業客戶大幅提高生產效率。”

    — Markus Noga,SAP 機器學習部門主管 SAP logo

    “通過在 V100 上使用 Tensor 核心、新近優化的 CUDA 庫以及 TF-TRT 后端,我們能將原本就很快的深度學習 (DL) 網絡速度再提升 4 倍”



    — Kris Bhaskar,KLA 高級研究員兼 AI 計劃副總裁 KLA logo

    “Criteo 將 Nvidia 的 TensorRT 與 T4 計算卡搭配使用,以優化其深度學習模型,提高 GPU 上的推理速度。現在,刪除超過十億張不當圖片的速度比之前快了 4 倍,而能耗則降低了一半。”


    — Suju Rajan,Criteo 高級研究副總裁 Criteo logo




    公布 TensorRT 7.1:新功能



    TensorRT 7.1 針對 NVIDIA A100 GPU 進行了優化并加入了新優化,現可使用 INT8 精度加速 BERT 推理,實現高達 V100 GPU 六倍的性能。NVIDIA 開發者計劃成員可于 2020 年夏季下載 TensorRT 7.1。


    TensorRT 7.0(當前版本)包含:

    • 新編譯器,可對語音和異常檢測中的常用時間遞歸神經網絡進行加速
    • 對 20 多種新 ONNX 操作的支持,這些操作可對 BERT、TacoTron 2 和 WaveRNN 等關鍵的語音模型進行加速
    • 對動態形狀的擴展支持,可實現關鍵的會話式 AI 模型
    • 新版插件、解析器
    • BERT、Mask-RCNN、Faster-RCNN、NCF 和 OpenNMT 的新示例




    其他資源



    圖像和視頻

    您可以訪問 https://devblogs.nvidia.com/tag/tensorrt/ 查找其他資源,也可以在 TensorRT 論壇上與 TensorRT 開發者社區成員進行互動




    開始實操培訓



    NVIDIA 深度學習培訓中心 (DLI) 為 AI 和加速計算領域的開發者、數據科學家和研究人員提供實操培訓。立即參加關于使用 TensorRT 優化和部署 TensorFlow 模型以及“使用 TensorRT 部署智能視頻分析”的自定進度選修課程,獲取 TensorRT 實操經驗。




    適用范圍



    NVIDIA 開發者計劃會員可訪問 TensorRT 產品頁面,免費使用 TensorRT 進行用于開發和部署。最新版本的插件、解析器和示例也以開源形式提供,可從 TensorRT GitHub 資源庫獲取。

    開發者還可以通過 NGC 容器注冊表中的 TensorRT 容器獲得 TensorRT。

    TensorRT 已納入:

    人人超碰97caoporen国产