NVIDIA TensorRT? 是用于高性能深度學習推理的 SDK。此 SDK 包含深度學習推理優化器和運行時環境,可為深度學習推理應用提供低延遲和高吞吐量。
在推理過程中,基于 TensorRT 的應用程序的執行速度可比 CPU 平臺的速度快 40 倍。借助 TensorRT,您可以優化在所有主要框架中訓練的神經網絡模型,精確校正低精度,并最終將模型部署到超大規模數據中心、嵌入式或汽車產品平臺中。
TensorRT 以 NVIDIA 的并行編程模型 CUDA 為基礎構建而成,可幫助您利用 CUDA-X 中的庫、開發工具和技術,針對人工智能、自主機器、高性能計算和圖形優化所有深度學習框架中的推理。
TensorRT 針對多種深度學習推理應用的生產部署提供 INT8 和 FP16 優化,例如視頻流式傳輸、語音識別、推薦和自然語言處理。推理精度降低后可顯著減少應用延遲,這恰巧滿足了許多實時服務、自動和嵌入式應用的要求。
您可以從每個深度學習框架中將已訓練模型導入到 TensorRT。應用優化后,TensorRT 選擇平臺特定的內核,在數據中心、Jetson 嵌入式平臺以及 NVIDIA DRIVE? 自動駕駛平臺上更大限度提升 Tesla GPU 的性能。
借助 TensorRT,開發者可專注于創建新穎的 AI 支持應用,無需費力調節性能來部署推理工作。
TensorRT 優化與性能

權重與激活精度校準
通過將模型量化為 INT8 來更大限度地提高吞吐量,同時保持高準確度

層與張量融合
通過融合內核中的節點,優化 GPU 顯存和帶寬的使用

內核自動調整
基于目標 GPU 平臺選擇最佳數據層和算法

動態張量顯存
更大限度減少顯存占用,并高效地為張量重復利用內存

多流執行
用于并行處理多個輸入流的可擴展設計
TensorRT 顯著提高了 NVIDIA GPU 上的深度學習推理性能。查看其如何在具有高吞吐量和超低延遲的多個網絡上支持推理需求。
廣泛采用





















與所有主要框架集成
NVIDIA 與深度學習框架開發者緊密合作,使用 TensorRT 在 AI 平臺上實現優化的推理性能。如果您的訓練模型采用 ONNX 格式或其他熱門框架(例如 TensorFlow 和 MATLAB),您可以通過一些簡單的方法將模型導入到 TensorRT 以進行推理。下面介紹了一些集成,其中包含了新手入門信息。

TensorRT 和 TensorFlow 已緊密集成,因此您可以同時盡享 TensorFlow 的靈活性和 TensorRT 的超強優化性能。有關詳情,請參閱 TensorRT 與 TensorFlow 集成 博文。

MATLAB 已通過 GPU 編碼器實現與 TensorRT 的集成,這能協助工程師和科學家在使用 MATLAB 時為 Jetson、DRIVE 和 Tesla 平臺自動生成高性能推理引擎。有關詳情,請參加此在線研討會。

如果您在專有或自定義框架中執行深度學習訓練,請使用 TensorRT C++ API 來導入和加速模型。有關詳情,請參閱 TensorRT 文檔。
“通過使用 NVIDIA Tesla V100 GPU,我們發現與基于 CPU 的平臺相比,運行基于深度學習的推薦應用的 TensorRT 在評估時的推理速度和吞吐量高出 45 倍。我們相信 TensorRT 可以為我們的企業客戶大幅提高生產效率。”
— Markus Noga,SAP 機器學習部門主管
“通過在 V100 上使用 Tensor 核心、新近優化的 CUDA 庫以及 TF-TRT 后端,我們能將原本就很快的深度學習 (DL) 網絡速度再提升 4 倍”
— Kris Bhaskar,KLA 高級研究員兼 AI 計劃副總裁
“Criteo 將 Nvidia 的 TensorRT 與 T4 計算卡搭配使用,以優化其深度學習模型,提高 GPU 上的推理速度。現在,刪除超過十億張不當圖片的速度比之前快了 4 倍,而能耗則降低了一半。”
— Suju Rajan,Criteo 高級研究副總裁
公布 TensorRT 7.1:新功能
TensorRT 7.1 針對 NVIDIA A100 GPU 進行了優化并加入了新優化,現可使用 INT8 精度加速 BERT 推理,實現高達 V100 GPU 六倍的性能。NVIDIA 開發者計劃成員可于 2020 年夏季下載 TensorRT 7.1。
TensorRT 7.0(當前版本)包含:
- 新編譯器,可對語音和異常檢測中的常用時間遞歸神經網絡進行加速
- 對 20 多種新 ONNX 操作的支持,這些操作可對 BERT、TacoTron 2 和 WaveRNN 等關鍵的語音模型進行加速
- 對動態形狀的擴展支持,可實現關鍵的會話式 AI 模型
- 新版插件、解析器
- BERT、Mask-RCNN、Faster-RCNN、NCF 和 OpenNMT 的新示例
其他資源

- 使用 TensorRT 通過 BERT 實現實時自然語言理解(博客)
- 使用 TensorRT 進行自動語音識別 (Notebook)
- 使用 TensorRT 對實時文字轉語音進行加速(博客)
- 使用 BERT 實現 NLU (Notebook) (Notebook)
- 實時文字轉語音(示例)
- 基于序列到序列 (seq2seq) 模型的神經網絡機器翻譯 (NMT)(示例代碼)
- 逐層構建 RNN 網絡(示例代碼)

- 使用 TensorRT 對 Wide & Deep 模型進行加速(博客)
- 使用神經協作過濾 (NCF) 進行電影推薦(示例代碼)
- 深度推薦系統(示例代碼)
- TensorRT 中的推薦系統簡介(視頻)

- 10 分鐘內在 GPU 上實現實時物體檢測(博客)
- 如何對常見應用執行推理(網絡研討會)
- 在 GPU 上創建物體檢測流程(博客)
- 使用 SSD 網絡進行物體檢測(Python 代碼示例)
- 使用 SSD、Faster R-CNN 網絡進行物體檢測(C++ 代碼示例)
您可以訪問 https://devblogs.nvidia.com/tag/tensorrt/ 查找其他資源,也可以在 TensorRT 論壇上與 TensorRT 開發者社區成員進行互動
開始實操培訓
NVIDIA 深度學習培訓中心 (DLI) 為 AI 和加速計算領域的開發者、數據科學家和研究人員提供實操培訓。立即參加關于使用 TensorRT 優化和部署 TensorFlow 模型以及“使用 TensorRT 部署智能視頻分析”的自定進度選修課程,獲取 TensorRT 實操經驗。
適用范圍
NVIDIA 開發者計劃會員可訪問 TensorRT 產品頁面,免費使用 TensorRT 進行用于開發和部署。最新版本的插件、解析器和示例也以開源形式提供,可從 TensorRT GitHub 資源庫獲取。
開發者還可以通過 NGC 容器注冊表中的 TensorRT 容器獲得 TensorRT。
TensorRT 已納入:
- 用于在計算機視覺和智能視頻分析 (IVA) 應用中進行實時流分析的 NVIDIA Deepstream SDK
- 適用于 NVIDIA DRIVE PX2 自動駕駛平臺的 NVIDIA DriveInstall
- 適用于 Jetson TX1、TX2 嵌入式平臺的 NVIDIA Jetpack