使用 DLA 在 NVIDIA Jetson Orin 上最大限度地提高深度學習性能

NVIDIA Jetson Orin 是同類中最好的嵌入式人工智能平臺。 Jetson Orin SoC 模塊以 NVIDIA Ampere 架構 GPU 為核心，但 SoC 上有更多計算：

深度學習加速器（DLA）中用于深度學習工作負載的專用深度學習推理引擎
用于圖像處理和計算機視覺算法的可編程視覺加速器（PVA）引擎
多標準視頻編碼器（NVENC）和多標準視頻解碼器（NVDEC）

NVIDIA Orin SoC 功能強大，擁有 275 個峰值 AI TOPs，是最好的嵌入式和汽車 AI 平臺。你知道嗎，這些 AI TOPs 中幾乎 40% 來自 NVIDIA Orin 上的兩個 DLA？ NVIDIA Ampere GPU 的吞吐量是同類產品中最好的，而第二代 DLA 的功率效率卻是同類產品中最佳的。近年來，隨著人工智能應用的快速增長，對更高效計算的需求也在增長。在電源效率始終是關鍵 KPI 的嵌入式方面尤其如此。

這就是 DLA 的用武之地。DLA 是專門為深度學習推理設計的，可以比 CPU 更有效地執行卷積等計算密集型深度學習操作。

當與 Jetson AGX Orin 或 NVIDIA DRIVE Orin 集成到 SoC 中時， GPU 和 DLA 的組合為您的嵌入式 AI 應用程序提供了一個完整的解決方案。在這篇文章中，我們將討論深度學習加速器，以幫助您避免錯過。我們涵蓋了汽車和機器人領域的幾個案例研究，以展示 DLA 如何使人工智能開發人員能夠為其應用程序添加更多功能和性能。最后，我們來看看視覺 AI 開發人員如何使用 DeepStream SDK 來構建使用 DLA 和整個 Jetson SoC 的應用程序管道，以獲得最佳性能。

但首先，以下是 DLA 對其有重大影響的一些關鍵性能指標。

關鍵績效指標

在設計應用程序時，需要滿足一些關鍵性能指標或 KPI。例如，這通常是最大性能和電源效率之間的設計權衡，這需要開發團隊仔細分析和設計他們的應用程序，以便在 SoC 上使用不同的 IP。

如果應用程序的關鍵 KPI 是延遲，則必須在一定的延遲預算下在應用程序中安排任務。您可以將 DLA 用作與運行在 GPU 上的計算密集型任務并行的任務的附加加速器。DLA 峰值性能對 NVIDIA Orin 整體深度學習（DL）性能的貢獻率在 38%至 74%之間，具體取決于電源模式。

?	電源模式：MAXN	功率模式：50W	功率模式：30W	功率模式：15W
GPU 稀疏 INT8 峰值 DL 性能	171 個 TOPs	109 TOPs	41 TOPs	14 TOPs
2x DLA 稀疏 INT8 峰值性能	105 TOPS	92 TOPS	90 TOPS	40 TOPS
NVIDIA Orin 峰值 INT8 DL 總性能	275 TOPs	200 TOPs	131 TOPs	54 TOPs
百分比：DLA 峰值 INT8 性能占 NVIDIA Orin 峰值 DL INT8 總性能	38%	46%	69%	74%

表 1。DLA 吞吐量

Jetson AGX Orin 64GB 上 30W 和 50W 功率模式的 DLA TOPs 與 NVIDIA DRIVE Orin 汽車平臺上的最大時鐘相當。

如果電源是您的關鍵 KPI 之一，那么您應該考慮 DLA 以利用其電源效率。與 GPU 相比，每瓦 DLA 性能平均高出 3–5 倍，具體取決于電源模式和工作負載。以下圖表顯示了代表常見用例的三個模型的每瓦性能。

Chart shows that at the lowest power mode of 15 W, DLA's power efficiency is the highest (where 74% total Jetson Orin peak DL INT8 performance comes from the DLAs) — *圖 1。DLA 功率效率*

Chart showing that enabling Structured Sparsity generally improves DLA's power efficiency. — *圖 2:結構化稀疏性和每瓦性能優勢*

換句話說，如果沒有 DLA 的功率效率，在給定的平臺功率預算下，就不可能在 NVIDIA Orin 上實現高達 275 個峰值的 DL TOP。有關更多型號的更多信息和測量值，請參閱 DLA-SW 的 GitHub 庫。

以下是 NVIDIA 內部關于我們如何使用 DLA 提供的 AI 計算的一些案例研究：汽車和機器人

案例研究：汽車

NVIDIA DRIVE AV 是汽車原始設備制造商為其汽車產品組合添加自動駕駛和映射功能的端到端自動駕駛解決方案堆棧。它包括感知，映射和規劃層，以及根據高質量的真實世界駕駛數據訓練的各種 DNN。

NVIDIA DRIVE AV 團隊的工程師致力于設計和優化感知，映射，并通過利用整個 NVIDIA Orin SoC 平臺規劃管道。考慮到自動駕駛堆棧中需要處理大量的神經網絡和其他非 DNN 任務，它們依賴 DLA 作為 NVIDIA Orin SoC 上的專用推理引擎來運行 DNN 任務。這一點至關重要，因為 GPU 計算是為處理非 DNN 任務而保留的。如果沒有 DLA 計算，團隊將無法達到 KPI。

Schematic diagram highlights how tasks are interwoven to leverage DLAs for DNNs. — *圖 3。感知管道的一部分*

想要了解更多信息，請訪問 Near-Range Obstacle Perception with Early Grid Fusion。

例如，對于感知管道，它們有來自八個不同相機傳感器的輸入，整個管道的延遲必須低于某個閾值。感知堆棧是 DNN 重的，并且占所有計算的 60% 以上。

為了滿足這些 KPI，并行管道任務被映射到 GPU 和 DLA，其中幾乎所有的 DNN 都在 DLA 上運行，而非 DNN 任務在 GPU’上運行，以實現總體管道延遲目標。然后，輸出被其他管道（如映射和規劃）中的其他 DNN 順序或并行地消耗。您可以將管道視為一個巨大的圖形，其中任務在 GPU 和 DLA 上并行運行。使用 DLA，該團隊將延遲降低了 2.5 倍。

Photo of a road with cars in bounding boxes. — *圖 4。作為感知堆棧一部分的對象檢測*

NVIDIA 自動駕駛團隊工程經理 Abhishek Bajarger 表示：“利用整個 SoC，特別是 DLA 中專用的深度學習推理引擎，使我們能夠在滿足延遲要求和 KPI 目標的同時，為軟件堆棧添加重要功能。這只有在 DLA 中才有可能實現。”。

案例研究：機器人

NVIDIA Isaac 是一個強大的端到端平臺，用于機器人開發人員使用的人工智能機器人的開發、模擬和部署。特別是對于移動機器人來說，可用的 DL 計算、確定性延遲和電池續航能力是重要因素。這就是為什么將 DL 推斷映射到 DLA 是重要的。

NVIDIA Isaac 團隊的一組工程師開發了一個使用 DNN 進行鄰近分割的庫。鄰近分割可用于確定障礙物是否在鄰近場內，并避免在導航期間與障礙物碰撞。他們在 BI3D DLA 上實施了網絡，該網絡從立體相機執行二進制深度分類。

Schematic shows the proximity segmentation pipeline and how it maps to DLA. — *圖 5。鄰近分段管道*

圖 5。鄰近分段管道需要 ALT TEXT
一個關鍵的 KPI 是確保能夠從立體相機輸入中實時檢測到每秒 30 幀。NVIDIA Isaac 團隊在 SoC 中分配任務，并將 DLA 用于 DNN，同時在硬件和軟件中提供與在 GPU 上運行的功能安全多樣性。想要了解更多信息，請訪問 NVIDIA Isaac ROS 鄰近分段。

GIF of proximity segmentation on warehouse video, with people pushing carts and robotic sorters. — *圖 6。使用 BI3D 對立體聲輸入進行鄰近分割。*

NVIDIA 機器人平臺軟件副總裁 Gordon Grigor 表示：“我們在 DLA 上使用 TensorRT 進行 DNN 推理，以提供 GPU 的硬件多樣性，提高容錯能力，同時為其他任務卸載 GPU 。DLA 在由三個 DNN 組成的 BI3D 的 Jetson AGX Orin 上提供約 46 幀/秒的幀速率，為我們的機器人應用程序提供低 30 毫秒的延遲。”。

NVIDIA DeepStream 用于 DLA

通過 NVIDIA DeepStream SDK，一個完整的流媒體分析工具包，是探索 DLA 的最快方法。

如果你是一名視覺 AI 開發人員，正在構建 AI 驅動的應用程序來分析視頻和傳感器數據，那么 DeepStream SDK 可以讓你構建最佳的端到端管道。對于云或邊緣用例，如零售分析、停車管理、物流管理、光學檢測、機器人和體育分析， DeepStream 可以毫不費力地使用整個 SoC，特別是 DLA。

例如，您可以使用 Model Zoo 中的預訓練模型在下表中高亮顯示以在 DLA 上運行。在 DLA 上運行這些網絡就像設置一個標志一樣簡單。想要了解更多信息，請訪問如何使用 DLA 進行推斷。

模型拱門	推理分辨率	GPU 幀/秒	DLA1+DLA2 幀/秒	*GPU +DLA1+DLA2 幀/秒*
PeopleNet-ResNet18	960x544x3	218	128	346
PeopleNet-ResNet34（v2.3）	960x544x3	169	94	263
PeopleNet-ResNet34（v2.5 未編輯）	960x544x3	79	46	125
TrafficCamNet	960x544x3	251	174	425
DashCamNet	960x544x3	251	172	423
FaceDetect IR	384x240x3	1407	974	2381
VehicleMakeNet	224x224x3	2434	1166	3600
VehicleTypeNet	224x224x3	1781	1064	2845
FaceDetect（已修剪）	736x416x3	395	268	663
牌照檢測	640x480x3	784	388	1172

表 2。ModelZoo 網絡樣本及其在 DLA 上的吞吐量

開始使用深度學習加速器

準備好深入了解了嗎？有關詳細信息，請參閱以下資源：

Jetson DLA 教程演示了一個基本的 DLA 工作流，以幫助您開始將 DNN 部署到 DLA。
這個 DLA-SW GitHub 倉庫有一組參考網絡，您可以使用這些網絡來探索在 Jetson Orin DLA 上運行 DNN。
這個樣例頁面提供了關于如何使用 DLA 充分利用 Jetson SoC 的其他示例和資源。
這個 DLA 論壇有其他用戶的想法和反饋。

使用 DLA 在 NVIDIA Jetson Orin 上最大限度地提高深度學習性能

關鍵績效指標

案例研究：汽車

案例研究：機器人

NVIDIA DeepStream 用于 DLA

開始使用深度學習加速器

相關資源

標簽

關于作者

使用 DLA 在 NVIDIA Jetson Orin 上最大限度地提高深度學習性能

關鍵績效指標

案例研究：汽車

案例研究：機器人

NVIDIA DeepStream 用于 DLA

開始使用深度學習加速器

相關資源

標簽

關于作者

相關文章

在 NVIDIA Jetson Orin 上部署 YOLOv5 與 cuDLA：量化感知訓練到推理

NVIDIA Jetson Orin 深度學習加速器入門

相關文章

使用 NVIDIA Warp 和高斯拋物線法構建機器人心理模型

借助 NVIDIA Isaac 在醫療健康領域推動 AI 機器人開發

R2D2：利用 NVIDIA 研究工作流和全局基礎模型訓練通用機器人

借助 NVIDIA Isaac Manipulator 和 Vention Machine 提高工業機器人的靈活性 Motion AI

R2D2：利用 NVIDIA Research 構建AI驅動的3D機器人感知與地圖構建技術