• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 計算機視覺/視頻分析

    使用 NVIDIA A30 GPU 加速人工智能推理工作負載

    ?

    NVIDIA A30 GPU 基于最新的 NVIDIA Ampere 體系結構,可加速各種工作負載,如大規模人工智能推理、企業培訓和數據中心主流服務器的 HPC 應用程序。 A30 PCIe 卡將第三代 Tensor 內核與大容量 HBM2 內存( 24 GB )和快速 GPU 內存帶寬( 933 GB / s )組合在一個低功耗外殼中(最大 165 W )。

    A30 支持廣泛的數學精度:

    • 雙精度( FP64 )
    • 單精度( FP32 )
    • 半精度( FP16 )
    • 腦浮 16 ( BF16 )
    • 整數( INT8 )

    它還支持 Tensor Float 32 ( TF32 )和 Tensor Core FP64 等創新技術,提供了一個單一的加速器來加速每個工作負載。

    圖 1 顯示了 TF32 ,其范圍為 FP32 ,精度為 FP16 。 TF32 是 PyTorch 、 TensorFlow 和 MXNet 中的默認選項,因此在上一代 NVIDIA Volta 架構中實現加速不需要更改代碼。

    Different precisions and their representations in bits: FP32 has 1 bit for sign, 8 bits for range, and 23 bits for precision. TF32 has 1 bit for sign, 8 bits for range, and 10 bits for precision. FP16 has 1 bit for sign, 5 bits for range, and 10 bits for precision. BF16 has 1 bit for sign, 8 bits for range, and 7 bits for precision.
    圖 1 。 TF32 和其他位號精度

    A30 的另一個重要特點是多實例 GPU ( MIG )能力。 MIG 可以最大限度地提高從大到小工作負載的 GPU 利用率,并確保服務質量( QoS )。單個 A30 最多可以被劃分為四個 MIG 實例,以同時運行四個應用程序,每個應用程序都與自己的流式多處理器( SMs )、內存、二級緩存、 DRAM 帶寬和解碼器完全隔離。有關更多信息,請參閱 支持的 MIG 配置文件 .

    對于互連, A30 支持 PCIe Gen4 ( 64 GB / s )和高速第三代 NVLink (最大 200 GB / s )。每個 A30 都可以支持一個 NVLink 橋接器與一個相鄰的 A30 卡連接。只要服務器中存在一對相鄰的 A30 卡,這對卡就應該通過跨越兩個 PCIe 插槽的 NVLink 橋接器連接,以獲得最佳橋接性能和平衡的橋接拓撲。

    ? NVIDIA T4 NVIDIA A30
    Design Small Footprint Data Center & Edge Inference AI Inference & Mainstream Compute
    Form Factor x16 PCIe Gen3
    1 slot LP
    x16 PCIe Gen4
    2 Slot FHFL
    1 NVLink bridge
    Memory 16GB GDDR6 24GB HBM2
    Memory Bandwidth? 320 GB/s 933 GB/s
    Multi-Instance GPU ? Up to 4
    Media Acceleration 1 Video Encoder 2 Video Decoder 1 JPEG Decoder 4 Video Decoder
    Fast FP64 No Yes
    Ray Tracing Yes No
    Power ? 70W 165W
    表 1 。 A30 和 T4 的特點總結

    除了表 1 中總結的硬件優勢外, A30 ??可以實現比 T4 GPU 更高的每美元性能。 A30 還支持端到端軟件堆棧解決方案:

    • 圖書館
    • GPU 加速了 PyTorch 、 TensorFlow 和 MXNet 等深度學習框架
    • 優化的深度學習模型
    • 可從 NGC 和[2000]以上的容器中獲得

    性能分析

    為了分析 A30 相對于 T4 和 CPU 的性能改進,我們使用以下數據集對 MLPerf 推斷 v1.1 . 中的六個模型進行了基準測試:

    • ResNet-50v1 。 5 ( ImageNet )
    • SSD 大尺寸 ResNet-34 ( COCO )
    • 3D Unet (布拉茨 2019 )
    • DLRM ( 1TB 點擊日志,離線場景)
    • BERT (第 1.1 版,第 384 小節)
    • RNN-T (圖書館語言)

    MLPerf 基準測試套件 涵蓋了廣泛的推理用例,從圖像分類和對象檢測到推薦,以及自然語言處理( NLP )。

    圖 2 顯示了 A30 與 T4 和 BERT 在人工智能推理工作負載上的性能比較結果。對于 CPU 推斷, A30 比 CPU 快約 300 倍。

    與T4相比,A30在使用這六種機型進行推理時提供了大約3-4倍的性能加速比。性能加速是由于30個較大的內存大小。這使得模型的批量更大,內存帶寬更快(幾乎是3倍T4),可以在更短的時間內將數據發送到計算核心。

    [ALT: Bar chart uses T4 as a baseline. A30 achieves 2.6x perf on ResNet-50 compared to 0.20x on CPU, 3.5X perf on SSD-Large compared to 0.13x, 4.1x perf on 3D-UNet, 3.9x perf compared to 0.11x on DLRM, 3.7x perf on BERT compared to 0.01x, and 4.3x perf on RNN-T compared to 0.04x.
    圖 2 。使用 MLPerf 比較 A30 與 T4 和 CPU 的性能.
    CPU:8380H (不在 3D Unet 上提交)

    除了人工智能推理之外, A30 還可以快速預訓練人工智能模型,例如 BERT 大型 TF32 ,以及使用 FP64 張量核加速 HPC 應用。帶有 TF32 的 A30 Tensor Cores 的性能比 T4 高出 10 倍,無需對代碼進行任何更改。它們還提供了自動混合精度的額外 2 倍提升,使吞吐量增加了 20 倍。

    硬件解碼器

    在構建視頻分析或視頻處理管道時,必須考慮以下幾個操作:

    • 計算模型或預處理步驟的需求。 這取決于 Tensor 內核、 GPU DRAM 和其他硬件組件,它們可以加速模型或幀預處理內核。
    • 傳輸前的視頻流編碼。 這樣做是為了最小化網絡上所需的帶寬。為了加快這一工作量,請使用 NVIDIA 硬件解碼器。
    Bar chart of the total throughput of combined video decoding operations and model inference. A30 can process up to 76 1080p streams.
    圖 3 。在不同 GPU 上處理的流的數量

    使用 DeepStream 5.1 測試性能。它代表了 e2e 在視頻捕獲和解碼、預處理、批處理、推理和后處理方面的性能。已關閉輸出渲染以獲得最佳性能,運行 ResNet10 、 ResNet18 和 ResNet50 網絡以推斷 H.264 1080p30 視頻流。

    A30 旨在通過提供四個視頻解碼器、一個 JPEG 解碼器和一個光流解碼器來加速智能視頻分析( IVA )。

    要使用這些解碼器和計算資源來分析視頻,請使用 NVIDIA DeepStream SDK ,它為基于人工智能的多傳感器處理、視頻、音頻和圖像理解提供了一個完整的流分析工具包。有關更多信息,請參閱 TAO 工具包與 DeepStream 的集成 或者 使用 NVIDIA DeepStream 構建實時編校應用程序,第 1 部分:培訓

    接下來呢?

    A30 代表了數據中心最強大的端到端人工智能和 HPC 平臺,使研究人員、工程師和數據科學家能夠交付真實世界的結果,并將解決方案大規模部署到生產中。有關更多信息,請參閱 NVIDIA A30 Tensor Core GPU 數據表 NVIDIA A30 GPU 加速器產品簡介 .

    ?

    0

    標簽

    人人超碰97caoporen国产