ONNX – NVIDIA 技術博客

Llama 3.2 全棧優化釋放 NVIDIA GPU 的高性能

Tue, 19 Nov 2024 09:20:22 +0000

Meta 最近發布了 Llama 3.2 系列視覺語言模型（VLM），其中包含 11B 參數和 90B 參數變體。這些模型是多模態模型，支持文本和圖像輸入。此外，Meta 還推出了 Llama 3.2 的純文本小語言模型（SLM）變體，具有 1B 和 3B 參數。NVIDIA 已對 Llama 3.2 模型集合進行優化，以便在全球數百萬個 GPU 上提供出色的性能和經濟高效的服務 – 從我們功能強大的數據中心和云 GPU 到本地 NVIDIA RTX 工作站，甚至是使用 NVIDIA Jetson 的低功耗邊緣設備。 Llama 3.2 VLM 支持長達 128K 的文本標記，以及分辨率為 1120 x 1120 像素的單張圖像輸入。為了實現低延遲響應，提供出色的用戶體驗，同時提供高吞吐量以經濟高效地提供這些模型，NVIDIA 平臺在技術堆棧的每一層都進行了優化。

Source

]]>

借助 NVIDIA TensorRT 輕量級引擎，為 AI 應用提供卓越性能和最小占用空間

Tue, 11 Jun 2024 06:45:32 +0000

NVIDIA TensorRT一個成熟的數據中心推理庫，已迅速成為 NVIDIA GeForce RTX 和 NVIDIA RTX GPU 的理想推理后端。現在，部署 TensorRT 借助預構建的 TensorRT 引擎，應用變得更加簡單。新發布的重量去除 TensorRT 10.0 引擎提供了一種獨特的解決方案，通過將其縮小到僅執行代碼來最大限度地減少引擎出貨量，從而實現 > 95%的引擎尺寸壓縮。在本文中，我們將討論如何構建輕量級引擎，以及如何使用 TensorRT 40MB 精簡運行時直接在最終用戶設備上對其進行改裝。 TensorRT 10.0 中引入的權重剝離引擎包含無權重的執行代碼 (CUDA 內核).在構建階段啟用權重剝離后，引擎的體積比傳統引擎小 95%以上，并且僅保留必要的權重以優化性能。這些引擎支持 ONNX 模型和其他網絡定義，

Source

]]>

基于 NVIDIA 的 PC 端到端人工智能：從 FP32 過渡到 FP16 優化人工智能

Thu, 27 Apr 2023 03:07:59 +0000

這篇文章是關于人工智能端到端優化。人工智能模型的性能在很大程度上受到所使用計算資源的精度的影響。較低的精度可以提高處理速度和減少內存使用，而較高的精度可以獲得更準確的結果。在精度和性能之間找到正確的平衡對于優化人工智能應用程序至關重要。 NVIDIA GPU 配備了 Tensor Core 等專用硬件，已成為加速人工智能工作負載的關鍵組件。為了充分利用它們的功能，重要的是要滿足某些限制，并基于特定的人工智能應用程序優化硬件。在這篇文章中，我們討論了如何通過從 FP32 （單精度浮點格式）轉換到 FP16 （半精度浮點數格式）來優化 AI 的 GPU 。我們介紹了使用 FP16 的優勢、轉換模型的方法，以及這種轉換對人工智能應用程序的質量和性能的影響。從 ONNX 格式的簡單未優化模型開始。 Nsight Systems 的配置文件顯示，

Source

]]>

適用于基于 NVIDIA 的 PC 的端到端 AI ： ONNX 和 DirectML

Tue, 25 Apr 2023 05:26:39 +0000

這篇文章是關于優化端到端人工智能. 雖然 NVIDIA 硬件可以以難以置信的速度處理構成神經網絡的單個操作，但確保您正確使用這些工具是很重要的。在 ONNX 中使用 ONNX Runtime 或 TensorRT 等開箱即用的工具通常會給您帶來良好的性能，但既然您可以擁有出色的性能，為什么還要滿足于良好的性能呢？在這篇文章中，我討論了一個常見的場景，即帶有 DirectML 后端的 ONNX Runtime 。這是構建 WinML 的兩個主要組件。當在 WinML 之外使用時，它們可以在支持運算符集以及支持 DML 以外的后端（如 TensorRT ）方面提供極大的靈活性。為了獲得 ONNX Runtime 和 DML 的出色性能，通常值得超越基本實現。從使用 ONNX Runtime 時的常見場景開始。這里有幾個問題。

Source

]]>

適用于基于 NVIDIA 的 PC 的端到端人工智能： NVIDIA TensorRT 部署

Wed, 15 Mar 2023 03:25:20 +0000

這篇文章是關于優化端到人工智能的系列文章中的第五篇。 NVIDIA TensorRT 是一種在 NVIDIA 硬件上部署光速推理的解決方案。有了人工智能模型架構， TensorRT 可以在部署前使用，以過度搜索最有效的執行策略。 TensorRT 優化包括重新排序圖中的操作，優化權重的內存布局，以及將操作融合到單個內核以減少 VRAM 的內存流量。要應用這些優化， TensorRT 必須具有完整的網絡定義及其權重。評估的策略在 TensorRT 引擎中序列化，該引擎與應用程序一起提供，以在生產中實現最佳推理性能。在部署過程中，除了這個引擎之外，不需要其他任何東西來執行網絡。包含已編譯的內核和對文件的序列化使該引擎僅與相同計算能力的 GPU 兼容。該文件也特定于 TensorRT 版本，但將與 8.6 之后的未來版本兼容。

Source

]]>

基于 NVIDIA 的 PC 的端到端 AI ： ONNX Runtime 中的 CUDA 和 TensorRT 執行提供程序

Wed, 08 Feb 2023 05:42:07 +0000

這篇文章是 optimizing end-to-end AI 系列文章的第四篇。有關更多信息，請參閱以下帖子：正如在 End-to-End AI for NVIDIA-Based PCs 系列的上一篇文章中所解釋的， ONNX Runtime 中有多個執行提供程序（ EP ），它們支持針對給定部署場景使用特定于硬件的功能或優化。本文介紹了 CUDA EP 和 TensorRT EP ，它們使用了高度優化的 NVIDIA 推理庫和各自的硬件功能，如 Tensor Core 。除了 NVIDIA 硬件上的最佳性能外，這還允許在多個操作系統甚至數據中心、 PC 和嵌入式（ NVIDIA Jetson ）硬件上使用相同的 EP 。由于這些 EP 是特定于 NVIDIA 的，因此這是獲得 FP8 精度或 NVIDIA Ada Lovelace architecture 中的…

Source

]]>

工作站端到端 AI ：優化簡介

Thu, 15 Dec 2022 06:51:00 +0000

這篇文章是優化工作站端到端人工智能系列文章的第一篇。有關更多信息，請參見第 2 部分，工作站端到端 AI ：使用 ONNX 轉換 AI 模型和第 3 部分，工作站端到端 AI ： ONNX 運行時和優化 . GPU 的偉大之處在于它提供了巨大的并行性；它允許您同時執行許多任務。在最精細的層面上，這歸結為有數千個微小的處理內核同時運行同一條指令。但這并不是這種并行性停止的地方。還有其他方法可以利用經常被忽視的并行性，特別是在人工智能方面。當你考慮人工智能功能的性能時，你到底是什么意思？您是否只是在考慮模型本身運行所需的時間，還是在考慮加載數據、預處理數據、傳輸數據以及寫回磁盤或顯示所需時間？這個問題可能最好由體驗該功能的用戶來回答。通常會發現，實際的模型執行時間只是整個體驗的一小部分。這篇文章是本系列文章的第一篇，它將引導您了解幾個特定于 API 的用例，包括：

Source

]]>

工作站端到端 AI ：使用 ONNX 轉換 AI 模型

Thu, 15 Dec 2022 06:50:00 +0000

這篇文章是優化工作站端到端人工智能系列文章的第二篇。有關更多信息，請參見第 1 部分，工作站端到端 AI ：優化簡介和第 3 部分，工作站端到端 AI ： ONNX 運行時和優化 . 在這篇文章中，我討論了如何使用 ONNX 將人工智能模型從研究過渡到生產，同時避免常見錯誤。考慮到 PyTorch 已經成為最流行的機器學習框架，我的所有示例都使用它，但我也提供了 TensorFlow 教程的參考。 ONNX （開放式神經網絡交換）是描述深度學習模型的開放標準，旨在促進框架兼容性。考慮以下場景：您可以在 PyTorch 中訓練神經網絡，然后在將其部署到生產環境之前通過 TensorRT 優化編譯器運行它。這只是許多可互操作的深度學習工具組合中的一種，包括可視化、性能分析器和優化器。研究人員和 DevOps 不再需要將就一個未優化建模和部署性能的單一工具鏈。

Source

]]>

工作站端到端 AI ： ONNX 運行時和優化

Thu, 15 Dec 2022 06:36:00 +0000

這篇文章是優化工作站端到端人工智能系列文章的第三篇。有關更多信息，請參見第 1 部分，工作站端到端 AI ：優化簡介和第 2 部分，工作站端到端 AI ：使用 ONNX 轉換 AI 模型 . 當您的模型轉換為 ONNX 格式時，有幾種方法可以部署它，每種方法都有優缺點。一種方法是使用 ONNX Runtime 。 ONNX 運行時充當后端，從中間表示（ ONNX ）讀取模型，處理推理會話，并在能夠調用硬件特定庫的執行提供程序上調度執行。有關詳細信息，請參見 Execution Providers 。在這篇文章中，我將討論如何在高級別上使用 ONNX 運行時。我還深入探討了如何優化模型。 ONNX Runtime 與大多數編程語言兼容。與另一篇文章一樣，本文使用 Python 是為了簡潔和易讀。這些例子只是為了介紹關鍵思想。有關所有流行操作系統、

Source

]]>

在 Azure 機器學習上提高人工智能模型推理性能

Mon, 29 Aug 2022 02:41:00 +0000

每個 AI 應用程序都需要強大的推理引擎。無論您是部署圖像識別服務、智能虛擬助理還是欺詐檢測應用程序，可靠的推理服務器都能提供快速、準確和可擴展的預測，具有低延遲（對單個查詢的響應時間較短）和高吞吐量（在給定時間間隔內處理大量查詢）。然而，檢查所有這些方框可能很難實現，而且成本高昂。團隊需要考慮部署可以利用以下功能的應用程序：這些要求使人工智能推理成為一項極具挑戰性的任務，可以通過 NVIDIA Triton 推理服務器 . 這篇文章提供了一個逐步提高 AI 推理性能的教程 Azure 機器學習使用 NVIDIA Triton 模型分析儀和 ONNX 運行時橄欖，如圖 1 所示。為了提高 AI 推理性能， ONNX Runtime OLive 和 Triton 模型分析器在模型部署之前自動執行參數優化步驟。這些參數定義了底層推理引擎將如何執行。

Source

]]>