Maximilian Müller – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 24 Apr 2025 06:12:17 +0000 zh-CN hourly 1 196178272 使用 NVIDIA TensorRT 優化基于 Transformer 的擴散模型以生成視頻 http://www.open-lab.net/zh-cn/blog/optimizing-transformer-based-diffusion-models-for-video-generation-with-nvidia-tensorrt/ Mon, 21 Apr 2025 06:03:20 +0000 http://www.open-lab.net/zh-cn/blog/?p=13623 Continued]]> 先進的圖像擴散模型需要數十秒才能處理單張圖像。這使得視頻擴散更具挑戰性,需要大量計算資源和高昂成本。通過在搭載 NVIDIA TensorRT 的 NVIDIA Hopper GPU 上利用最新的 FP8 量化功能,可以顯著降低推理成本,并以更少的 GPU 為更多用戶提供服務。雖然量化擴散器的部署可能比較復雜,但 TensorRT 背后的完整生態系統可以幫助克服這些挑戰。 借助此方法,Adobe 將延遲降低了 60%,TCO 降低了近 40%,從而加快了推理速度并提高了響應速度。使用在由 Hopper GPU 加速的 Amazon Web Services (AWS) EC2 P5/P5en 上運行的 TensorRT 進行的優化部署,提高了可擴展性,以更少的 GPU 為更多用戶提供服務。 本文將探討為增強 Adobe Firefly 視頻生成模型的性能而實施的策略和優化,

Source

]]>
13623
借助 NVIDIA TensorRT 輕量級引擎,為 AI 應用提供卓越性能和最小占用空間 http://www.open-lab.net/zh-cn/blog/maximum-performance-and-minimum-footprint-for-ai-apps-with-nvidia-tensorrt-weight-stripped-engines/ Tue, 11 Jun 2024 06:45:32 +0000 http://www.open-lab.net/zh-cn/blog/?p=10343 Continued]]> NVIDIA TensorRT一個成熟的數據中心推理庫,已迅速成為 NVIDIA GeForce RTX 和 NVIDIA RTX GPU 的理想推理后端。現在,部署 TensorRT 借助預構建的 TensorRT 引擎,應用變得更加簡單。 新發布的重量去除 TensorRT 10.0 引擎提供了一種獨特的解決方案,通過將其縮小到僅執行代碼來最大限度地減少引擎出貨量,從而實現 > 95%的引擎尺寸壓縮。 在本文中,我們將討論如何構建輕量級引擎,以及如何使用 TensorRT 40MB 精簡運行時直接在最終用戶設備上對其進行改裝。 TensorRT 10.0 中引入的權重剝離引擎包含無權重的執行代碼 (CUDA 內核).在構建階段啟用權重剝離后,引擎的體積比傳統引擎小 95%以上,并且僅保留必要的權重以優化性能。 這些引擎支持 ONNX 模型和其他網絡定義,

Source

]]>
10343
使用 NVIDIA GPU 和 VMAF-CUDA 計算視頻質量 http://www.open-lab.net/zh-cn/blog/calculating-video-quality-using-nvidia-gpus-and-vmaf-cuda/ Tue, 12 Mar 2024 06:35:08 +0000 http://www.open-lab.net/zh-cn/blog/?p=9194 Continued]]> 視頻質量指標用于評估視頻內容的保真度。它們提供一致的量化測量,用于評估編碼器的性能。 VMAF 將人類視覺建模與不斷發展的機器學習技術相結合,使其能夠適應新內容 .VMAF 通過結合視頻質量因素的詳細分析和人類視覺建模以及先進的機器學習,很好地契合了人類視覺感知。 本文展示了 CUDA 加速的 VMAF(VMAF-CUDA)如何在 NVIDIA GPU 上計算 VMAF 分數。VMAF 圖像特征提取器被移植到 CUDA,使其能夠使用 NVIDIA 視頻編解碼器 SDK。我們觀察到開源工具 FFmpeg 的吞吐量提高了 4.4 倍,4K 時的延遲降低了 37 倍。加速現在正式成為 VMAF 3.0 和 FFmpeg v6.1。 VMAF-CUDA 的實現是 NVIDIA 和 Netflix 成功開源協作的結果。該協作的成果包括擴展的 libvmaf API(帶有 GPU…

Source

]]>
9194
適用于基于 NVIDIA 的 PC 的端到端人工智能: NVIDIA TensorRT 部署 http://www.open-lab.net/zh-cn/blog/end-to-end-ai-for-nvidia-based-pcs-nvidia-tensorrt-deployment/ Wed, 15 Mar 2023 03:25:20 +0000 http://www.open-lab.net/zh-cn/blog/?p=6451 Continued]]> 這篇文章是關于 優化端到人工智能 的系列文章中的第五篇。 NVIDIA TensorRT 是一種在 NVIDIA 硬件上部署光速推理的解決方案。有了人工智能模型架構, TensorRT 可以在部署前使用,以過度搜索最有效的執行策略。 TensorRT 優化包括重新排序圖中的操作,優化權重的內存布局,以及將操作融合到單個內核以減少 VRAM 的內存流量。要應用這些優化, TensorRT 必須具有完整的網絡定義及其權重。 評估的策略在 TensorRT 引擎中序列化,該引擎與應用程序一起提供,以在生產中實現最佳推理性能。在部署過程中,除了這個引擎之外,不需要其他任何東西來執行網絡。 包含已編譯的內核和對文件的序列化使該引擎僅與相同 計算能力 的 GPU 兼容。該文件也特定于 TensorRT 版本,但將與 8.6 之后的未來版本兼容。

Source

]]>
6451
基于 NVIDIA 的 PC 的端到端 AI : ONNX Runtime 中的 CUDA 和 TensorRT 執行提供程序 http://www.open-lab.net/zh-cn/blog/end-to-end-ai-for-nvidia-based-pcs-cuda-and-tensorrt-execution-providers-in-onnx-runtime/ Wed, 08 Feb 2023 05:42:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=6244 Continued]]> 這篇文章是 optimizing end-to-end AI 系列文章的第四篇。 有關更多信息,請參閱以下帖子: 正如在 End-to-End AI for NVIDIA-Based PCs 系列的上一篇文章中所解釋的, ONNX Runtime 中有多個執行提供程序( EP ),它們支持針對給定部署場景使用特定于硬件的功能或優化。本文介紹了 CUDA EP 和 TensorRT EP ,它們使用了高度優化的 NVIDIA 推理庫和各自的硬件功能,如 Tensor Core 。 除了 NVIDIA 硬件上的最佳性能外,這還允許在多個操作系統甚至數據中心、 PC 和嵌入式( NVIDIA Jetson )硬件上使用相同的 EP 。由于這些 EP 是特定于 NVIDIA 的,因此這是獲得 FP8 精度或 NVIDIA Ada Lovelace architecture 中的…

Source

]]>
6244
人人超碰97caoporen国产