Josh Park – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Tue, 11 Mar 2025 07:08:52 +0000
zh-CN
hourly
1
196178272 -
借助 NVIDIA DriveOS LLM SDK 簡化自動駕駛汽車應用的 LLM 部署
http://www.open-lab.net/zh-cn/blog/streamline-llm-deployment-for-autonomous-vehicle-applications-with-nvidia-driveos-llm-sdk/
Mon, 10 Mar 2025 06:57:15 +0000
http://www.open-lab.net/zh-cn/blog/?p=13098
Continued]]>
大語言模型 (LLMs) 在自然語言處理 (NLP) 中表現出非凡的泛化能力。它們廣泛應用于翻譯、數字助理、推薦系統、上下文分析、代碼生成、網絡安全等。汽車應用對基于 LLMs 的自動駕駛和座艙功能解決方案的需求與日俱增。在通常資源受限的汽車平臺上部署 LLMs 和 視覺語言模型 (VLMs) 已成為一項嚴峻的挑戰。 本文將介紹 NVIDIA DriveOS LLM SDK,該庫旨在優化自動駕駛汽車 DRIVE AGX 平臺 上先進 LLM 和 VLM 的推理。它是基于 NVIDIA TensorRT 推理引擎構建的輕量級工具包。它整合了針對 LLM 的特定優化,例如自定義注意力內核和量化技術,以便在汽車平臺上部署 LLM。 該工具包提供易于使用的 C++ 庫和示例代碼,用于導出、構建 TensorRT 引擎、執行推理,以及使用完整的端到端工作流對 LLM 進行基準測試。
Source
]]>
13098
-
使用全卷積網絡在 Transformer 模型中模擬注意力機制
http://www.open-lab.net/zh-cn/blog/emulating-the-attention-mechanism-in-transformer-models-with-a-fully-convolutional-network/
Mon, 29 Jan 2024 04:14:05 +0000
http://www.open-lab.net/zh-cn/blog/?p=8866
Continued]]>
在過去十年中,深度學習技術在計算機視覺 (CV) 任務中的應用大幅增加。卷積神經網絡 (CNN) 一直是這場革命的基石,展示了卓越的性能,并在視覺感知方面實現了顯著進步。 通過采用本地化濾鏡和分層架構,CNN 已證明擅長捕捉空間層次結構、檢測模式,以及從圖像中提取信息豐富的特征。例如,在用于圖像識別的深度殘差學習中,卷積層表現出平移等方差,使其能夠泛化為平移和空間轉換。然而,盡管 CNN 取得了成功,但其在捕獲遠程依賴項和全局上下文理解方面仍存在局限性,這在需要精細理解的復雜場景或任務中變得越來越重要。 相比之下,Transformer 架構在計算機視覺領域中正變得越來越有吸引力,這得益于其在自然語言處理 (NLP) 領域的成功應用。正如論文Attention Is All You Need中所展示的,Transformer 通過避免局部卷積,提供了一種自注意力機制,
Source
]]>
8866
-
使用 NVIDIA QAT 工具包為 TensorFlow 和 NVIDIA TensorRT 加速量化網絡
http://www.open-lab.net/zh-cn/blog/accelerating-quantized-networks-with-qat-toolkit-and-tensorrt/
Thu, 16 Jun 2022 02:50:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=4327
Continued]]>
我們很高興宣布 NVIDIA Quantization Aware Training ( QAT ) Toolkit for TensorFlow 2 目標是在 NVIDIA GPU 上使用 NVIDIA TensorRT 加速量化網絡。該工具包為您提供了一個易于使用的 API ,以一種優化的方式量化網絡,只需幾行額外的代碼即可進行 TensorRT 推理。 這篇文章伴隨著 走向 INT8 推理:使用 TensorRT 部署量化感知訓練網絡的端到端工作流 GTC 課程。有關 PyTorch 量化工具包等效工具,請參閱 PyTorch 量化 . 加速深層神經網絡( DNN )推理是實現實時應用(如圖像分類、圖像分割、自然語言處理等)延遲關鍵部署的重要步驟。 改進 DNN 推理延遲的需要引發了人們對以較低精度運行這些模型的興趣,如 FP16 和 INT8 。
Source
]]>
4327
-
使用 NVIDIA TensorRT 加速深度學習推理(更新)
http://www.open-lab.net/zh-cn/blog/speeding-up-deep-learning-inference-using-tensorrt-updated/
Tue, 20 Jul 2021 09:19:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=1124
Continued]]>
這篇文章于 2021 年 7 月 20 日更新,以反映 NVIDIA TensorRT 8 . 0 的更新。 NVIDIA TensorRT 是一個用于深度學習推理的 SDK 。 TensorRT 提供了 API 和解析器,可以從所有主要的深度學習框架中導入經過訓練的模型。然后,它生成可在數據中心以及汽車和嵌入式環境中部署的優化運行時引擎。 這篇文章簡單介紹了如何使用 TensorRT 。您將學習如何在 GPU 上部署深度學習應用程序,從而提高吞吐量并減少推理過程中的延遲。它使用 C ++示例來將您通過將 PyTorch 模型轉換成 ONX 模型并將其導入 TensorRT ,應用優化,并為數據中心環境生成高性能運行時引擎。 TensorRT 同時支持 C ++和 Python ;如果您使用其中任何一個,此工作流討論可能會很有用。如果您喜歡使用 Python ,
Source
]]>
1124
-
使用 TensorRT 加速深度學習推理
http://www.open-lab.net/zh-cn/blog/speeding-up-deep-learning-inference-using-tensorrt/
Tue, 21 Apr 2020 07:42:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=224
Continued]]>
這是的更新版本 如何用 TensorRT 加速深度學習推理 . 此版本從 PyTorch 模型開始,而不是 ONNX 模型,將示例應用程序升級為使用 TensorRT 7 ,并將 ResNet-50 分類模型替換為 UNet ,這是一個分段模型。 NVIDIA TensorRT 是一個用于深度學習推理的 SDK 。 TensorRT 提供 api 和解析器來從所有主要的深度學習框架中導入經過訓練的模型。然后生成可部署在數據中心、汽車和嵌入式環境中的優化運行時引擎。 這篇文章簡單介紹了如何使用 TensorRT 。您將學習如何在 GPU 上部署深度學習應用程序,從而提高吞吐量并減少推理過程中的延遲。它使用 C ++示例來將您通過將 PyTorch 模型轉換成 ONX 模型并將其導入 TensorRT ,應用優化,
Source
]]>
224
-
使用 TensorFlow、ONNX 和 TensorRT 加速深度學習推理
http://www.open-lab.net/zh-cn/blog/speeding-up-deep-learning-inference-using-tensorflow-onnx-and-tensorrt/
Fri, 27 Mar 2020 07:05:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=437
Continued]]>
從 TensorRT 7 . 0 開始, Universal Framework Format( UFF )被棄用。在本文中,您將學習如何使用新的 TensorFlow -ONNX- TensorRT 工作流部署經過 TensorFlow 培訓的深度學習模型。圖 1 顯示了 TensorRT 的高級工作流。 首先,使用任何框架訓練網絡。網絡訓練后,批量大小和精度是固定的(精度為 FP32 、 FP16 或 INT8 )。訓練好的模型被傳遞給 TensorRT 優化器,優化器輸出一個優化的運行時(也稱為計劃)。. plan 文件是 TensorRT 引擎的序列化文件格式。計劃文件需要反序列化才能使用 TensorRT 運行時運行推斷。 要優化在 TensorFlow 中實現的模型,只需將模型轉換為 ONNX 格式,并使用 TensorRT 中的 ONNX…
Source
]]>
437
人人超碰97caoporen国产