Nick Comly – NVIDIA 技術博客

使用 FlashInfer 運行 NVIDIA 的高性能 LLM 推理內核

Fri, 13 Jun 2025 07:42:42 +0000

出色的 LLM 推理需要兩個關鍵要素：速度和開發者速度。速度是指通過使用高度優化的計算內核算法，最大限度地提高底層硬件的效率。開發者速度是指快速采用這些新內核并加速新模型、算法和硬件的能力。最終，這種速度的基礎是快速部署在底層 GPU 上運行的新計算內核，以及將這些內核輕松引入框架。 FlashInfer 是一個可定制的高效庫，用于構建高效的 LLM 服務引擎。它使用塊稀疏和可組合格式優化 KV 緩存存儲，以改善內存訪問并減少冗余，并具有可定制的注意力模板，可通過即時 (JIT) 編譯來適應各種設置。其負載平衡調度算法可根據動態用戶請求進行調整，同時保持與 NVIDIA CUDA Graph 靜態配置兼容。FlashInfer 已集成到領先的 LLM 服務框架 (例如 MLC Engine、SGLang 和 vLLM) 以及多個自定義引擎中。

Source

]]>

借助 NVIDIA 全棧解決方案提升 AI 推理性能

Tue, 24 Dec 2024 05:43:02 +0000

AI 驅動的應用的爆炸式發展對開發者提出了前所未有的要求，他們必須在提供先進的性能與管理運營復雜性和成本以及 AI 基礎設施之間取得平衡。 NVIDIA 正在為開發者提供涵蓋芯片、系統和軟件的全棧創新，重新定義 AI 推理的可能性，使其比以往更快、更高效、更具可擴展性。六年前，NVIDIA 著手打造 AI 推理服務器，專為構建高吞吐量、延遲關鍵型生產應用的開發者而設計。當時，許多開發者都在努力使用定制的、特定于框架的服務器，這些服務器增加了復雜性，增加了運營成本，并且難以滿足嚴格的服務水平協議（service-level agreements）關于延遲和吞吐量的要求。為解決這一問題，NVIDIA 開發了 NVIDIA Triton Inference Server ，這是一個開源平臺，能夠為來自任何 AI 框架的模型提供服務。通過整合特定于框架的推理服務器，

Source

]]>

Llama 3.2 全棧優化釋放 NVIDIA GPU 的高性能

Tue, 19 Nov 2024 09:20:22 +0000

Meta 最近發布了 Llama 3.2 系列視覺語言模型（VLM），其中包含 11B 參數和 90B 參數變體。這些模型是多模態模型，支持文本和圖像輸入。此外，Meta 還推出了 Llama 3.2 的純文本小語言模型（SLM）變體，具有 1B 和 3B 參數。NVIDIA 已對 Llama 3.2 模型集合進行優化，以便在全球數百萬個 GPU 上提供出色的性能和經濟高效的服務 – 從我們功能強大的數據中心和云 GPU 到本地 NVIDIA RTX 工作站，甚至是使用 NVIDIA Jetson 的低功耗邊緣設備。 Llama 3.2 VLM 支持長達 128K 的文本標記，以及分辨率為 1120 x 1120 像素的單張圖像輸入。為了實現低延遲響應，提供出色的用戶體驗，同時提供高吞吐量以經濟高效地提供這些模型，NVIDIA 平臺在技術堆棧的每一層都進行了優化。

Source

]]>

借助 NVIDIA TensorRT-LLM 分塊預填充提高 AI 推理效率和簡化部署

Fri, 15 Nov 2024 07:04:02 +0000

在本博文中，我們詳細介紹了分塊預填充，這是 NVIDIA TensorRT-LLM 的一項功能，可提高 GPU 利用率并簡化開發者的部署體驗。本文基于之前的博文，討論了 TensorRT-LLM 中的高級 KV 緩存優化功能如何在需要系統預填充的用例中將性能提升高達 5 倍。當用戶向模型提交請求時，它將經歷兩個不同的計算階段：預填充和解碼。每個階段使用 GPU 計算資源的方式各不相同。在預填充階段，系統會處理所有輸入令牌以計算 KV 緩存，然后使用該緩存生成輸出的第一個令牌。此階段的計算要求很高，可以有效利用 GPU 龐大的并行計算資源。在解碼階段，系統會單獨生成輸出 tokens，使用每個新 tokens 更新預填充階段的中間狀態。由于中間狀態計算的繁重計算工作是在預填充階段完成的，因此解碼階段主要涉及僅處理新生成的 tokens。因此，

Source

]]>

NVIDIA TensorRT-LLM KV 緩存早期重用實現首個令牌速度 5 倍提升

Fri, 08 Nov 2024 08:12:22 +0000

在上一篇博客文章中，我們展示了通過將鍵值 (KV) 緩存卸載到 CPU 內存來重復使用該緩存如何在基于 x86 的 NVIDIA H100 Tensor Core GPU 上將首次生成令牌 (Time To First Token, TTFT) 的速度提升高達 14 倍，在 NVIDIA GH200 Superchip 上可將其提升高達 28 倍。在本文中，我們介紹了可以進一步推動 TTFT 加速的 KV 緩存重復使用技術和最佳實踐。許多任務（包括問答和代碼生成）都迅速采用了 LLM 模型。為了生成響應，這些模型首先將用戶的提示符轉換為 tokens，然后將其轉換為 dense vectors。隨后會進行大量的 dot-product operations，以數學方式對 tokens 之間的關系建模，并構建對用戶輸入的上下文理解。

Source

]]>

NVIDIA NVLink 和 NVIDIA NVSwitch 加速大語言模型推理性能

Mon, 12 Aug 2024 07:03:12 +0000

大型語言模型（LLM）越來越大，增加了處理推理請求所需的計算量。為了滿足服務當今LLM的實時延遲要求，并為盡可能多的用戶提供服務，多GPU計算是必不可少的。這不僅能夠降低延遲，提高用戶體驗，還能夠提高吞吐量，降低服務成本。兩者同時重要。即使大型模型可以裝入單個state-of-the-art GPU的內存中，該GPU生成令牌的速率也取決于可用于處理請求的總計算量。通過結合多個state-of-the-art GPU的計算能力，可以實現最新模型的實時用戶體驗。為了解對每秒高令牌的需求，以下 GIF 展示了兩種情況：通過使用多個 GPU 的組合計算性能和張量并行 (TP) 等技術來運行大型模型，可以快速處理推理請求，從而實現實時響應。通過精心選擇用于運行模型的 GPU 數量，云推理服務還可以同時優化用戶體驗和成本。

Source

]]>

NVIDIA TensorRT 10.0 升級可用性、性能和 AI 模型支持

Tue, 14 May 2024 07:01:41 +0000

NVIDIA 今天宣布最新發布的 NVIDIA TensorRT，一個用于高性能深度學習推理的 API 生態系統。該系統包括推理運行時和模型優化兩大組件，為生產應用程序提供低延遲和高吞吐量的優化解決方案。這篇文章概述了此版本的關鍵功能和升級，包括更容易的安裝、更高的可用性、改進的性能以及更多本地支持的人工智能模型。得益于更新的 Debian 和 RPM 元包，使用 TensorRT 10.0 變得更加容易上手。例如，使用或命令便可為 C++ 或 Python 安裝所有相關的 TensorRT 庫。此外，Debug Tensors 是一個新添加的 API，用于在構建時將張量標記為調試張量。這樣可以更容易地識別圖形中出現的任何問題。在運行時，每次寫入張量的值時，都會使用值、類型和維度調用一個用戶定義的回調函數。 TensorRT 10.0…

Source

]]>

現已公開發布！歡迎使用 NVIDIA TensorRT-LLM 優化大語言模型推理

Thu, 19 Oct 2023 06:54:42 +0000

NVIDIA 于 2023 年 10 月 19 日公開發布 TensorRT-LLM，可在 NVIDIA GPU 上加速和優化最新的大語言模型（ Large Language Models）的推理性能。該開源程序庫現已作為 NVIDIA NeMo 框架的一部分，在 /NVIDIA/TensorRT-LLM GitHub 資源庫中免費提供。大語言模型徹底改變了人工智能領域，并創造了與數字世界交互的全新方式。但是，隨著世界各地的企業和應用開發者想要在自己的工作中采用大語言模型，運行這些模型的相關問題開始凸顯。簡而言之，大語言模型規模龐大。如果不采用正確的技術，那么運行大語言模型的成本不僅會很高，速度也會很慢。為解決這一問題，從模型優化（如內核融合和量化）到運行時優化（如 C++ 實現、KV 緩存、連續動態批處理 continuous in-flight…

Source

]]>

NVIDIA TensorRT-LLM 在 NVIDIA H100 GPU 上大幅提升大語言模型推理能力

Fri, 08 Sep 2023 04:01:53 +0000

大語言模型（LLM）提供異常強大的新功能，拓展了 AI 的應用領域。但由于其龐大的規模和獨特的執行特性，很難找到經濟高效的使用方式。 NVIDIA 一直在與 Meta、Anyscale、Cohere、Deci、Grammarly、Mistral AI、MosaicML（現已并入 Databricks）、OctoML、ServiceNow、Tabnine、Together AI 和 Uber 等頭部企業密切合作，共同加速和優化 LLM 推理性能。這些創新已被集成到開源的 NVIDIA TensorRT-LLM 軟件中，可用于 Ampere、Lovelace 和 Hopper 架構 GPU，并將在未來幾周內發布。TensorRT-LLM 包含 TensorRT 深度學習編譯器，并且帶有經過優化的內核、前處理和后處理步驟，以及多 GPU/多節點通信原語，

Source

]]>

使用 NVIDIA TensorRT 和 NVIDIA Triton 優化和提供模型

Wed, 20 Jul 2022 04:15:00 +0000

假設您已經使用 PyTorch 、 TensorFlow 或您選擇的框架訓練了您的模型，并對其準確性感到滿意，并且正在考慮將其部署為服務。有兩個重要的目標需要考慮：最大化模型性能和構建將其部署為服務所需的基礎設施。這篇文章討論了這兩個目標。通過在三個堆棧級別上加速模型，可以從模型中擠出更好的性能： NVIDIA GPU 是深度學習從業者在硬件加速方面的首選，其優點在業界得到廣泛討論。關于 GPU 軟件加速的討論通常圍繞庫，如 cuDNN 、 NCCL 、 TensorRT 和其他 CUDA-X 庫。算法或網絡加速圍繞量化和知識提取等技術的使用，這些技術本質上是對網絡本身進行修改，其應用高度依賴于您的模型。這種加速需求主要是由業務問題驅動的，如降低成本或通過減少延遲來改善最終用戶體驗，以及戰術考慮因素，如在計算資源較少的邊緣設備上部署模型。

Source

]]>