NVIDIA?TensorRT-LLM?現支持?Recurrent Drafting，實現?LLM?推理優化

Wed, 18 Dec 2024 08:20:20 +0000

Recurrent Drafting (簡稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發并開源的一種新型推測解碼技術，該技術現在可與 NVIDIA TensorRT-LLM 一起使用。ReDrafter 幫助開發者大幅提升了 NVIDIA GPU 上的 LLM 工作負載性能。NVIDIA TensorRT-LLM 是一個 LLM 推理優化庫，提供了一個易于使用的 Python API 來定義 LLM 和構建 NVIDIA TensorRT 引擎，這些引擎具有頂尖的優化功能，可在 GPU 上高效執行推理。優化功能包括自定義 Attention Kernel、Inflight Batching、Paged KV Caching、量化技術 (FP8、INT4 AWQ、INT8 SmoothQuant) 等。推測解碼 (Speculative decoding)…

Source

]]>

NVIDIA TensorRT-LLM 現支持動態批處理加速編碼器 – 解碼器模型

Wed, 11 Dec 2024 06:33:05 +0000

NVIDIA 最近宣布， NVIDIA TensorRT-LLM 現可加速編碼器 – 解碼器模型架構。TensorRT-LLM 是一個開源庫，可針對各種模型架構優化推理，包括：編碼器-解碼器模型支持的添加進一步擴展了 TensorRT-LLM 功能，為 NVIDIA GPUs 上更廣泛的生成式 AI 應用提供高度優化的推理。 TensorRT-LLM 使用 NVIDIA TensorRT 深度學習編譯器。它包含經過最新優化的內核，可在前沿實現用于 LLM 模型執行的不同注意力機制。它還在一個簡單的開源 API 中包含預處理和后處理步驟以及多 GPU/多節點通信基元，可在 GPU 上實現突破性的 LLM 推理性能。 TensorRT-LLM 可處理編碼器 – 解碼器模型系列 (例如 T5 、 mT5 、Flan-T5、 BART 、 mBART 、

Source

]]>

Haohang Huang – NVIDIA 技術博客

NVIDIA?TensorRT-LLM?現支持?Recurrent Drafting，實現?LLM?推理優化

NVIDIA TensorRT-LLM 現支持動態批處理加速編碼器 – 解碼器模型