使用 NVIDIA TensorRT-LLM 前瞻性解碼優化 Qwen2.5-Coder 吞吐量

Fri, 14 Feb 2025 04:58:05 +0000

專注于編碼的大語言模型（LLMs）已穩步應用于開發者工作流程。從配對編程到自我改進的 AI 智能體，這些模型可幫助開發者完成各種任務，包括增強代碼、修復錯誤、生成測試和編寫文檔。為促進開源 LLM 的開發，Qwen 團隊最近發布了 Qwen2.5-Coder，這是一系列先進的 LLM，用于跨熱門編程語言的代碼生成、推理和修復。本文將探討針對 NVIDIA TensorRT-LLM 支持的 Qwen2.5-Coder 模型進行推理優化的優勢，以及借助 NVIDIA NIM 輕松部署以提升變革潛力和編碼效率的好處。 Qwen2.5-Coder 模型在熱門的學術基準測試中取得了出色的性能。 NVIDIA TensorRT-LLM 已對 Qwen2.5-Coder 系列的三種熱門模型 (1.5B、7B 和 32B 版本) 進行優化，以實現高吞吐量和低延遲。

Source

]]>

借助 NVIDIA TensorRT-LLM 預測解碼，將 Llama 3.3 的推理吞吐量提升 3 倍

Tue, 17 Dec 2024 04:36:12 +0000

隨著近期新增的 Llama 3.3 70B (一種純文本指令調整模型)，Meta 的開放大語言模型 (LLMs) 集合將繼續增長。Llama 3.3 相對于較舊的 Llama 3.1 70B 模型提供了增強的性能，甚至可以在數學、推理、編碼和多語種支持等多項任務中匹配更大、計算成本更高的 Llama 3.1 405B 模型的功能。 NVIDIA TensorRT-LLM 是一款功能強大的推理引擎，可在最新的 LLM 上提供先進的性能，并整合了許多優化措施，可提供出色的 Llama 3.3 70B 推理吞吐量。其中包括在飛批處理、 KV 緩存、自定義 FP8 量化、推測解碼等，可實現快速、經濟高效的 LLM 服務。動態批處理默認作為運行時配置參數激活，TensorRT-LLM 支持同時批處理多個不同的請求，從而提高服務吞吐量。通過在上下文和生成階段交錯處理請求，

Source

]]>

Lalit Vaidya – NVIDIA 技術博客

使用 NVIDIA TensorRT-LLM 前瞻性解碼優化 Qwen2.5-Coder 吞吐量

借助 NVIDIA TensorRT-LLM 預測解碼，將 Llama 3.3 的推理吞吐量提升 3 倍