Rakib Hasan – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Fri, 03 Jan 2025 02:52:10 +0000
zh-CN
hourly
1
196178272 -
NVIDIA?TensorRT-LLM?現支持?Recurrent Drafting,實現?LLM?推理優化
http://www.open-lab.net/zh-cn/blog/nvidia-tensorrt-llm-now-supports-recurrent-drafting-for-optimizing-llm-inference/
Wed, 18 Dec 2024 08:20:20 +0000
http://www.open-lab.net/zh-cn/blog/?p=12404
Continued]]>
Recurrent Drafting (簡稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發并開源的一種新型推測解碼技術,該技術現在可與 NVIDIA TensorRT-LLM 一起使用。ReDrafter 幫助開發者大幅提升了 NVIDIA GPU 上的 LLM 工作負載性能。NVIDIA TensorRT-LLM 是一個 LLM 推理優化庫,提供了一個易于使用的 Python API 來定義 LLM 和構建 NVIDIA TensorRT 引擎,這些引擎具有頂尖的優化功能,可在 GPU 上高效執行推理。優化功能包括自定義 Attention Kernel、Inflight Batching、Paged KV Caching、量化技術 (FP8、INT4 AWQ、INT8 SmoothQuant) 等。 推測解碼 (Speculative decoding)…
Source
]]>
12404
人人超碰97caoporen国产