NVIDIA TensorRT-LLM Now Supports Recurrent Drafting for Optimizing LLM Inference – NVIDIA Technical Blog

NVIDIA TensorRT-LLM Now Supports Recurrent Drafting for Optimizing LLM Inference – NVIDIA Technical Blog News and tutorials for developers, data scientists, and IT admins 2025-05-19T22:17:46Z http://www.open-lab.net/blog/feed/ Rakib Hasan <![CDATA[NVIDIA TensorRT-LLM Now Supports Recurrent Drafting for Optimizing LLM Inference]]> http://www.open-lab.net/blog/?p=92963 2025-03-11T01:44:00Z 2024-12-18T17:31:01Z

Recurrent drafting (referred to as ReDrafter) is a novel speculative decoding technique developed and open-sourced by Apple for large language model (LLM)...]]>

Recurrent drafting (referred to as ReDrafter) is a novel speculative decoding technique developed and open-sourced by Apple for large language model (LLM)...

tensor-rt-llm-graphic

Recurrent drafting (referred to as ReDrafter) is a novel speculative decoding technique developed and open-sourced by Apple for large language model (LLM) inference now available with NVIDIA TensorRT-LLM. ReDrafter helps developers significantly boost LLM workload performance on NVIDIA GPUs. NVIDIA TensorRT-LLM is a library for optimizing LLM inference. It provides an easy-to-use Python API to��

]]> 0 ��˳��97caoporen��