NVIDIA TensorRT-LLM KV 緩存早期重用實現首個令牌速度 5 倍提升

Fri, 08 Nov 2024 08:12:22 +0000

在上一篇博客文章中，我們展示了通過將鍵值 (KV) 緩存卸載到 CPU 內存來重復使用該緩存如何在基于 x86 的 NVIDIA H100 Tensor Core GPU 上將首次生成令牌 (Time To First Token, TTFT) 的速度提升高達 14 倍，在 NVIDIA GH200 Superchip 上可將其提升高達 28 倍。在本文中，我們介紹了可以進一步推動 TTFT 加速的 KV 緩存重復使用技術和最佳實踐。許多任務（包括問答和代碼生成）都迅速采用了 LLM 模型。為了生成響應，這些模型首先將用戶的提示符轉換為 tokens，然后將其轉換為 dense vectors。隨后會進行大量的 dot-product operations，以數學方式對 tokens 之間的關系建模，并構建對用戶輸入的上下文理解。

Source

]]>

Thor Johnsen – NVIDIA 技術博客

NVIDIA TensorRT-LLM KV 緩存早期重用實現首個令牌速度 5 倍提升