借助 NVIDIA TensorRT-LLM 分塊預填充提高 AI 推理效率和簡化部署

Fri, 15 Nov 2024 07:04:02 +0000

在本博文中，我們詳細介紹了分塊預填充，這是 NVIDIA TensorRT-LLM 的一項功能，可提高 GPU 利用率并簡化開發者的部署體驗。本文基于之前的博文，討論了 TensorRT-LLM 中的高級 KV 緩存優化功能如何在需要系統預填充的用例中將性能提升高達 5 倍。當用戶向模型提交請求時，它將經歷兩個不同的計算階段：預填充和解碼。每個階段使用 GPU 計算資源的方式各不相同。在預填充階段，系統會處理所有輸入令牌以計算 KV 緩存，然后使用該緩存生成輸出的第一個令牌。此階段的計算要求很高，可以有效利用 GPU 龐大的并行計算資源。在解碼階段，系統會單獨生成輸出 tokens，使用每個新 tokens 更新預填充階段的中間狀態。由于中間狀態計算的繁重計算工作是在預填充階段完成的，因此解碼階段主要涉及僅處理新生成的 tokens。因此，

Source

]]>

Sharan Chetlur – NVIDIA 技術博客

借助 NVIDIA TensorRT-LLM 分塊預填充提高 AI 推理效率和簡化部署