Sharan Chetlur – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Fri, 22 Nov 2024 07:05:48 +0000
zh-CN
hourly
1
196178272 -
借助 NVIDIA TensorRT-LLM 分塊預填充提高 AI 推理效率和簡化部署
http://www.open-lab.net/zh-cn/blog/streamlining-ai-inference-performance-and-deployment-with-nvidia-tensorrt-llm-chunked-prefill/
Fri, 15 Nov 2024 07:04:02 +0000
http://www.open-lab.net/zh-cn/blog/?p=12029
Continued]]>
在本 博文 中,我們詳細介紹了分塊預填充,這是 NVIDIA TensorRT-LLM 的一項功能,可提高 GPU 利用率并簡化開發者的部署體驗。本文基于之前的博文,討論了 TensorRT-LLM 中的高級 KV 緩存優化功能如何在需要系統預填充的用例中將性能提升高達 5 倍。 當用戶向模型提交請求時,它將經歷兩個不同的計算階段:預填充和解碼。每個階段使用 GPU 計算資源的方式各不相同。 在預填充階段,系統會處理所有輸入令牌以計算 KV 緩存,然后使用該緩存生成輸出的第一個令牌。此階段的計算要求很高,可以有效利用 GPU 龐大的并行計算資源。 在解碼階段,系統會單獨生成輸出 tokens,使用每個新 tokens 更新預填充階段的中間狀態。由于中間狀態計算的繁重計算工作是在預填充階段完成的,因此解碼階段主要涉及僅處理新生成的 tokens。因此,
Source
]]>
12029
人人超碰97caoporen国产