Thor Johnsen

Thor Johnsen 于 2018 年加入 NVIDIA 深度學習框架團隊,致力于各種 TensorFlow 和 PyTorch 項目、視覺和語言模型以及 mlperf 訓練。他的最新工作是 TRT-LLM,重點是 KV 緩存優化。在加入 NVIDIA 之前,他致力于能源行業的科學計算應用程序。

Posts by Thor Johnsen

AI 平臺/部署

NVIDIA TensorRT-LLM KV 緩存早期重用實現首個令牌速度 5 倍提升

在上一篇 博客文章 中,我們展示了通過將鍵值 (KV) 緩存卸載到 CPU 內存來重復使用該緩存如何在基于 x86 的 NVIDIA… 2 MIN READ