Sharan Chetlur

Sharan Chetlur 是 TRT-LLM 的首席工程師。在過去十年中,他在 NVIDIA 擔任過各種職務,負責深度學習和 HPC (cuDNN 和 cuBLAS) 庫的開發,以及 NVIDIA 提交的 MLPerf 訓練基準測試。他還曾在一家 AI 硬件初創公司任職,負責管理其內核開發者團隊。

Posts by Sharan Chetlur

數據中心/云端

借助 NVIDIA TensorRT-LLM 分塊預填充提高 AI 推理效率和簡化部署

在本 博文 中,我們詳細介紹了分塊預填充,這是 NVIDIA TensorRT-LLM 的一項功能, 1 MIN READ