趙一嘉

趙一嘉,NVIDIA 解決方案架構師,目前主要聚焦于大模型在 GPU 的推理部署,對接國內互聯網客戶。

Posts by 趙一嘉

加速計算

TensorRT-LLM 低精度推理優化:從速度和精度角度的 FP8 vs INT8 的全面解析

本文將分享 TensorRT-LLM 中低精度量化內容,并從精度和速度角度對比 FP8 與 INT8。首先介紹性能,包括速度和精度。其次, 5 MIN READ