趙一嘉

趙一嘉，NVIDIA 解決方案架構師，目前主要聚焦于大模型在 GPU 的推理部署，對接國內互聯網客戶。

Posts by 趙一嘉

加速計算 2024年 11月 20日

本文將分享 TensorRT-LLM 中低精度量化內容，并從精度和速度角度對比 FP8 與 INT8。首先介紹性能，包括速度和精度。其次， 5 MIN READ