?? ?? ??(LLM)? ?? ? ? ?? ??? ??? ??????. ??? ??? ??? ???? ???? ?? ??? ???? ??? ???? ???? ?? ?????. NVIDIA TensorRT-LLM? ?? ???? ??? ??? ??? ?? ???? ???? LLM ?? ??? ?? ??????.
NVIDIA H200 GPU? ?? TensorRT-LLM ?? ??? Llama 2 70B LLM?? 6.7?? ?? ??? ????, Falcon-180B? ?? ??? ??? ?? GPU?? ??? ? ??? ?????. Llama 2 70B? ???? ?? ?? ??? ??? ??? ???? ?? ???(GQA)??? ??? ????? ?? ????, ?? Llama 2 70B? ?? ??????.
Falcon-180B? ???? ?? ?? ??? ?? ?? ??? ?? ?? ? ???, ???? ?? ???? ?? ?? 8?? NVIDIA A100 Tensor ?? GPU? ?????.
??? INT4 AWQ?? TensorRT-LLM? ???? ?? ?? 5TB/s? ??? ???? 141GB? ?? HBM3e ???? ?? ?? H200 ?? ?? GPU? ??? ? ?? ?????.
? ?????? ? ?? ?? LLM? Llama 2 70B? Falcon-180B? ??? ?? TensorRT-LLM ??? ? ??? ?????.
6.7?? ?? ??? ???? H200? Llama 2 70B
?? ??? TensorRT-LLM? ?? ???? ??? ?? ?? ??(GQA) ??? ???? ??, H200? ???? NVIDIA A100 GPU?? ???? ??? ????? ???? ?? 6.7?? ?? ??? ?????.
Llama 2 70B?? ???? GQA? ?-?(KV) ??? ?? ????? ?? ?? ??(MHA)? ????, ??(Q) ???? ? ?? ?? KV ??? ?????. TensorRT-LLM?? GQA, ?? ?? ??(MQA) ? ?? MHA? ???? ??? MHA ??? ????.
?? ? ???? ???? NVIDIA ?? ??? ???? NVIDIA GPU?? ??? ??? ?????.

H200 Llama 2 70B ?? ?? | ||
?? ??? ?? | ?? ??? ?? | ???(GPU? ??/s) |
128 | 128 | 3,803 |
128 | 2048 | 3,163 |
128 | 4096 | 2,263 |
LLM ??? ??? ?? ??? ?? ? ?? ??? ??? ???? ?? ????, ?? LLM? ???? ?? ??????? ?? ?????. ?? ??? ??? ??? ???? ?? ???? ?????, A100? ?? ?? ??? ?? ?????.
TensorRT-LLM ?????? ?????? H200?? ???? ?? ??? ?? 2.4?? ?? ??? ??????.
Falcon-180B ?? ??
LLM? ????? ???? ??? ??? ? ??? ??? ?????, ??? ??? ????? ???? ?? ? ??? ???? ??? ??? ????. ????? ? ??? ???? ?? ?? ??? ????? ????.
? ? ??? INT4 ??? ?? ??? ???(AWQ)???(Lin et al., 2023). ? ??? ??? ??? ???? ?? LLM? ???? ? 4??? ??? ?? FP16?? ??? ?????.
? ?? ??? ?? AWQ? ?? 4?? ???? ?? ???? ????? ??? ???? ?? ? ????. ?? ???? ????? ??? ??? ??? ? ?? ?? ??? ?????.
?? ??? TensorRT-LLM? AWQ? ?? ??? ??? ?????. ? ??? ? ?? ? ???? ?? Hopper Tensor ?? ??? ???? FP16? ?? NVIDIA Hopper GPU?? FP8 ???? ??? ?????.

?? ?? H200?? FP8? INT4 AWQ? ??? ?????. H200? ?? Falcon-180B ??? ??? ?? ??? ?? ?? 800?? ??? ???? ??? ?? ????? ??? ??? ? ????.
??? ??
???? ?? ?? ???? ???? ? ????. ??? TensorRT-LLM AWQ? ??? ???? ????? ??? ???? ?? 4? ??? ??? ?? ???? ?????.

TensorRT-LLM v0.7a | Falcon-180B | 1xH200 TP1 | INT4 AWQ
TensorRT-LLM v0.7a | Falcon-180B | 1xH200 TP1 | INT4 AWQ
???? ? ?? ???? ??? ?? ???? 95% ??? ????? ? ?? ??? ????, ?? ??? ?? GPU? ???? GPU ??? ???? ??? ?????. ??? ???????? GPU? ????? ???? ??? ???? ???? ??? ? ??? ?? ??? ??? ? ????.
?? ?? ??
??? ?? ??? ? TensorRT-LLM?? ??? ? ???, v0.7 ? v0.8 ???? ??? ?????. TensorRT-LLM?? ?? 2 70B? ???? ??? ??? TensorRT-LLM GitHub ????? ??? ? ????.
??? ??? NVIDIA H200 Tensor ?? GPU ?? ???? ?????.
? ??? ???? TensorRT-LLM GitHub? ?? ???? ??? ????: INT4 AWQ? ?? ?? H200 GPU? Falcon-180B ? A100 ?? 6.7? ?? Llama-70B
?? ???
- GTC ??: ??? ??? ??? ???? ??
- GTC ??: ?? ?? ???? ?? ?? ???, ?? ?? ?? ??(Google Cloud ??)
- GTC ??: NVIDIA Triton ?? ??? ??? ??? ?? ?? ??(CoreWeave?? ??)
- SDK: Torch-TensorRT
- SDK: TensorFlow-TensorRT
- SDK: TensorRT