??? ?? ??(LLM)? ???? ??? ??? AI? ??? ??? ????. ??? ? ??? ??? ?? ???? ?? ???? ???? ???? ??? ? ????.
??? NVIDIA? ??? ?? ?? ??? ????? ????? ?? ??(Meta), ?????(Anyscale), ???(Cohere), ??(Deci), ????(Grammarly), ???? AI(Mistral AI), ?? ??????(Databricks)? ??? ????ML(MosaicML), ??ML(OctoML), ???(Tabnine), ??? AI(Together AI), ??(Uber) ? ?? ???? ??? ?????.
??? ??? ? ? ?? ?? ??? ?? ?? ?????? NVIDIA?TensorRT-LLM? ?????,????(Ampere),??????(Lovelace)? ??(Hopper) GPU?? ??? ? ????.?TensorRT-LLM? TensorRT?? ?? ????? ???? ???? ??,????? ??? ??,????GPU/?? ?? ?? ?????? ??? NVIDIA?GPU?? ???? ??? ?????.??? ?? ?????C++??? NVIDIA ??(CUDA)? ?? ???? ?? ?? ??? ??? ??? ?? ??? ?? ??? ???? ??? ??? ?? ??? ???? ? ????.
TensorRT-LLM? ??? ?? ??? ???? ?? ?? ?? ??? ????API(Python API)? ?? ?? ???? ???? ????,??? ??? ???? ? ????.?????API? ??? ????? ?? ??? ??,????,???? ? ????.?
?? ??,?????ML? TensorRT-LLM??? ??? ?? ??? ???? ???? ?? ???? ??????.???????? ????? ?? ???? ?? ??(Naveen Rao)??“TensorRT-LLM? ??? ????,??? ????,?????? ??(In-flight Batching),????? ???(Paged-attention),???? ? ??? ??? ??? ??? ?????.?? ???? NVIDIA?GPU? ??? ??? ?? ?? ???? ?? ??? ??? ????,????? ?? ?? ??? ????”? ?????.
?? ??
?? ??? LLM? ??? ?? ?? ? ??? ?????. ?? ????? ?? NVIDIA Hopper ?????? TensorRT-LLM? ??? ?? ??? ?????.
?? ??? ?? ??? ???? ? ? ??? ??? ??? CNN/Daily Mail? ?? NVIDIA A100 ? NVIDIA H100? ??? ?? ??? ?? ????.
?? 1?? H100? ???? A100?? 4? ????. ?? ?? ?? ? TensorRT-LLM? ??? ???? ? 8?? ???? ??? ???? ?????.

??? ??, ?? I/O ??, CNN/DailyMail ??? ?? | A100 FP16 PyTorch ?? ?? | H100 FP8 | H100 FP8, ?? ??, TensorRT-LLM
Meta?? ?? ??? ?? ?? ???? ??? AI? ????? ???? ?? ???? Llama 2?? TensorRT-LLM? A100 GPU? ?? ?? ??? 4.6??? ???? ? ????.

??? ??, ?? I/O ??, CNN/DailyMail ??? ?? | A100 FP16 PyTorch ?? ?? | H100 FP8 | H100 FP8, ?? ? ??, TensorRT-LLM
?????? ??? ??? ??
?????? ?????(TCO)? ??? ??? ????? ???AI? ???? ??? ?? ?????.??? ?? ????? ????? ???? ??? ?? ??? ?? ?? ?????.?????AI???? ??? ??? ??? ?? ??? ???? ??????? ? ?? ??? ?? ??? ????? ???? ???.?
?? ?????GPU???,??? ?? ??(???GPU???? ?????CPU???),????? ??(???,????,?????),????? ??? ?????.??? ???? ??????IT??? ??? ?????,??? ????,?????? ???,???? ?? ????.???????? ???? ?? ??? ????? ??? ?,???? ?? ???? ??? ???? ?? ??? ???? ??? ??,??? ??? ??? ? ??.?
?? ????GPT-J 6B? ?? ?? ?? ?????8?? ?? ?? ?????A100??? ?? ???????5.3?,??? ?????5.6? ???? ?? ????.

????? ??2? ?? ?? ??? ?? ??????700? ?? ????? ?????? ????A100??? ???4.6?? ?? ?? ??? ????.???? ???????3?,??? ?????3.2? ??? ? ??.

?? ??? ????? ??? ????? ??? ??? ??? ???? ???,??? ??? ?? ??? ?? ??? ? ????.?TensorRT,?TensorRT-LLM,????(Triton)??? ??,???(NeMo)??????? ?? NVIDIA? ??? ???? ?? ??? ?? ??? ??????.???? ??,??? ??? ?? ??? ? ?? ??? ???? ??? ??AI???? ?? ???? ??? ???? ???.
??? ?? ?? ?????? ??? ??
??? ?? ?? ?????? ??? ??? ?? ????? ???? ??? ???? ????.???? ??? ??? ??? ?? ??? ?????. 700? ?? ????? ??? ??? ??2? ?? ?? ?? ??? ?? ??? ????? ??? ???? ?? ?? ???GPU? ?? ?????.????? ??? ?? ?? ???? ??? ??? ?? ?? ?????AI???? ?? ???? ???? ???? ??? ???GPU?? ??? ???? ????.
??? TensorRT-LLM? ?? ??? ??? ?? ?????? ???? ?? ?? ??? ??? Tensor ?? ??(Tensor Parallelism)? ????. ?? ?? ???? ???? ?? ?? ??? ? ??? NV??(NVLink)? ?? ??? ?? GPU? ???? ??? ??? ??? ??? ????? ??? ? ?? ??.
??? ??? ?? ????? ???? ?? ???? TensorRT-LLM?? ?? ??? ???? ?? NVIDIA AI ??? ??? ??? ?????. ???? ?? ???? ????? GPT ?? ??? ?? ??? ?? ??????(FlashAttention)? ??? ??? ???? ???? ??? ?? ????.
?? TensorRT-LLM?? ??? ???? ???? ?? ???? ?? ??? ?? ??? ????? ?? ?? ??? ??? ??? ??. ???? ??? ?? 2, ??AI(OpenAI)? GPT-2 ? GPT-3, ??(Falcon), ???? MPT(Mosaic MPT), ??(BLOOM) ? 12??? ????, ?? ??? ??? TensorRT-LLM ???API? ??? ? ??.
??? ??? ?? ???? ??? ?? ??? ?? ??? ???? ??? ??? ?? ??? ? ??? ???? ?? ? ??.
????? ??(In-flight Batching)
??? ??? ?? ??? ???? ?? ????. ??? ??? ?? ?? ??? ??? ??? ??? ?? ??? ??? ??? ? ??. ??? ??? ?????? ?? ?? ?? ? ?? ??? ????? ????? ?? ????, ??? ??? ? ?? ????.
??? ????? ?? ??? ???? ?? ???? ??? ??? ?? ???? ??? ????? ???? ?? ??? ? ???, ?? ?? ?? ??? ?? ???? ?? ?? ??? ? ??.
??? ?? ??? ???? ??, TensorRT-LLM?? ????? ????? ???? ???? ??? ????. ?? ??? ?? ??? ?? ??? ?? ????? ???? ?? ?? ?? ???? ???? ? ??? ?? ????.
????? ??? ???? ?? ??? ??? ??? ????? ?? ?? ??? ???? ??, TensorRT-LLM ???? ??? ???? ???? ?? ????. ?? ?? ?? ??? ?? ?? ?? ?? ? ??? ????. ????? ??? ???? ?? ?? ???? ?? GPU ???? ???? H100 Tensor ?? GPU? ?? ??? ?? ?? ?? ?????? ???? ?? ? ? ?? ???? ?????? ????? ??? ??? ????.
FP8? ??? H100 ????? ??
??? ?? ???? ??? ?? ?? ???? ???? ????, ????? ? ?? 16??? ???? ???? 16?? ?? ???(FP16 ?? BF16) ??? ???? ????. ??? ?? ??? ?? ??? ??? ??? ???? ??? 8?? ?? 4?? ??(INT8 ?? INT4)? ?? ? ?? ???? ????? ??? ? ??.
???? ???? ????? ??? ???? ???? ???? ??? ??????. ???? ??? ? ????? ? ???? ??? GPU ????? ???? ??? ????. ??? ??? ????? ? ? ??? ??? ?????? ?? ? ??? ??? ???? ??? ?????.
TensorRT-LLM? ??? NVIDIA H100 GPU(H100 GPU)? ???? ?? ???? ??? FP8 ???? ?? ????, ???? FP8 ??? ???? ????? ??? ???? ? ??. ?? ?? ????? ??(Hopper Transformer Engine) ??? ?? ????, ??? ?? ??? ??? ??? ??.
H100? ??? FP8 ??? ??? ?? ???? ??? ????? ?? ???? ????? ???? ??? ??? ????? ????. FP8 ???? INT8 ?? INT4? ?? ?? ??? ??? ?? ?? ???? ?????? ?? ?? ??? ???? ?? ??? ??? ????.
??
??? ?? ??? ??? ???? ??. ??? ?? ????? ?? ???? ??? ?????? ??? ???? ??. ????? ? ? ??? ??? ??? ?? ??? ??? ??? ?? ???? ??? ?? ?? ??? ????.
??? ?? ?? ??? ??? ??? ???? ??. ??? ??? ?? ??? ???? ??? ?????? ????. ?? ??? ? ?? ?? ??? ???? ? ? ?? ??? ???? ????.
?? ?? ??? ?? ?, ??? ??? ?? ??? ??? ??? ??? ???? ???? ???? ? ??? ??? ??. ???? ???? ????? ??? ?? ??. ???? ?? ??, ?? ? ?? ?????, ?? ???? ??? ?? ?? ?? ??? ???? ??. ?? ??? ?? ?? ?? ???? ??? ? ?? ??? ???? ????.
TensorRT-LLM? ???? ???? ??? ?? ??? ?? ??? ??, ???, ???? ?? ??? ?? ?? ??? API? TensorRT? ? ?? ????, ???? ??, ??, ?? ??, ?? GPU/?? ?? ???? ????.
TensorRT-LLM ?? ????
NVIDIA TensorRT-LLM? ?? ?? ??? ???? ????. ??? ??, ???, ?? ???, ?? ?? ?? ??????? AI ????? ???? NVIDIA AI ??????(AI Enterprise)? ??? NVIDIA ?? ?????? ??? ????. ???? ???? NGC? ?? ????? ?? ???(GitHub)? ?? ?????? ?? TensorRT-LLM? ???? ? ??.
?? ??? ???? ??????NVIDIA ??? ????(Developer Program)? ??? ??? ??.??? ??? ??? ??? ????? ??.????(Gmail),???(Yahoo),???(QQ)??? ?? ?? ??? ??? ???? ????? ??? ?? ? ??.