2025? 3? 18??? NVIDIA Triton Inference Server? ?? NVIDIA Dynamo? ??? ???????.
AI ?? ??????? ???? ???, ??? ?? ??? ?? ??? ? ?? ???? ??? ??? ???? ?? ???? AI ??? ???? ?? ?? ??? ?? ????.
NVIDIA? ?, ???, ?????? ??? ??? ??? ?? ????? AI ???? ????? ???? ??? ??? ??? ? ??? ???? ????, ??? AI ??? ? ?? ??? ? ???, ?????, ?? ???????.
???? ?? ?? ??? ?? ??? ??? ?????.
6? ?, NVIDIA? ????? ?? ?? ??? ??? ???? ??????? ???? ???? ?? ??? ??? AI ?? ??? ??? ??????. ?? ?? ????? ???? ??? ?? ??? ?????, ?? ??? ???? ?? ??? ??? ?? ??? ???? ? ???? ?? ?? ???, ?????? ??? ???? ?????.
?? ???? ?? NVIDIA? ?? AI ?????? ??? ???? ? ?? ?? ?? ???? NVIDIA Triton Inference Server? ??????. Triton? ?????? ?? ??? ?????? AI ?? ??? ????? AI ?? ??? ?????, ??? ?? ?? ??? Triton? ?? ?? ?? ???? ???? ???? AI ??? ????? ???? ? ???? NVIDIA? ?? ?? ??? ?? ?? ???? ? ??? ?????.
Triton ??? NVIDIA? ??? AI ?? ??? ???? ???? ????. ???? ??? ??? ??? ??? ???? ?? NVIDIA TensorRT? ??? ???? ???? ?? API? ?? ??? ??? ?? ?????? ?????. ?? NVIDIA NIM ???????? ????, ??? ?? ?? ?????? ??? ?? AI ??? ??? ? ?? ??? ?????? ?????.
AI ?? ????? ?? ???
?? ??? ???(Full-stack) ???, ??? ???? ? ???? ????? ??? ? ?? ?????? ?? ?????. ?? ?? ??? ?? ??? ?? ??? ?? ??? ?? ?????, ??? AI ???? ???? ??? ?? ???? ?? ?? ????? ?? ? ????? ????. ??? ??, ?? ?? ????(inference time scaling)??? ?? ?? ??? ?? ??? ????? ????, ?? ??? ????? ?? ?? ???? ? ?? ???? ???? ????.
??? ???? ??? ???? ?????? ???? ?? ??? ????? ????? ?? ???? ??????, ?? ???, ?? ??? ??, ???(pruning), ???(quantization), ??? ??? ???? ?? ??? ??? ??? ?? ??? ????, ????? ??, ???, ?? ??? ???? ??? ??? ??? ? ????.
TensorRT-LLM ?????? ?? ?? ??(LLM)? ?? ??? ????? ??? ??? ?? ???? ???, ? ?? ???? ??? ????.
??? ? KV ?? ???
- Key-value (KV) ?? ?? ???: ??? ? ??? ????? ???????, KV ?? ?? ??? ??? ? ?? ?? ?? ??(TTFT)? ?? 5??? ??????. ??? KV ?? ?? ??? ???? ?? ????? ?? ??? ??? ??? ????, ?? ??? ????? ? ?? ?? ??? ???? ???.
- ?? ???(Chunked prefill): ???? ??? ?? ??? ??? ?? ???? ???? GPU ???? ??? ?? ??? ????. ? ??? ??? ????? ??? ?? ???? ??? ??? ?????.
- ??? ????? ?? ??: NVIDIA GH200 ??? ????? ???? KV ?? ????? ???? ??, Llama ???? ??? ?????? TTFT? ?? 2??? ?????? ?? ???? ?????.
??? ???
- ? ???? ?? ???? ???: ? ?? ???? ??? ???? ??, TensorRT-LLM? ???? ???? ??? ???? ??????(SMs)? ???? GPU ???? ??????. ? ??? ???? ???? ?? ?? ? ? ???? ??? ??? ? ??? ??? ???? 3? ?? ??????.
- ??? ???? ?? ??????? ???(Speculative Decoding): ?? ???? ??? ?? ?? ??? ?? ???? ??????? ???? ?? ???? ?? 3.6??? ??????. ? ???? ??? AI ??????? ?? ????? ??????? ?? ??? ??·???? ??? ?????.
- Medusa ?? ??????? ???: Medusa ??????? ??? ????? TensorRT-LLM ???? ??? ?????. ?? ?? ??? ??? ??????, NVIDIA HGX H200 ????? Llama 3.1 ??? ???? ?? 1.9??? ??????. ? ??? ?? ?? ? ??? ??? ?? LLM ?? ??????? ?? ??? ?????.
?? GPU ??
- ???(MultiShot) ?? ????: ?? GPU ?????? ??? ? ????(Ring AllReduce) ??? ?? ??? ? ? ????. NVSwitch? ???? TensorRT-LLM ???? GPU ?? ???? ?? ??? ? 2??? ?????. ? ??? ???? ??? ?? 3??? ???? ??? ??? ???? ???? ??? ?????.
- ??? ???? ?? ????? ???: ??? ??? GPU ? ???? ???? ??? ??? ???? ??, ?? ??? ?? ??? GPU ? ?? ?? ??? ?????. NVIDIA H200 Tensor Core GPU? ????? ???? Llama 3.1 405B?? 1.5?? ??? ??? ?????, MLPerf Inference ?????? Llama 2 70B? ?? 1.2?? ?? ??? ?? ?????? ??????. MLPerf Inference? MLCommons ?????? ??? ?? ?? ?? ?? ???? ?????.
- ??? NVLink ???: NVLink ??? ????? ??? 32?? NVIDIA GH200 Grace Hopper ????? ??? NVIDIA GH200 NVL32 ???? TensorRT-LLM ?? ??? ??? Llama ??? TTFT? ?? 3? ?????. ?? 127?????? AI ??? ??? ???? ? ??? ????? AI ??????? ??? ????? ?? ?? ??? ?????.
??? ? ??? ???
- ???? ??? ?? NVIDIA TensorRT Model Optimizer: NVIDIA TensorRT Model Optimizer? ??? ?? FP8 ??? ???? ??? ?? ?? ???? ?? 1.44??? ??????. ??? ???? ???? ????? ?? ?? ??? ???? ?? ??? ?? ?? ???? ??? ???? ???.
- ????? ??? ???: NVIDIA TensorRT ?????? FP8 Tensor Core ?? ??? ????? GPU?? ?? ???? ????? ??? ???? ???? ?????. NVIDIA? Llama 3.2 ???? ??? ??? ?? ??????, ?? ??? ?????? ??? AI ?? ???? ???? ???? ??? ? ??? ?????.
?? ?? ??
??? ??? ?? ??? ????? ?, ???, ?????? ??? ??? ?? ??? ????, ??? ?? ??? ??, ??? ??? ?? ??, ?? ???? ???? ????,
MLPerf Inference? ?? ??? ???? ?? ?? ? ?????. ? ????? ???? ???? ?? ???? ????, ??? ???? ?? ??? ?????, AI ??? ?? ??? ???? ?? ????? ?????? ??? ??? ?? ??? ??? ? ?? ??? ?????.
?? MLPerf Inference v4.1?? NVIDIA Blackwell? ???? ????, Llama 2 70B ?????? NVIDIA H100 Tensor Core GPU ?? ?? 4? ?? ??? ??????. ? ??? 2?? Transformer Engine(FP4 Tensor Core ??), GPU? 8TB/s? ??? ???? ???? ??? HBM3e GPU ???? ??? Blackwell GPU? ??? ???? ?? ???????.
?? NVIDIA TensorRT-LLM? ??? NVIDIA ????? ??? ?? ??? FP4 ??? ??? ?? Blackwell? ???? ????? ???????, ??? ????? ??? ??? ??? ?? ???????.
?? ?? ??? ? ???? ??? ????? ?? ?? ?? NVIDIA H200 Tensor Core GPU? ????? ??? ?? ?????? ??? ??? ??????. ?? ?? ??? Mixtral 8x7B MoE(Mixture-of-Experts) LLM?? Llama 2 70B LLM, Stable Diffusion XL ???-??? ?? ????? ?????. ???? ????? ???? Hopper ????? ?? ?? ?? 27% ??? ?? ??? ??????.
8?? H200 GPU? ??? ????? ??? NVIDIA Triton Inference Server? MLPerf Inference v4.1? Llama 2 70B ?????? NVIDIA ???? ???? ?? ??? ??? ??????. ?? ??? ??? ??? ???? ?? AI ?? ??? ?? ??? ?? ???? ? ?? ??? ??? ???, NVIDIA Triton?? ?? ??? ??? ??? ? ??? ?????.
AI ??? ??: ??? ???? ??
AI ?? ??? ???? ??? ???? ??? ???? ????. ?? ????? ??? ??? ?? ???? ? ? ??? ?? ??? ?????? ?? ??? ?? ???? ????. GPT-MoE 1.8T? ????? ??? ?? ??((Sparse Mixture-of-Experts)) ????? ??? ??? ???? ????? ?? ??? ????? ? ???? ????, ??? ??? ??(???/??? ??)? ?? GPU? ??? ?? ? ???? ? ??? ????, ?? ?? NVIDIA Blackwell ????? ??? ??? AI ??? ???? ? ????.
? Blackwell GPU??2?? Transformer ????FP4? ??? 5?? Tensor Core? ??????. ???? ??? ??? ???? ????? ??? ???? ??? ? ?????, ??? ??? ?? ???? ?????? ??? ?? ??? ????? ??? ??? ????? ???? ?????.
??? ?? ???? ??? ??? ??? ??? ??????, ??? ??? GPU? ??? ??? ???? ???.
NVIDIA GB200 NVL72 ? ??? ???? 72?? GPU? NVLink ????? ??? ??? ??? GPU?? ?????. GPT-MoE 1.8T ??? ???? ?? ?? Hopper GPU ?? ?? 30?? ??? ??? ?????.
?? **??? ?? ???(test-time compute)**??? ??? ???? ??? ??? ? ??? ????? ?? ??? ???? ??? ? ?? ???? ??? ?????. OpenAI o1 ???? ?? ??? ? ??? ????? ??? ?? ??? ???? ?? ??? ?? ??? ?????? “??”? ? ?? ???. ??? ?? ??? ??? ?? ?? ???? ??? ?? ??? ?? ???? ?? ?????. ? ??? ?? ??? ? ?? ??? ??? ???? ??? ?? ??? ??? ?? ????.
?? ?? ??(AGI)??? ?? ????? ??? ??? ???? ??? ??????. ?? ??, ?? ??, ??? ?? ???? ?? ??? ???? ???? ??? ?????? ?????. NVIDIA ???? AI ???? ???? ??? ??? ?? ? ??? 1? ??? ?? ?? ??? ???? ????.
?? ?? ?????
AI ?? ?? ??? ????, NVIDIA AI ?? ???? ?? ? ????, ?? AI ?? ?? ????? ??? ???.
NVIDIA NIM ???????? ??? ???? ??? ?? ??? ?????, ‘NVIDIA NIM?? ??? AI ????: ?? ???’? ?????. TensorRT, TensorRT-LLM, TensorRT Model Optimizer ?????? ??? ???? NVIDIA NIM ???????? ??? ???? ??? ?? ???? ???? ?????.
?? ???
- GTC session:?Accelerate Inference on NVIDIA GPUs
- GTC session:?Fast Inference at Scale: Build SLA-Focused AI Stacks for Enterprise-Grade Scale (Presented by Simplismart)
- GTC session:?Supercharge Enterprise AI Inference Using Amazon Bedrock and SageMaker AI (Presented by Amazon Web Services)
- SDK:?TAO Toolkit
- SDK:?NeMo Framework
- Webinar:?Choosing Hardware Systems for AI in the Enterprise