NVIDIA? ?? ?? ??? ?? ?? ??(LLM) ?? ??? ??????. NVIDIA Blackwell GPU 8?? ??? ?? NVIDIA DGX B200 ??? Llama 4 ??? ? ?? ?? ??? ??? 4?? ???? ??? Llama 4 Maverick ???? ???? ?? 1,000??(TPS)? ?? ??? ??? ? ????. ? ??? AI ???? ???? Artificial Analysis? ?? ????? ???????.
?? ????, NVIDIA Blackwell? Llama 4? ?? ?? ?? ?????? ??? ????? ?? ?????.
???? ?????, ?? ??? ????? ???? ???????. NVIDIA Blackwell? ? ???? ???? 1,000 TPS? ??? ??? ?????, ?? ??? ????? ??? 72,000 TPS? ?????.
NVIDIA? TensorRT-LLM? ??? Blackwell GPU? ??? ????? ?? ????? ???? ????? ?????, EAGLE-3 ??? ??? speculative decoding draft ??? ???????. ??? ???? ???, NVIDIA? ?? Blackwell ?? ?? 4? ?? ??? ??????. B200 ????? ??? ? ???, ? ?? ???? ??? ?? Llama 4 Maverick? ???? ?????? ??? ? ????.
?? ??? ??
??? ??? ???? ?? ???? ?????? ??? ?? ??????. ??? GEMM, Mixture of Experts(MoE), Attention ??? FP8 ??? ??? ??? ?? ??? ???, Blackwell Tensor Core ??? ??? ?? FP8 ???? ??????. FP8 ??? ??? ??? ??? ???? ?? ???? Artificial Analysis? BF16 ??? ???? ??????. ?? ??? ?? ?? ???? ????.
LiveCodeBench | AIME 2024 | GPQA Diamond | MATH-500 | |
AA Reference Llama 4 Maverick (BF16) | 0.397 | 0.39 | 0.671 | 0.889 |
Optimized Llama 4 Maverick (FP8) | 0.383 | 0.40 | 0.686 | 0.876 |
? ?? ??? ????? ?? ?????
???? ??? AI ??????? ???? ?? ?? ??? ??? ?????. ?? ?? ???? ??? ‘??? ??’ ??? ?? ? ??? ?? ?????. ???, ?? ??? ???? ??? ????????? ?? ???? ?? ?? ??? ????? ?? ?? ??? ???. TPS/user ??? ????, Blackwell ????? ?? ???? ??? ?????. ??? ???, ???? ?? ??? ??, ?? ?? ???? ?? ?? ?? ??? ? ?? ???? Blackwell? ?? ??? ??? ?????. ?? ???? ????? ?? ?? ???? ??? ????.
?? ?? ???? ?? ???
??? ?? ???? NVIDIA? ??? ?? ??? ? ?? ??(?? ?? ????? ???)? ?? ?????.
NVIDIA? ??? GEMM ??? ?? ? ?????, Blackwell? ?? ?? ??? ?????? ??? ??? ? ? ??? ??? ?? ??? ??????. ?? ?? FC13 + SwiGLU, FC_QKV + attn_scaling, AllReduce + RMSnorm ?? ??? ?? ?????.

CUDA ?? ??? ? ??
NVIDIA? Blackwell GPU?? ??? ??? ???? ?? GEMM, MoE, Attention ??? ???? CUDA ??? ???????.
- NVIDIA? ?? ??(warp specialization???? ?)? ????, GEMM ??? ????? ???? ????? ??? ? ??? ????, NVIDIA DGX ???? ???? ? 64TB/s? HBM3e ???? ??? ??????.
- ??, Blackwell? 5?? Tensor Core? ??? ?? ? ?? ??, Tensor Memory?? ?? ??? ??? ? ? ?? ??? ????? ??? GEMM weight? swizzled ???? ???????.
- Attention ??? ??? K? V ??? ??? ?? ???? ??? ?????? ???????, ?? ?? ??? ?? CUDA thread block?? ??? ??? ? ?? ????.
- ???, NVIDIA? ?? ?? ???? ??? ??? thread block cluster ??? ??? ????? ??? ? ??? ???, ? ???? ??? ???? ??? ??? ??? ????.
- ?? ?? ?? ????? ??? ??? ??? ??? ?? ?? ? ??(fusion)? ??????. ?? ??, NVIDIA? AllReduce ??? ???? RMSNorm ??? Quantize ??? ??? CUDA ??? ?????, ?? SwiGLU ??? ?? GEMM? ??????.
Programmatic Dependent Launch (PDL)
Programmatic Dependent Launch(PDL)? ??? CUDA ??? ??? ????? ???? ? CUDA ?? ??? GPU ?? ??? ???, ??? ?? ? ??? ??? ?? ? ??? ??? CUDA ?????.
?????, ??? CUDA ????? ??? ??? ?? ? ?? ??? ? ?? ??? ??? ??? ???? ????. ?? ?? ??? ? ?? ??? ?????. ??, ?? ???? ??? ??? ??? ?? ?? ??? ??? ??? ???, ?? GPU? ?? ??? ???. ??, ? ?? ?? ??? ?? ??? ?, ?? CUDA block? ???? ?? ?? Streaming Multiprocessor(SM)? ??? ????? ??? SM? ?? ??? ?? ???. ?? ?? GPU? ?? ??? ??? ???? ??? ??? ????.

CUDA? ????? ?? ?? ?? API? ???? NVIDIA? ?? ??? ?? ?? ?? ? ?? ??? ??? ??? ? ??? ???. ???? ?? ?? ?? ??? ?? ??? ??? ???? ?? ??? ???? ???? ??? ? ????. ??? ? ??? ?? ??? ??? ??? ?? ??? GPU ???? ??????. ? ?? ??? GPU? SM ? ??? ???? ??, ??? SM? ? ?? ??? ???? ??? ? ????.

??? ???
Speculative decoding? ??? ???? ??? ????? LLM? ?? ??? ??? ?? ?? ???? ?????. ? ??? ?? ?? ‘draft’ ??? ??? speculative ?? ????, ? ?? ??? ‘target’ LLM? ??? ???? ??? ?? ??? ??????. ?? ??? ??? target ?? ?? ???? ?? ??? ???? ?????? ?????, ? ??? draft ??? ?? ?? ??? ?????.

? ???? ????, accept? ??? ??? ???? reject? ??? ?? Target ??? ??? ?? ??(t4 ?)? ??? ?, Draft ??? ??? speculative ???(d5~d7)? ?? ?????. ??? ?? Target ??? ??? ??? ???? ??, Draft ??? ?? ??? ???? ?? ??? ??? ???? ?? ?? ??? ?? ?? ? ???, ?? Draft ??? ?? ???? ???? ? ??? ?? ????. Acceptance Length(AL)? ? ?? ?? ??? ?? ? ?? ??? ??? ? ???? ????, AL? ???? ?? ?? ?? ????.
? ???? ????, accept? ??? ??? ???? reject? ??? ?? Target ??? ??? ?? ??(t4 ?)? ??? ?, Draft ??? ??? speculative ???(d5~d7)? ?? ?????. ??? ?? Target ??? ??? ??? ???? ??, Draft ??? ?? ??? ???? ?? ??? ??? ???? ?? ?? ??? ?? ?? ? ???, ?? Draft ??? ?? ???? ???? ? ??? ?? ????. Acceptance Length(AL)? ? ?? ?? ??? ?? ? ?? ??? ??? ? ???? ????, AL? ???? ?? ?? ?? ????.
NVIDIA? speculative decoding? ?? EAGLE3 ?? ????? ???? ???, AL? ??? ?? speculative layer? FFN ??? ??????. ?? ??? Target ??? forward pass ???? ? ??, ??, ??? ??? ??? ??? hidden state? ?? ??? ?, ?? ?? ???? ?? ???? speculative layer? ???? ?????. Speculative layer? ?? ???? draft ?? ???? autoregressive ???? ????, Target ??? ?? ??? ?????.
Speculative layer? ????? ?? ??? ??? ??? ?? ?? ???, draft ??? ?? ?? ?? ??? ??? ? ??? ?? ?????. Draft ??? ??? AL? ?????, Draft ??? ? ?? ???? ??? ?? ??? ????, NVIDIA? ??? ??? draft length? 3?? ???? ? ?? ? ?? ??? ?? ? ?????.

CUDA ???? ??? ????? ?? ??? ???? ??
Speculative decoding?? ? ??? ??? Target ??? Draft ?? ? ?? ? ??? ????? ??? ????. ?? NVIDIA? ??? ? ?? ??? ??? ?? ??, ???? ???? ?? ???? ??? ??? ??? CUDA Graph? ???? ???. ?? ???? ??, ?? ??? ???? ?? ???? Target ??? forward pass, ?? ??, Draft ??? forward pass? ??? CUDA Graph ?? ??????. ??? ?? NVIDIA? TensorRT-LLM ??? ????? ???? ?? ?? ??? ?? ??? ?? ??? ?? ??, CUDA Graph ??? ?? ??? ? ??? ????.
torch.compile()? ??? Draft ?? ??? ???
?? ??? torch native ???? ???? ?? ???? ?? ??? ?? torch native ??? ?????, ?? ???? ???? ?? ???? ?? ?? ???? ???. ?? ???? ?? NVIDIA? torch.compile()? ???? OpenAI Triton? ???? ??? ??? ???? ????? ????. ? ?? ??? draft length? 3? ? Draft ??? ????? ?? 25%?? 18%? ???????.
??
NVIDIA? ???? ????? ? AI ??? ????? ???? ??????. 4?? ?? ????? ?? Llama 4 Maverick ???? ???? ?? 1,000? ??? ??? ???? ???? ??? ??? ????. ? ?? ?? ??? ??? ??? Blackwell ????, CUDA?? ??? ?? ?? ????? ???, ??? NVIDIA? ??? speculative decoding ??? ??? ?? ?? ??? ??????. NVIDIA? ??? ? ??? ??? ??? AI ????? ???? ??? ?? ??? ?????, ??? ????? ??? ??? ??? ??? AI ???? ?? ?????? ???? ??? ???? ??? ??? ? ??? ?????.
?? ???
- GTC ??: Meta? Llama ???: ??? ??? ?? (Meta ??)
- GTC ??: Apache Spark?? Blackwell GPU? ??? ??? ?? ??
- GTC ??: ??? ? ?? ?? ??? ??? ??? ??
- NGC ????: chain-server
- SDK: Llama3 8B Instruct NIM
- SDK: Llama3 70B Instruct NIM