Blackwell, Meta? Llama 4 Maverick? ??? ???? 1,000 TPS ?? ??

Reading Time: 6 minutes

NVIDIA? ?? ?? ??? ?? ?? ??(LLM) ?? ??? ??????. NVIDIA Blackwell GPU 8?? ??? ?? NVIDIA DGX B200 ??? Llama 4 ??? ? ?? ?? ??? ??? 4?? ???? ??? Llama 4 Maverick ???? ???? ?? 1,000??(TPS)? ?? ??? ??? ? ????. ? ??? AI ???? ???? Artificial Analysis? ?? ????? ???????.

?? ????, NVIDIA Blackwell? Llama 4? ?? ?? ?? ?????? ??? ????? ?? ?????.
???? ?????, ?? ??? ????? ???? ???????. NVIDIA Blackwell? ? ???? ???? 1,000 TPS? ??? ??? ?????, ?? ??? ????? ??? 72,000 TPS? ?????.

NVIDIA? TensorRT-LLM? ??? Blackwell GPU? ??? ????? ?? ????? ???? ????? ?????, EAGLE-3 ??? ??? speculative decoding draft ??? ???????. ??? ???? ???, NVIDIA? ?? Blackwell ?? ?? 4? ?? ??? ??????. B200 ????? ??? ? ???, ? ?? ???? ??? ?? Llama 4 Maverick? ???? ?????? ??? ? ????.

?? ??? ??

??? ??? ???? ?? ???? ?????? ??? ?? ??????. ??? GEMM, Mixture of Experts(MoE), Attention ??? FP8 ??? ??? ??? ?? ??? ???, Blackwell Tensor Core ??? ??? ?? FP8 ???? ??????. FP8 ??? ??? ??? ??? ???? ?? ???? Artificial Analysis? BF16 ??? ???? ??????. ?? ??? ?? ?? ???? ????.

	LiveCodeBench	AIME 2024	GPQA Diamond	MATH-500
AA Reference Llama 4 Maverick (BF16)	0.397	0.39	0.671	0.889
Optimized Llama 4 Maverick (FP8)	0.383	0.40	0.686	0.876

? 1. Llama 4 Maverick? ?? ??? ??: ?? ?? ? ??? ??

? ?? ??? ????? ?? ?????

???? ??? AI ??????? ???? ?? ?? ??? ??? ?????. ?? ?? ???? ??? ‘??? ??’ ??? ?? ? ??? ?? ?????. ???, ?? ??? ???? ??? ????????? ?? ???? ?? ?? ??? ????? ?? ?? ??? ???. TPS/user ??? ????, Blackwell ????? ?? ???? ??? ?????. ??? ???, ???? ?? ??? ??, ?? ?? ???? ?? ?? ?? ??? ? ?? ???? Blackwell? ?? ??? ??? ?????. ?? ???? ????? ?? ?? ???? ??? ????.

?? ?? ???? ?? ???

??? ?? ???? NVIDIA? ??? ?? ??? ? ?? ??(?? ?? ????? ???)? ?? ?????.
NVIDIA? ??? GEMM ??? ?? ? ?????, Blackwell? ?? ?? ??? ?????? ??? ??? ? ? ??? ??? ?? ??? ??????. ?? ?? FC13 + SwiGLU, FC_QKV + attn_scaling, AllReduce + RMSnorm ?? ??? ?? ?????.

*?? 1. Llama 4 Maverick? ??? ?? ??? ? ?? ?? ??*

CUDA ?? ??? ? ??

NVIDIA? Blackwell GPU?? ??? ??? ???? ?? GEMM, MoE, Attention ??? ???? CUDA ??? ???????.

NVIDIA? ?? ??(warp specialization???? ?)? ????, GEMM ??? ????? ???? ????? ??? ? ??? ????, NVIDIA DGX ???? ???? ? 64TB/s? HBM3e ???? ??? ??????.
??, Blackwell? 5?? Tensor Core? ??? ?? ? ?? ??, Tensor Memory?? ?? ??? ??? ? ? ?? ??? ????? ??? GEMM weight? swizzled ???? ???????.
Attention ??? ??? K? V ??? ??? ?? ???? ??? ?????? ???????, ?? ?? ??? ?? CUDA thread block?? ??? ??? ? ?? ????.
???, NVIDIA? ?? ?? ???? ??? ??? thread block cluster ??? ??? ????? ??? ? ??? ???, ? ???? ??? ???? ??? ??? ??? ????.
?? ?? ?? ????? ??? ??? ??? ??? ?? ?? ? ??(fusion)? ??????. ?? ??, NVIDIA? AllReduce ??? ???? RMSNorm ??? Quantize ??? ??? CUDA ??? ?????, ?? SwiGLU ??? ?? GEMM? ??????.

Programmatic Dependent Launch (PDL)

Programmatic Dependent Launch(PDL)? ??? CUDA ??? ??? ????? ???? ? CUDA ?? ??? GPU ?? ??? ???, ??? ?? ? ??? ??? ?? ? ??? ??? CUDA ?????.

?????, ??? CUDA ????? ??? ??? ?? ? ?? ??? ? ?? ??? ??? ??? ???? ????. ?? ?? ??? ? ?? ??? ?????. ??, ?? ???? ??? ??? ??? ?? ?? ??? ??? ??? ???, ?? GPU? ?? ??? ???. ??, ? ?? ?? ??? ?? ??? ?, ?? CUDA block? ???? ?? ?? Streaming Multiprocessor(SM)? ??? ????? ??? SM? ?? ??? ?? ???. ?? ?? GPU? ?? ??? ??? ???? ??? ??? ????.

CUDA? ????? ?? ?? ?? API? ???? NVIDIA? ?? ??? ?? ?? ?? ? ?? ??? ??? ??? ? ??? ???. ???? ?? ?? ?? ??? ?? ??? ??? ???? ?? ??? ???? ???? ??? ? ????. ??? ? ??? ?? ??? ??? ??? ?? ??? GPU ???? ??????. ? ?? ??? GPU? SM ? ??? ???? ??, ??? SM? ? ?? ??? ???? ??? ? ????.

??? ???

Speculative decoding? ??? ???? ??? ????? LLM? ?? ??? ??? ?? ?? ???? ?????. ? ??? ?? ?? ‘draft’ ??? ??? speculative ?? ????, ? ?? ??? ‘target’ LLM? ??? ???? ??? ?? ??? ??????. ?? ??? ??? target ?? ?? ???? ?? ??? ???? ?????? ?????, ? ??? draft ??? ?? ?? ??? ?????.

*?? 4. Speculative decoding? ?? ?? draft ??? ??? ?????? ? ?? ?? ??? ???? ???.*

? ???? ????, accept? ??? ??? ???? reject? ??? ?? Target ??? ??? ?? ??(t4 ?)? ??? ?, Draft ??? ??? speculative ???(d5~d7)? ?? ?????. ??? ?? Target ??? ??? ??? ???? ??, Draft ??? ?? ??? ???? ?? ??? ??? ???? ?? ?? ??? ?? ?? ? ???, ?? Draft ??? ?? ???? ???? ? ??? ?? ????. Acceptance Length(AL)? ? ?? ?? ??? ?? ? ?? ??? ??? ? ???? ????, AL? ???? ?? ?? ?? ????.

NVIDIA? speculative decoding? ?? EAGLE3 ?? ????? ???? ???, AL? ??? ?? speculative layer? FFN ??? ??????. ?? ??? Target ??? forward pass ???? ? ??, ??, ??? ??? ??? ??? hidden state? ?? ??? ?, ?? ?? ???? ?? ???? speculative layer? ???? ?????. Speculative layer? ?? ???? draft ?? ???? autoregressive ???? ????, Target ??? ?? ??? ?????.

Speculative layer? ????? ?? ??? ??? ??? ?? ?? ???, draft ??? ?? ?? ?? ??? ??? ? ??? ?? ?????. Draft ??? ??? AL? ?????, Draft ??? ? ?? ???? ??? ?? ??? ????, NVIDIA? ??? ??? draft length? 3?? ???? ? ?? ? ?? ??? ?? ? ?????.

*?? 5. ???? ?? 3? ?? ?? ?? ??? AL ????? ?? ??? ?? ??? ?????.*

CUDA ???? ??? ????? ?? ??? ???? ??

Speculative decoding?? ? ??? ??? Target ??? Draft ?? ? ?? ? ??? ????? ??? ????. ?? NVIDIA? ??? ? ?? ??? ??? ?? ??, ???? ???? ?? ???? ??? ??? ??? CUDA Graph? ???? ???. ?? ???? ??, ?? ??? ???? ?? ???? Target ??? forward pass, ?? ??, Draft ??? forward pass? ??? CUDA Graph ?? ??????. ??? ?? NVIDIA? TensorRT-LLM ??? ????? ???? ?? ?? ??? ?? ??? ?? ??? ?? ??, CUDA Graph ??? ?? ??? ? ??? ????.

torch.compile()? ??? Draft ?? ??? ???

?? ??? torch native ???? ???? ?? ???? ?? ??? ?? torch native ??? ?????, ?? ???? ???? ?? ???? ?? ?? ???? ???. ?? ???? ?? NVIDIA? torch.compile()? ???? OpenAI Triton? ???? ??? ??? ???? ????? ????. ? ?? ??? draft length? 3? ? Draft ??? ????? ?? 25%?? 18%? ???????.

??

NVIDIA? ???? ????? ? AI ??? ????? ???? ??????. 4?? ?? ????? ?? Llama 4 Maverick ???? ???? ?? 1,000? ??? ??? ???? ???? ??? ??? ????. ? ?? ?? ??? ??? ??? Blackwell ????, CUDA?? ??? ?? ?? ????? ???, ??? NVIDIA? ??? speculative decoding ??? ??? ?? ?? ??? ??????. NVIDIA? ??? ? ??? ??? ??? AI ????? ???? ??? ?? ??? ?????, ??? ????? ??? ??? ??? ??? AI ???? ?? ?????? ???? ??? ???? ??? ??? ? ??? ?????.