• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • Data Center / Cloud

    Blackwell, Meta? Llama 4 Maverick? ??? ???? 1,000 TPS ?? ??

    Reading Time: 6 minutes

    NVIDIA? ?? ?? ??? ?? ?? ??(LLM) ?? ??? ??????. NVIDIA Blackwell GPU 8?? ??? ?? NVIDIA DGX B200 ??? Llama 4 ??? ? ?? ?? ??? ??? 4?? ???? ??? Llama 4 Maverick ???? ???? ?? 1,000??(TPS)? ?? ??? ??? ? ????. ? ??? AI ???? ???? Artificial Analysis? ?? ????? ???????.

    ?? ????, NVIDIA Blackwell? Llama 4? ?? ?? ?? ?????? ??? ????? ?? ?????.
    ???? ?????, ?? ??? ????? ???? ???????. NVIDIA Blackwell? ? ???? ???? 1,000 TPS? ??? ??? ?????, ?? ??? ????? ??? 72,000 TPS? ?????.

    NVIDIA? TensorRT-LLM? ??? Blackwell GPU? ??? ????? ?? ????? ???? ????? ?????, EAGLE-3 ??? ??? speculative decoding draft ??? ???????. ??? ???? ???, NVIDIA? ?? Blackwell ?? ?? 4? ?? ??? ??????. B200 ????? ??? ? ???, ? ?? ???? ??? ?? Llama 4 Maverick? ???? ?????? ??? ? ????.

    ?? ??? ??

    ??? ??? ???? ?? ???? ?????? ??? ?? ??????. ??? GEMM, Mixture of Experts(MoE), Attention ??? FP8 ??? ??? ??? ?? ??? ???, Blackwell Tensor Core ??? ??? ?? FP8 ???? ??????. FP8 ??? ??? ??? ??? ???? ?? ???? Artificial Analysis? BF16 ??? ???? ??????. ?? ??? ?? ?? ???? ????.

    LiveCodeBenchAIME 2024GPQA DiamondMATH-500
    AA Reference 
    Llama 4 Maverick (BF16)
    0.3970.390.6710.889
    Optimized
    Llama 4 Maverick (FP8)
    0.3830.400.6860.876
    ? 1. Llama 4 Maverick? ?? ??? ??: ?? ?? ? ??? ??

    ? ?? ??? ????? ?? ?????

    ???? ??? AI ??????? ???? ?? ?? ??? ??? ?????. ?? ?? ???? ??? ‘??? ??’ ??? ?? ? ??? ?? ?????. ???, ?? ??? ???? ??? ????????? ?? ???? ?? ?? ??? ????? ?? ?? ??? ???. TPS/user ??? ????, Blackwell ????? ?? ???? ??? ?????. ??? ???, ???? ?? ??? ??, ?? ?? ???? ?? ?? ?? ??? ? ?? ???? Blackwell? ?? ??? ??? ?????. ?? ???? ????? ?? ?? ???? ??? ????.

    ?? ?? ???? ?? ???

    ??? ?? ???? NVIDIA? ??? ?? ??? ? ?? ??(?? ?? ????? ???)? ?? ?????.
    NVIDIA? ??? GEMM ??? ?? ? ?????, Blackwell? ?? ?? ??? ?????? ??? ??? ? ? ??? ??? ?? ??? ??????. ?? ?? FC13 + SwiGLU, FC_QKV + attn_scaling, AllReduce + RMSnorm ?? ??? ?? ?????.

    ?? 1. Llama 4 Maverick? ??? ?? ??? ? ?? ?? ??

    CUDA ?? ??? ? ??

    NVIDIA? Blackwell GPU?? ??? ??? ???? ?? GEMM, MoE, Attention ??? ???? CUDA ??? ???????.

    • NVIDIA? ?? ??(warp specialization???? ?)? ????, GEMM ??? ????? ???? ????? ??? ? ??? ????, NVIDIA DGX ???? ???? ? 64TB/s? HBM3e ???? ??? ??????.
    • ??, Blackwell? 5?? Tensor Core? ??? ?? ? ?? ??, Tensor Memory?? ?? ??? ??? ? ? ?? ??? ????? ??? GEMM weight? swizzled ???? ???????.
    • Attention ??? ??? K? V ??? ??? ?? ???? ??? ?????? ???????, ?? ?? ??? ?? CUDA thread block?? ??? ??? ? ?? ????.
    • ???, NVIDIA? ?? ?? ???? ??? ??? thread block cluster ??? ??? ????? ??? ? ??? ???, ? ???? ??? ???? ??? ??? ??? ????.
    • ?? ?? ?? ????? ??? ??? ??? ??? ?? ?? ? ??(fusion)? ??????. ?? ??, NVIDIA? AllReduce ??? ???? RMSNorm ??? Quantize ??? ??? CUDA ??? ?????, ?? SwiGLU ??? ?? GEMM? ??????.

    Programmatic Dependent Launch (PDL)

    Programmatic Dependent Launch(PDL)? ??? CUDA ??? ??? ????? ???? ? CUDA ?? ??? GPU ?? ??? ???, ??? ?? ? ??? ??? ?? ? ??? ??? CUDA ?????.

    ?????, ??? CUDA ????? ??? ??? ?? ? ?? ??? ? ?? ??? ??? ??? ???? ????. ?? ?? ??? ? ?? ??? ?????. ??, ?? ???? ??? ??? ??? ?? ?? ??? ??? ??? ???, ?? GPU? ?? ??? ???. ??, ? ?? ?? ??? ?? ??? ?, ?? CUDA block? ???? ?? ?? Streaming Multiprocessor(SM)? ??? ????? ??? SM? ?? ??? ?? ???. ?? ?? GPU? ?? ??? ??? ???? ??? ??? ????.

    ?? 2. ?? CUDA ???

    CUDA? ????? ?? ?? ?? API? ???? NVIDIA? ?? ??? ?? ?? ?? ? ?? ??? ??? ??? ? ??? ???. ???? ?? ?? ?? ??? ?? ??? ??? ???? ?? ??? ???? ???? ??? ? ????. ??? ? ??? ?? ??? ??? ??? ?? ??? GPU ???? ??????. ? ?? ??? GPU? SM ? ??? ???? ??, ??? SM? ? ?? ??? ???? ??? ? ????.

    ?? 3. ??? ??? ?? ??? ????

    ??? ???

    Speculative decoding? ??? ???? ??? ????? LLM? ?? ??? ??? ?? ?? ???? ?????. ? ??? ?? ?? ‘draft’ ??? ??? speculative ?? ????, ? ?? ??? ‘target’ LLM? ??? ???? ??? ?? ??? ??????. ?? ??? ??? target ?? ?? ???? ?? ??? ???? ?????? ?????, ? ??? draft ??? ?? ?? ??? ?????.

    ?? 4. Speculative decoding? ?? ?? draft ??? ??? ?????? ? ?? ?? ??? ???? ???.

    ? ???? ????, accept? ??? ??? ???? reject? ??? ?? Target ??? ??? ?? ??(t4 ?)? ??? ?, Draft ??? ??? speculative ???(d5~d7)? ?? ?????. ??? ?? Target ??? ??? ??? ???? ??, Draft ??? ?? ??? ???? ?? ??? ??? ???? ?? ?? ??? ?? ?? ? ???, ?? Draft ??? ?? ???? ???? ? ??? ?? ????. Acceptance Length(AL)? ? ?? ?? ??? ?? ? ?? ??? ??? ? ???? ????, AL? ???? ?? ?? ?? ????.

    ? ???? ????, accept? ??? ??? ???? reject? ??? ?? Target ??? ??? ?? ??(t4 ?)? ??? ?, Draft ??? ??? speculative ???(d5~d7)? ?? ?????. ??? ?? Target ??? ??? ??? ???? ??, Draft ??? ?? ??? ???? ?? ??? ??? ???? ?? ?? ??? ?? ?? ? ???, ?? Draft ??? ?? ???? ???? ? ??? ?? ????. Acceptance Length(AL)? ? ?? ?? ??? ?? ? ?? ??? ??? ? ???? ????, AL? ???? ?? ?? ?? ????.

    NVIDIA? speculative decoding? ?? EAGLE3 ?? ????? ???? ???, AL? ??? ?? speculative layer? FFN ??? ??????. ?? ??? Target ??? forward pass ???? ? ??, ??, ??? ??? ??? ??? hidden state? ?? ??? ?, ?? ?? ???? ?? ???? speculative layer? ???? ?????. Speculative layer? ?? ???? draft ?? ???? autoregressive ???? ????, Target ??? ?? ??? ?????.

    Speculative layer? ????? ?? ??? ??? ??? ?? ?? ???, draft ??? ?? ?? ?? ??? ??? ? ??? ?? ?????. Draft ??? ??? AL? ?????, Draft ??? ? ?? ???? ??? ?? ??? ????, NVIDIA? ??? ??? draft length? 3?? ???? ? ?? ? ?? ??? ?? ? ?????.

    ?? 5. ???? ?? 3? ?? ?? ?? ??? AL ????? ?? ??? ?? ??? ?????.

    CUDA ???? ??? ????? ?? ??? ???? ??

    Speculative decoding?? ? ??? ??? Target ??? Draft ?? ? ?? ? ??? ????? ??? ????. ?? NVIDIA? ??? ? ?? ??? ??? ?? ??, ???? ???? ?? ???? ??? ??? ??? CUDA Graph? ???? ???. ?? ???? ??, ?? ??? ???? ?? ???? Target ??? forward pass, ?? ??, Draft ??? forward pass? ??? CUDA Graph ?? ??????. ??? ?? NVIDIA? TensorRT-LLM ??? ????? ???? ?? ?? ??? ?? ??? ?? ??? ?? ??, CUDA Graph ??? ?? ??? ? ??? ????.

    torch.compile()? ??? Draft ?? ??? ???

    ?? ??? torch native ???? ???? ?? ???? ?? ??? ?? torch native ??? ?????, ?? ???? ???? ?? ???? ?? ?? ???? ???. ?? ???? ?? NVIDIA? torch.compile()? ???? OpenAI Triton? ???? ??? ??? ???? ????? ????. ? ?? ??? draft length? 3? ? Draft ??? ????? ?? 25%?? 18%? ???????.

    ??

    NVIDIA? ???? ????? ? AI ??? ????? ???? ??????. 4?? ?? ????? ?? Llama 4 Maverick ???? ???? ?? 1,000? ??? ??? ???? ???? ??? ??? ????. ? ?? ?? ??? ??? ??? Blackwell ????, CUDA?? ??? ?? ?? ????? ???, ??? NVIDIA? ??? speculative decoding ??? ??? ?? ?? ??? ??????. NVIDIA? ??? ? ??? ??? ??? AI ????? ???? ??? ?? ??? ?????, ??? ????? ??? ??? ??? ??? AI ???? ?? ?????? ???? ??? ???? ??? ??? ? ??? ?????.

    ?? ???

    Discuss (0)
    0

    Tags

    人人超碰97caoporen国产