• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • NVIDIA ??? ???? ?? AI ?? ?? ???

    NVIDIA ??? ???? ?? AI ?? ?? ???
    Reading Time: 5 minutes

    2025? 3? 18??? NVIDIA Triton Inference Server? ?? NVIDIA Dynamo? ??? ???????.

    AI ?? ??????? ???? ???, ??? ?? ??? ?? ??? ? ?? ???? ??? ??? ???? ?? ???? AI ??? ???? ?? ?? ??? ?? ????.

    NVIDIA? ?, ???, ?????? ??? ??? ??? ?? ????? AI ???? ????? ???? ??? ??? ??? ? ??? ???? ????, ??? AI ??? ? ?? ??? ? ???, ?????, ?? ???????.

    ???? ?? ?? ??? ?? ??? ??? ?????.

    6? ?, NVIDIA? ????? ?? ?? ??? ??? ???? ??????? ???? ???? ?? ??? ??? AI ?? ??? ??? ??????. ?? ?? ????? ???? ??? ?? ??? ?????, ?? ??? ???? ?? ??? ??? ?? ??? ???? ? ???? ?? ?? ???, ?????? ??? ???? ?????.

    ?? ???? ?? NVIDIA? ?? AI ?????? ??? ???? ? ?? ?? ?? ???? NVIDIA Triton Inference Server? ??????. Triton? ?????? ?? ??? ?????? AI ?? ??? ????? AI ?? ??? ?????, ??? ?? ?? ??? Triton? ?? ?? ?? ???? ???? ???? AI ??? ????? ???? ? ???? NVIDIA? ?? ?? ??? ?? ?? ???? ? ??? ?????.

    Triton ??? NVIDIA? ??? AI ?? ??? ???? ???? ????. ???? ??? ??? ??? ??? ???? ?? NVIDIA TensorRT? ??? ???? ???? ?? API? ?? ??? ??? ?? ?????? ?????. ?? NVIDIA NIM ???????? ????, ??? ?? ?? ?????? ??? ?? AI ??? ??? ? ?? ??? ?????? ?????.

    AI ?? ????? ?? ???

    ?? ??? ???(Full-stack) ???, ??? ???? ? ???? ????? ??? ? ?? ?????? ?? ?????. ?? ?? ??? ?? ??? ?? ??? ?? ??? ?? ?????, ??? AI ???? ???? ??? ?? ???? ?? ?? ????? ?? ? ????? ????. ??? ??, ?? ?? ????(inference time scaling)??? ?? ?? ??? ?? ??? ????? ????, ?? ??? ????? ?? ?? ???? ? ?? ???? ???? ????.

    ??? ???? ??? ???? ?????? ???? ?? ??? ????? ????? ?? ???? ??????, ?? ???, ?? ??? ??, ???(pruning), ???(quantization), ??? ??? ???? ?? ??? ??? ??? ?? ??? ????, ????? ??, ???, ?? ??? ???? ??? ??? ??? ? ????.

    TensorRT-LLM ?????? ?? ?? ??(LLM)? ?? ??? ????? ??? ??? ?? ???? ???, ? ?? ???? ??? ????.

    ??? ? KV ?? ???

    • Key-value (KV) ?? ?? ???: ??? ? ??? ????? ???????, KV ?? ?? ??? ??? ? ?? ?? ?? ??(TTFT)? ?? 5??? ??????. ??? KV ?? ?? ??? ???? ?? ????? ?? ??? ??? ??? ????, ?? ??? ????? ? ?? ?? ??? ???? ???.
    • ?? ???(Chunked prefill): ???? ??? ?? ??? ??? ?? ???? ???? GPU ???? ??? ?? ??? ????. ? ??? ??? ????? ??? ?? ???? ??? ??? ?????.
    • ??? ????? ?? ??: NVIDIA GH200 ??? ????? ???? KV ?? ????? ???? ??, Llama ???? ??? ?????? TTFT? ?? 2??? ?????? ?? ???? ?????.

    ??? ???

    • ? ???? ?? ???? ???: ? ?? ???? ??? ???? ??, TensorRT-LLM? ???? ???? ??? ???? ??????(SMs)? ???? GPU ???? ??????. ? ??? ???? ???? ?? ?? ? ? ???? ??? ??? ? ??? ??? ???? 3? ?? ??????.
    • ??? ???? ?? ??????? ???(Speculative Decoding): ?? ???? ??? ?? ?? ??? ?? ???? ??????? ???? ?? ???? ?? 3.6??? ??????. ? ???? ??? AI ??????? ?? ????? ??????? ?? ??? ??·???? ??? ?????.
    • Medusa ?? ??????? ???: Medusa ??????? ??? ????? TensorRT-LLM ???? ??? ?????. ?? ?? ??? ??? ??????, NVIDIA HGX H200 ????? Llama 3.1 ??? ???? ?? 1.9??? ??????. ? ??? ?? ?? ? ??? ??? ?? LLM ?? ??????? ?? ??? ?????.

    ?? GPU ??

    • ???(MultiShot) ?? ????: ?? GPU ?????? ??? ? ????(Ring AllReduce) ??? ?? ??? ? ? ????. NVSwitch? ???? TensorRT-LLM ???? GPU ?? ???? ?? ??? ? 2??? ?????. ? ??? ???? ??? ?? 3??? ???? ??? ??? ???? ???? ??? ?????.
    • ??? ???? ?? ????? ???: ??? ??? GPU ? ???? ???? ??? ??? ???? ??, ?? ??? ?? ??? GPU ? ?? ?? ??? ?????. NVIDIA H200 Tensor Core GPU? ????? ???? Llama 3.1 405B?? 1.5?? ??? ??? ?????, MLPerf Inference ?????? Llama 2 70B? ?? 1.2?? ?? ??? ?? ?????? ??????. MLPerf Inference? MLCommons ?????? ??? ?? ?? ?? ?? ???? ?????.
    • ??? NVLink ???: NVLink ??? ????? ??? 32?? NVIDIA GH200 Grace Hopper ????? ??? NVIDIA GH200 NVL32 ???? TensorRT-LLM ?? ??? ??? Llama ??? TTFT? ?? 3? ?????. ?? 127?????? AI ??? ??? ???? ? ??? ????? AI ??????? ??? ????? ?? ?? ??? ?????.

    ??? ? ??? ???

    ?? ?? ??

    ??? ??? ?? ??? ????? ?, ???, ?????? ??? ??? ?? ??? ????, ??? ?? ??? ??, ??? ??? ?? ??, ?? ???? ???? ????,

    MLPerf Inference? ?? ??? ???? ?? ?? ? ?????. ? ????? ???? ???? ?? ???? ????, ??? ???? ?? ??? ?????, AI ??? ?? ??? ???? ?? ????? ?????? ??? ??? ?? ??? ??? ? ?? ??? ?????.

    ?? MLPerf Inference v4.1?? NVIDIA Blackwell? ???? ????, Llama 2 70B ?????? NVIDIA H100 Tensor Core GPU ?? ?? 4? ?? ??? ??????. ? ??? 2?? Transformer Engine(FP4 Tensor Core ??), GPU? 8TB/s? ??? ???? ???? ??? HBM3e GPU ???? ??? Blackwell GPU? ??? ???? ?? ???????.

    ?? NVIDIA TensorRT-LLM? ??? NVIDIA ????? ??? ?? ??? FP4 ??? ??? ?? Blackwell? ???? ????? ???????, ??? ????? ??? ??? ??? ?? ???????.

    ?? ?? ??? ? ???? ??? ????? ?? ?? ?? NVIDIA H200 Tensor Core GPU? ????? ??? ?? ?????? ??? ??? ??????. ?? ?? ??? Mixtral 8x7B MoE(Mixture-of-Experts) LLM?? Llama 2 70B LLM, Stable Diffusion XL ???-??? ?? ????? ?????. ???? ????? ???? Hopper ????? ?? ?? ?? 27% ??? ?? ??? ??????.

    8?? H200 GPU? ??? ????? ??? NVIDIA Triton Inference Server? MLPerf Inference v4.1? Llama 2 70B ?????? NVIDIA ???? ???? ?? ??? ??? ??????. ?? ??? ??? ??? ???? ?? AI ?? ??? ?? ??? ?? ???? ? ?? ??? ??? ???, NVIDIA Triton?? ?? ??? ??? ??? ? ??? ?????.

    AI ??? ??: ??? ???? ??

    AI ?? ??? ???? ??? ???? ??? ???? ????. ?? ????? ??? ??? ?? ???? ? ? ??? ?? ??? ?????? ?? ??? ?? ???? ????. GPT-MoE 1.8T? ????? ??? ?? ??((Sparse Mixture-of-Experts)) ????? ??? ??? ???? ????? ?? ??? ????? ? ???? ????, ??? ??? ??(???/??? ??)? ?? GPU? ??? ?? ? ???? ? ??? ????, ?? ?? NVIDIA Blackwell ????? ??? ??? AI ??? ???? ? ????.

    ? Blackwell GPU??2?? Transformer ????FP4? ??? 5?? Tensor Core? ??????. ???? ??? ??? ???? ????? ??? ???? ??? ? ?????, ??? ??? ?? ???? ?????? ??? ?? ??? ????? ??? ??? ????? ???? ?????.

    ??? ?? ???? ??? ??? ??? ??? ??????, ??? ??? GPU? ??? ??? ???? ???.

    NVIDIA GB200 NVL72 ? ??? ???? 72?? GPU? NVLink ????? ??? ??? ??? GPU?? ?????. GPT-MoE 1.8T ??? ???? ?? ?? Hopper GPU ?? ?? 30?? ??? ??? ?????.

    ?? **??? ?? ???(test-time compute)**??? ??? ???? ??? ??? ? ??? ????? ?? ??? ???? ??? ? ?? ???? ??? ?????. OpenAI o1 ???? ?? ??? ? ??? ????? ??? ?? ??? ???? ?? ??? ?? ??? ?????? “??”? ? ?? ???. ??? ?? ??? ??? ?? ?? ???? ??? ?? ??? ?? ???? ?? ?????. ? ??? ?? ??? ? ?? ??? ??? ???? ??? ?? ??? ??? ?? ????.

    ?? ?? ??(AGI)??? ?? ????? ??? ??? ???? ??? ??????. ?? ??, ?? ??, ??? ?? ???? ?? ??? ???? ???? ??? ?????? ?????. NVIDIA ???? AI ???? ???? ??? ??? ?? ? ??? 1? ??? ?? ?? ??? ???? ????.

    ?? ?? ?????

    AI ?? ?? ??? ????, NVIDIA AI ?? ???? ?? ? ????, ?? AI ?? ?? ????? ??? ???.

    NVIDIA NIM ???????? ??? ???? ??? ?? ??? ?????, ‘NVIDIA NIM?? ??? AI ????: ?? ???’? ?????. TensorRT, TensorRT-LLM, TensorRT Model Optimizer ?????? ??? ???? NVIDIA NIM ???????? ??? ???? ??? ?? ???? ???? ?????.

    ?? ???

    Discuss (0)
    0

    Tags

    人人超碰97caoporen国产