• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • Generative AI / LLMs

    NVIDIA Blackwell ??? DeepSeek-R1 ?? ???? ?? ?? ??

    Reading Time: 9 minutes

    NVIDIA? NVIDIA GTC 2025?? DeepSeek-R1 ?? ?? ?? ??? ??????. 8?? NVIDIA Blackwell GPU? ??? ?? NVIDIA DGX ???? ??? ??? 6,710? ? ???? DeepSeek-R1 ???? ???? ?? 250?? ?? ?? ?? ?? 30,000?? ??? ???? ??? ? ????. ??? ?? ???? ????? ??? ??? NVIDIA Blackwell ????? ???? NVIDIA? ??? ?? ??? ?? ??? ?? ??? ??????.

    ??? ?? ??? NVIDIA ???? ?? NVIDIA Blackwell Ultra GPU? NVIDIA Blackwell GPU?? ??? ??? ???? ???? ?? ?? ??? ????.

    ?? 1. NVL8 ???? TensorRT-LLM ?????? ???? NVIDIA B200 GPU? ?? DeepSeek-R1 671B ???? ???? ?? ?? ?? ?? ?? ??????.

    ?? DGX B200 8-GPU ???? ?? DGX H200 8-GPU ??? | B200 ? H200? TensorRT-LLM? ?? ???? ??? 3? ? 2? ?? | 3?? ?? 1,024 ??, ?? 2,048 ??????, 2?? 1?? ?? 1,024 ??, ?? 1,024 ?? | Concurrency(???) 1 | B200? FP4, H100 ? H200? FP8 ???.

    ?? 2. ????? ?????? ??? ?? NVIDIA? 2025? 1? ?? DeepSeek-R1 671B ??? ???? ? 36? ??????, ?? ??? ??? ? 32? ???? ??? ??????.

    ?? ???(8-GPU ??? ??) | ?? DGX B200 8-GPU ???, ?? DGX H200 8-GPU ???, ? ?? DGX H100 8-GPU ???(????) | TensorRT-LLM ?? ?? | 3?, ?? 1,024 ??, ?? 2,048 ??, 2? ? 1?, ?? 1,024 ??, ?? 1,024 ?? | Concurrency(???) ??(MAX) | B200? FP4, H200/H100? FP8 ???.

    NVIDIA ?? ???? ???? ?? ???. ?? ????? ?? ??? ?? ?? ?? ???? ??? ??, ???? ?? ????? ?? ???? ??? ? ??? ???. ???? NVIDIA?? ?? ???? ?? ?? ???? ???, ?? Blackwell ????? ????? ??? ???? ???? ?? ???? ?????.

    ??? Blackwell ???? FP4 ???? ??? 5?? ?? ??? ?? ?? 5? ? ?? AI ??? ??, 5?? NVLink ? NVLink Switch? ?? ?? ?? ?? 2?? NVIDIA NVLink ???, ??? ?? ? ? NVLink ?????? ???? ?????. ??? ?? ??? ? ?? ? ????? ?? ????, DeepSeek-R1? ?? ??? LLM? ?? ?? ???, ?? ?? ?? ??? ?? ?????.

    ?? ???? ??? ???? ??? ? ??? ?????. ??? ?? ???? ?????? ??? ??? ????, ??? ?? ???? ????? ??? ? ?? ??? ??? ??? ???? ????? ??? ???? ????? ??? ?????. NVIDIA? ???? ???? ??? ???? ?? ?, ???, ?????, ???? ? ?? ??? ?? ??? ????? ????? ????.

    ?? ???? NVIDIA TensorRT-LLM, NVIDIA TensorRT, TensorRT Model Optimizer, CUTLASS, NVIDIA cuDNN, ???  PyTorch, JAX, TensorFlow? ??? ?? AI ????? ? NVIDIA Blackwell ???? ??? ???? ?? NVIDIA ?? ???? ??? ????? ?? ??? ?????. ??, ? ?? NVLink Switch ?? ???? ??? 8?? Blackwell GPU? ???? ?? NVIDIA DGX B200 ????? ??? ??? ?? ? ??? ???? ?????.

    TensorRT ???: NVIDIA Blackwell? ???? ??? ?? ??

     NVIDIA TensorRT ???? ????? NVIDIA GPU?? ???? ?? ??? ???? ? ??? ???????. ?? AI ??? ??, ??? ? ??? ???? ?? ?? ?????? ????, ? ?? ?? ?? ?? NVIDIA Blackwell ?????? ??? ??? ?? ????. ?? ?? ??? NVIDIA Hopper ????? ???? ????? ? ?? ??? ?????.

    TensorRT Model Optimizer? ?? ?? ???? ?? ? ?????. ?? ???, ??, ????, ???, ??? ???? ??? ??? ?? ??? ??? ???? ?? ? ??? ? ????? ????. ?? TensorRT Model Optimizer 0.25 release? post-training quantization (PTQ) ? quantization-aware training (QAT) ??? ?? Blackwell FP4? ???? ?? ?? ??? ???? ????? ????? ?? ?????? ??? ???? ????.

    ??? ???? ??? ??? ????? ???? ?? ??? ?? ?????? ??????.  TensorRT-LLM? ????? ??? ? ??, ??? ???? LLM ??? ???? ?? ?? ??? ?????. ?? TensorRT-LLM 0.17 release? Blackwell ??? ???? Blackwell ?????, ??? ?? ? FP4? ?? ??? ???? ?????.

    PyTorch? ??? TensorRT-LLM? ???? LLM ?? ??? ?? ???? ??? ??? ?? ? ??(in-flight batching), KV ?? ??? ?? ? ??? ???? ?? ?? ??? ??? ?? ??? ??? ?????.

    ?? ?? ??? ?????? PyTorch, JAX ? TensorFlow? Blackwell??? ?? ? ??? ?? ????? ?????????. vLLM ? Ollama? ?? ?? LLM ??? ?????? ?? Blackwell GPU?? ??? ? ????. ?? ??????? ??? ??? ??? ?????.

    Blackwell? TensorRT ?? ??

    Blackwell ????? TensorRT ?????? ???? Hopper ????? ?? ??? ?? ?? ??? ???? ???. ??? ?? ??? ?? ? ??? ??? ??, ??? ??? ? ???? ????? ??? ?? ??? ?? ??? ??? ?????.

    DeepSeek-R1, Llama 3.1 405B, Llama 3.3 70B? ??? ?? ?? ???? ???? TensorRT ?????? ???? FP4 ???? ???? DGX B200 ???? ?? DGX H200 ???? ?? 3? ?? ? ?? ?? ???? ???? ????.

    ?? 3. NVIDIA Blackwell GPU? FP4? ??? NVIDIA HGX B200? ?? GPU ??(FP8 ??)? ???? ? Llama 3.1 70B, Llama 3.1 405B, DeepSeek-R1? ?? ???(?? ?? ?) ???

    ?? ?????. ??? ? ????.

    TensorRT Model Optimizer v0.23.0. TensorRT-LLM v0.17.0. ?? ?? ?? 2048, ?? ?? ??? TensorRT-LLM ????? ??(Inflight Batching)? ???? ??. H200? FP16/BF16 GEMM + FP8 KV ??. B200? FP4 GEMM + FP8 KV ??. ??? ??
    Llama 3.3 70B: ISL 2048, OSL 128
    Llama 3.1 405B: ISL 2048, OSL 128
    DeepSeek-R1: ISL 1024, OSL 1024

    ? ?? ??? ??? ??? ???? ?? ??? ???? ?, ???? ??? ???? ???? ??? ??? ???? ?? ?????. DeepSeek-R1? ??, TensorRT Model Optimizer FP4 ?? ?? ???(PTQ)? ? 1? ??? ?? ?? ??? ?????? FP8 ???? ?? ???? ??? ??? ?????.

    MMLUGSM8KAIME 2024GPQA DiamondMATH-500
    DeepSeek R1-FP890.8%96.3%80.0%69.7%95.4%
    DeepSeek R1-FP490.7%96.1%80.0%69.2%94.2%
    ? 1. FP8/FP4 DeepSeek-R1 ?? PTQ? MMLU/GSM8K/AIME24/GPQA/MATH-500 ???

    ?? ?? Llama 3.1 405B ? Llama 3.3 70B ??? ?? BF16 ???? FP4 ???? ?? ??? ??? ? 2? ?????.

    MMLU BaselineGSM8K Baseline
    Llama 3.1 405B-BF1686.5%96.3%
    Llama 3.1 405B-FP486.1%96.1%
    Llama 3.3 70B-BF1682.5%95.3%
    Llama 3.3 70B-FP480.5%92.6%
    ? 2. BF16/FP4 Llama ?? PTQ? MMLU ? GSM8K ???

    FP4? ?? ?? ???? ??? ?, ?? ?? ????? ??? ? ??? QAT(Quantization-Aware Training)? ???? ???? ??? ? ????. QAT? ??? ???? ??, TensorRT Model Optimizer? ???? FP4? QAT ???? Nemotron 4 15BNemotron 4 340B? BF16 ???? ?? ?? ?? FP4 ???? ????? (? 3).

    Nemotron 4 15B BaseNemotron 4 340B Base
    BF16 (baseline)64.2%81.1%
    FP4 with PTQ61.0%80.8%
    FP4 with QAT64.5%81.4%
    ? 3. BF16 ???? ??? FP4 PTQ ? QAT? vMMLU 5-? ???. Model Optimizer QAT? Nemotron 4 15B ? Nemotron 4 340B? ?? ?? ?? ???? ??????

    FP4? ??? TensorRT ? TensorRT Model Optimizer? Blackwell?? ??? ?? ??? ??

    ???? TensorRT ? TensorRT Model Optimizer? ?? INT8 ? FP8? ??? 8?? ??? ???? ???? ??? ??? ???? ??? ??? ??? ??????.

    ?? NVIDIA Blackwell ? FP4 ???? AI ??? ??? ?? ? ?? ??? ?????. ??? ??? NVIDIA GeForce RTX 50 series GPU? ???? AI PC?? ??? ???? ????? ?????? ?????.

    Black Forest Lab? Flux.1 model ???? ??? ???? ?? ? ??? ?? ?? ??? ???? ??? ???-?-??? ?????. ????? ?? Black Forest Lab? Hugging Face ????? FP4 Flux ??? ??????  TensorRT? ?? ??? ? ????.

    ??? ???? ??? Black Forest Labs?? TensorRT Model Optimizer FP4 ????? ? ???? ???? ???????. Blackwell?? FP4 ??? ??? ??? ???? ??, FP4 Flux.1-dev ??? FP16? ???? ???(?? ??? ?)?? ?? 3?? ?? ??? ????, ??? VRAM ???? ?? 5.2? ???? ??? ??? ????? (? 4).  

    ?? 4. GeForce RTX 5090?? 30??? Flux.1-dev ??? FP4 ??? ???? ?? ????? ??

    Flux.1-dev?? ????? ??? FP4? ???????, ?? ??? BF16 ???? ?????. TensorRT DemoDiffusion? ?-VRAM ??? FLUX.1-dev? ??? T5, CLIP, VAE ? FLUX ?????? ??? ? ???? ???? ??????. ?? FLUX? ?? ??? ???? ? ?? ?? ?? ??? ??? ?? ????? ???, ?? ? ? ??? ???? ????? ??? ?? ?? ??? ?????.

    VRAM usage (GB)VRAM usage compression
    FP16 (Baseline)51.41x
    FP16 low-VRAM23.32.2x
    FP826.31.9x
    FP8 low-VRAM19.92.6x
    FP419.52.6x
    FP4 low-VRAM9.95.2x
    ? 4. ??? ??? ??? ??? Blackwell FP4 VRAM ??? ? ??

    ?? 5? FP4? ???? Flux ??? ??? ???? ????, ??? ????? ?? ??? ??? ??? BF16 ??? ??? ????? ?????. ??, ? 5? 1,000? ???? ???? FP4 ??? ??, ??? ? ??? ????? ??? ??? ?????.

    ?? 5. Blackwell FP4? RTX 5090?? Flux.1-dev ??? ?? VRAM? ???? ????? ??? ?? ??? 3? ?? ?? ??

    ?? ??? ?? ????: “? ?? ??? ?? ??? ???? ??? ???, ??? ???? ?? ???? ? ??? ???? ??. ? ?? ???? ????? ??? ??? ??? ????, ??? ???? ??? ?? ??? ????. ?????? ??? ?? ??? ? ??? ???? ???, ? ?? ?? ??? ? ?? ?? ????.”

    ?? ??? ?? ????: “???? ??? ??? ?? ??? ??? ???? ??? ??? ??? ??? ? ??? ?? ??. ?? ???? ?? ?? ????? ????, ?? ?? ???? ???? ???? ??? ??? ?????. ???? ???? ??(Octane) ??? ??? ??.”

    Image RewardCLIP-IQACLIPScore
    BF161.1180.92730.15
    FP4 PTQ1.0960.92329.86
    FP4 QAT1.1190.92829.92

    ? 5.  Image Reward,CLIP-IQA, CLIPScore? ??? FP4 ??? ?? ??? ?? (???? ??)

    Flux.1-dev ??, 30??, 1K ???. TensorRT Model Optimizer v0.23.0 FP4 ???. 2025? 1? 24? NVIDIA H100 GPU?? ??????. ?????? RTX 5090? TensorRT ?? ??? ????? ?????. ?? ??? RTX 5090?? ?? ?? ? ????.

    TensorRT 10.8 ????? ?? ???? GeForce RTX 50 ??? GPU?? ?? FP4 ???? Flux.1-Dev ? Flux.1-Schnell ??? ??? ? ????. –low-vram ??? ???? GeForce RTX 5070? ?? ??? ??? ??? ?????? ??? ??? ??? ? ????. ??, TensorRT? Black Forest Labs?? ???? Depth ? Canny Flux ControlNet? ?????. ?? TensorRT demo/Diffusion.? ???? ??? ? ? ????.

    cuDNN? ?? Blackwell ??? ??? ?????

    2014? ?? ??, NVIDIA cuDNN? GPU?? ??? ????? ????? ? ???? ??? ?????. ?? ??? ?????? ??? ???? ??? ?????? PyTorch, TensorFlow, JAX? ?? ?????? ??? ??? ??? ? ??? ????. ??? ??????? ??? ??? ??? GPU ????? ?? ???? ??? ?? cuDNN? ???? ???? ??-?-?? ??? ????? ???? ?? ???? ????????

    cuDNN 9.7 ???? ?? ????? ? GeForce ??? ???? NVIDIA Blackwell ????? ?? ??? ???? ????. ????? cuDNN ??? ?? Blackwell ?? ??? ??????? ? ??? ?? ??? ??? ? ????. ? ?????? ?? ???? FP8 ? FP4 ??? ?? Blackwell? ?? ??? ???? ???? GEMM(General Matrix Multiply) API? ????, ??? ???? ???? ??????? ????? ??? ??? ? ??? ???.

    cuDNN? FP8 ??? ???(Flash Attention) ???? ??? ?? ??? ????, FP8 ??? ?? ??? ???? ?? 50%? ?? ??? ??? ???? 84%? ?? ??? ?????. ? ?????? ?? Blackwell ?????? ?? ?? ??? ?? ??? ???? GEMM ??? ?????. ??? cuDNN? ??? ????? ?? ? ? ?? ??? ?? ?? ??? ?? ??? ????.

    ?? 6. NVIDIA Blackwell B200? NVIDIA ?? H100 ?? FP8 ??? ??? ?? ??

    CUTLASS? ?? ??? Blackwell ?? ??

    CUTLASS? 2017? ? ?? ??, NVIDIA GPU?? ??? CUDA ??? ???? ??? ? ????? ??? ??? ?????. ????? NVIDIA ?? ??? ???? ?? GEMM(General Matrix Multiply) ? ????? ?? ??? ?? ??? ??? ? ?? ???? ??? ??????, FlashAttention? ?? ???? ?? ??? ???? ??? ??? GPU ?? ???? ???? ????????.

    CUTLASS 3.8 ???? ?? NVIDIA Blackwell ????? ?? ??? ????, ????? ?? ??? ??? ??? ???? ??? ?? ??? ??? ? ??? ????. ???? ??? ?? ??? MX ??? NVIDIA ?? FP4? ????, ????? ?? ???? ?? ??? ?? ??? ?? ????? ???? ????? ???? ? ??? ?????. ?? 7? ?? ?? ???? ?? 98%? ??? ?? ??? ??? ? ??? ?????.

    ?? 7. ??? NVIDIA Blackwell ?? ???? ?? ??? ??? ?? ??

    ????? B200 ????? ???????. M=K=16384, N=17290.

    CUTLASS? ???? GEMM(Grouped GEMM) ? ?? ?? GEMM(Mixed Input GEMM) ??? ?? ?? ?? ??? Blackwell? ?????. ???? GEMM? ?? Expert ??? ??? ???? ? ???? ??? ???? MoE(Mixture-of-Experts) ??? ????? ? ??? ???. ?? ?? GEMM? ?? ???? GPU ??? ??? ???? LLM(??? ?? ??)? GPU ??? ?? ??? ?? ? ?? ???? ??? ?????.

    OpenAI Triton? Blackwell ??

    OpenAI Triton ???? ?? ?? Blackwell? ????, ???? ????? Python ?? ????? ?? ?? Blackwell ???? ??? ??? ? ?? ?????. OpenAI Triton? ?? Blackwell ????? ?? ???? ??? ??? ? ???, ?? ??? ?? ???? ?? ??? ??? ??? ? ????. ??? ??? NVIDIA? OpenAI? ?? ??? NVIDIA Blackwell?? OpenAI Triton? AI ?? ? ????? ??? ??? ??????. 

    ??

    NVIDIA Blackwell ????? FP4 ?? ??? ?? 2?? ????? ??? 5?? NVLink ???? ??? NVLink ? ??? AI ??? ????? ?? ???? ???? ?????. NVIDIA? NVIDIA GTC 2025?? ?? ?? DeepSeek-R1 ?? ??? ??????. 8?? NVIDIA Blackwell GPU? ??? ?? NVIDIA DGX ???? ??? ??? 6,710? ???? DeepSeek-R1 ???? ???? ?? 250?? ?? ?? ?? ?? 30,000?? ??? ???? ??? ? ????.

    ??? ??????? ?? NVIDIA Blackwell? ????? ????? ???? AI ??? ??? ???? ?? ???? ?? ??? ?? ???? ? ??? ? ????. NVIDIA AI Inference ???? ?? ??? ???? ?? AI inference ?? ????? ?? ??? ?????. 

    ??? ? 

    ? ??? Matthew Nicely, Nick Comly, Gunjan Mehta, Rajeev Rao, Dave Michael, Yiheng Zhang, Brian Nguyen, Asfiya Baig, Akhil Goel, Paulius Micikevicius, June Yang, Alex Settle, Kai Xu, Zhiyu Cheng, Chenjie Luo? ??? ?? ??? ??? ?? ??? ????? ????.

    ?? ???

    Discuss (0)
    0

    Tags

    人人超碰97caoporen国产