NVIDIA? NVIDIA GTC 2025?? DeepSeek-R1 ?? ?? ?? ??? ??????. 8?? NVIDIA Blackwell GPU? ??? ?? NVIDIA DGX ???? ??? ??? 6,710? ? ???? DeepSeek-R1 ???? ???? ?? 250?? ?? ?? ?? ?? 30,000?? ??? ???? ??? ? ????. ??? ?? ???? ????? ??? ??? NVIDIA Blackwell ????? ???? NVIDIA? ??? ?? ??? ?? ??? ?? ??? ??????.
??? ?? ??? NVIDIA ???? ?? NVIDIA Blackwell Ultra GPU? NVIDIA Blackwell GPU?? ??? ??? ???? ???? ?? ?? ??? ????.

?? DGX B200 8-GPU ???? ?? DGX H200 8-GPU ??? | B200 ? H200? TensorRT-LLM? ?? ???? ??? 3? ? 2? ?? | 3?? ?? 1,024 ??, ?? 2,048 ??????, 2?? 1?? ?? 1,024 ??, ?? 1,024 ?? | Concurrency(???) 1 | B200? FP4, H100 ? H200? FP8 ???.

?? 2. ????? ?????? ??? ?? NVIDIA? 2025? 1? ?? DeepSeek-R1 671B ??? ???? ? 36? ??????, ?? ??? ??? ? 32? ???? ??? ??????.
?? ???(8-GPU ??? ??) | ?? DGX B200 8-GPU ???, ?? DGX H200 8-GPU ???, ? ?? DGX H100 8-GPU ???(????) | TensorRT-LLM ?? ?? | 3?, ?? 1,024 ??, ?? 2,048 ??, 2? ? 1?, ?? 1,024 ??, ?? 1,024 ?? | Concurrency(???) ??(MAX) | B200? FP4, H200/H100? FP8 ???.
NVIDIA ?? ???? ???? ?? ???. ?? ????? ?? ??? ?? ?? ?? ???? ??? ??, ???? ?? ????? ?? ???? ??? ? ??? ???. ???? NVIDIA?? ?? ???? ?? ?? ???? ???, ?? Blackwell ????? ????? ??? ???? ???? ?? ???? ?????.
??? Blackwell ???? FP4 ???? ??? 5?? ?? ??? ?? ?? 5? ? ?? AI ??? ??, 5?? NVLink ? NVLink Switch? ?? ?? ?? ?? 2?? NVIDIA NVLink ???, ??? ?? ? ? NVLink ?????? ???? ?????. ??? ?? ??? ? ?? ? ????? ?? ????, DeepSeek-R1? ?? ??? LLM? ?? ?? ???, ?? ?? ?? ??? ?? ?????.
?? ???? ??? ???? ??? ? ??? ?????. ??? ?? ???? ?????? ??? ??? ????, ??? ?? ???? ????? ??? ? ?? ??? ??? ??? ???? ????? ??? ???? ????? ??? ?????. NVIDIA? ???? ???? ??? ???? ?? ?, ???, ?????, ???? ? ?? ??? ?? ??? ????? ????? ????.
?? ???? NVIDIA TensorRT-LLM, NVIDIA TensorRT, TensorRT Model Optimizer, CUTLASS, NVIDIA cuDNN, ??? PyTorch, JAX, TensorFlow? ??? ?? AI ????? ? NVIDIA Blackwell ???? ??? ???? ?? NVIDIA ?? ???? ??? ????? ?? ??? ?????. ??, ? ?? NVLink Switch ?? ???? ??? 8?? Blackwell GPU? ???? ?? NVIDIA DGX B200 ????? ??? ??? ?? ? ??? ???? ?????.
TensorRT ???: NVIDIA Blackwell? ???? ??? ?? ??
NVIDIA TensorRT ???? ????? NVIDIA GPU?? ???? ?? ??? ???? ? ??? ???????. ?? AI ??? ??, ??? ? ??? ???? ?? ?? ?????? ????, ? ?? ?? ?? ?? NVIDIA Blackwell ?????? ??? ??? ?? ????. ?? ?? ??? NVIDIA Hopper ????? ???? ????? ? ?? ??? ?????.
TensorRT Model Optimizer? ?? ?? ???? ?? ? ?????. ?? ???, ??, ????, ???, ??? ???? ??? ??? ?? ??? ??? ???? ?? ? ??? ? ????? ????. ?? TensorRT Model Optimizer 0.25 release? post-training quantization (PTQ) ? quantization-aware training (QAT) ??? ?? Blackwell FP4? ???? ?? ?? ??? ???? ????? ????? ?? ?????? ??? ???? ????.
??? ???? ??? ??? ????? ???? ?? ??? ?? ?????? ??????. TensorRT-LLM? ????? ??? ? ??, ??? ???? LLM ??? ???? ?? ?? ??? ?????. ?? TensorRT-LLM 0.17 release? Blackwell ??? ???? Blackwell ?????, ??? ?? ? FP4? ?? ??? ???? ?????.
PyTorch? ??? TensorRT-LLM? ???? LLM ?? ??? ?? ???? ??? ??? ?? ? ??(in-flight batching), KV ?? ??? ?? ? ??? ???? ?? ?? ??? ??? ?? ??? ??? ?????.
?? ?? ??? ?????? PyTorch, JAX ? TensorFlow? Blackwell??? ?? ? ??? ?? ????? ?????????. vLLM ? Ollama? ?? ?? LLM ??? ?????? ?? Blackwell GPU?? ??? ? ????. ?? ??????? ??? ??? ??? ?????.
Blackwell? TensorRT ?? ??
Blackwell ????? TensorRT ?????? ???? Hopper ????? ?? ??? ?? ?? ??? ???? ???. ??? ?? ??? ?? ? ??? ??? ??, ??? ??? ? ???? ????? ??? ?? ??? ?? ??? ??? ?????.
DeepSeek-R1, Llama 3.1 405B, Llama 3.3 70B? ??? ?? ?? ???? ???? TensorRT ?????? ???? FP4 ???? ???? DGX B200 ???? ?? DGX H200 ???? ?? 3? ?? ? ?? ?? ???? ???? ????.

?? ?????. ??? ? ????.
TensorRT Model Optimizer v0.23.0. TensorRT-LLM v0.17.0. ?? ?? ?? 2048, ?? ?? ??? TensorRT-LLM ????? ??(Inflight Batching)? ???? ??. H200? FP16/BF16 GEMM + FP8 KV ??. B200? FP4 GEMM + FP8 KV ??. ??? ??
Llama 3.3 70B: ISL 2048, OSL 128
Llama 3.1 405B: ISL 2048, OSL 128
DeepSeek-R1: ISL 1024, OSL 1024
? ?? ??? ??? ??? ???? ?? ??? ???? ?, ???? ??? ???? ???? ??? ??? ???? ?? ?????. DeepSeek-R1? ??, TensorRT Model Optimizer FP4 ?? ?? ???(PTQ)? ? 1? ??? ?? ?? ??? ?????? FP8 ???? ?? ???? ??? ??? ?????.
MMLU | GSM8K | AIME 2024 | GPQA Diamond | MATH-500 | |
DeepSeek R1-FP8 | 90.8% | 96.3% | 80.0% | 69.7% | 95.4% |
DeepSeek R1-FP4 | 90.7% | 96.1% | 80.0% | 69.2% | 94.2% |
?? ?? Llama 3.1 405B ? Llama 3.3 70B ??? ?? BF16 ???? FP4 ???? ?? ??? ??? ? 2? ?????.
MMLU Baseline | GSM8K Baseline | |
Llama 3.1 405B-BF16 | 86.5% | 96.3% |
Llama 3.1 405B-FP4 | 86.1% | 96.1% |
Llama 3.3 70B-BF16 | 82.5% | 95.3% |
Llama 3.3 70B-FP4 | 80.5% | 92.6% |
FP4? ?? ?? ???? ??? ?, ?? ?? ????? ??? ? ??? QAT(Quantization-Aware Training)? ???? ???? ??? ? ????. QAT? ??? ???? ??, TensorRT Model Optimizer? ???? FP4? QAT ???? Nemotron 4 15B ? Nemotron 4 340B? BF16 ???? ?? ?? ?? FP4 ???? ????? (? 3).
Nemotron 4 15B Base | Nemotron 4 340B Base | |
BF16 (baseline) | 64.2% | 81.1% |
FP4 with PTQ | 61.0% | 80.8% |
FP4 with QAT | 64.5% | 81.4% |
FP4? ??? TensorRT ? TensorRT Model Optimizer? Blackwell?? ??? ?? ??? ??
???? TensorRT ? TensorRT Model Optimizer? ?? INT8 ? FP8? ??? 8?? ??? ???? ???? ??? ??? ???? ??? ??? ??? ??????.
?? NVIDIA Blackwell ? FP4 ???? AI ??? ??? ?? ? ?? ??? ?????. ??? ??? NVIDIA GeForce RTX 50 series GPU? ???? AI PC?? ??? ???? ????? ?????? ?????.
Black Forest Lab? Flux.1 model ???? ??? ???? ?? ? ??? ?? ?? ??? ???? ??? ???-?-??? ?????. ????? ?? Black Forest Lab? Hugging Face ????? FP4 Flux ??? ?????? TensorRT? ?? ??? ? ????.
??? ???? ??? Black Forest Labs?? TensorRT Model Optimizer FP4 ????? ? ???? ???? ???????. Blackwell?? FP4 ??? ??? ??? ???? ??, FP4 Flux.1-dev ??? FP16? ???? ???(?? ??? ?)?? ?? 3?? ?? ??? ????, ??? VRAM ???? ?? 5.2? ???? ??? ??? ????? (? 4).

Flux.1-dev?? ????? ??? FP4? ???????, ?? ??? BF16 ???? ?????. TensorRT DemoDiffusion? ?-VRAM ??? FLUX.1-dev? ??? T5, CLIP, VAE ? FLUX ?????? ??? ? ???? ???? ??????. ?? FLUX? ?? ??? ???? ? ?? ?? ?? ??? ??? ?? ????? ???, ?? ? ? ??? ???? ????? ??? ?? ?? ??? ?????.
VRAM usage (GB) | VRAM usage compression | |
FP16 (Baseline) | 51.4 | 1x |
FP16 low-VRAM | 23.3 | 2.2x |
FP8 | 26.3 | 1.9x |
FP8 low-VRAM | 19.9 | 2.6x |
FP4 | 19.5 | 2.6x |
FP4 low-VRAM | 9.9 | 5.2x |
?? 5? FP4? ???? Flux ??? ??? ???? ????, ??? ????? ?? ??? ??? ??? BF16 ??? ??? ????? ?????. ??, ? 5? 1,000? ???? ???? FP4 ??? ??, ??? ? ??? ????? ??? ??? ?????.

?? ??? ?? ????: “? ?? ??? ?? ??? ???? ??? ???, ??? ???? ?? ???? ? ??? ???? ??. ? ?? ???? ????? ??? ??? ??? ????, ??? ???? ??? ?? ??? ????. ?????? ??? ?? ??? ? ??? ???? ???, ? ?? ?? ??? ? ?? ?? ????.”
?? ??? ?? ????: “???? ??? ??? ?? ??? ??? ???? ??? ??? ??? ??? ? ??? ?? ??. ?? ???? ?? ?? ????? ????, ?? ?? ???? ???? ???? ??? ??? ?????. ???? ???? ??(Octane) ??? ??? ??.”
Image Reward | CLIP-IQA | CLIPScore | |
BF16 | 1.118 | 0.927 | 30.15 |
FP4 PTQ | 1.096 | 0.923 | 29.86 |
FP4 QAT | 1.119 | 0.928 | 29.92 |
? 5. Image Reward,CLIP-IQA, CLIPScore? ??? FP4 ??? ?? ??? ?? (???? ??)
Flux.1-dev ??, 30??, 1K ???. TensorRT Model Optimizer v0.23.0 FP4 ???. 2025? 1? 24? NVIDIA H100 GPU?? ??????. ?????? RTX 5090? TensorRT ?? ??? ????? ?????. ?? ??? RTX 5090?? ?? ?? ? ????.
TensorRT 10.8 ????? ?? ???? GeForce RTX 50 ??? GPU?? ?? FP4 ???? Flux.1-Dev ? Flux.1-Schnell ??? ??? ? ????. –low-vram ??? ???? GeForce RTX 5070? ?? ??? ??? ??? ?????? ??? ??? ??? ? ????. ??, TensorRT? Black Forest Labs?? ???? Depth ? Canny Flux ControlNet? ?????. ?? TensorRT demo/Diffusion.? ???? ??? ? ? ????.
cuDNN? ?? Blackwell ??? ??? ?????
2014? ?? ??, NVIDIA cuDNN? GPU?? ??? ????? ????? ? ???? ??? ?????. ?? ??? ?????? ??? ???? ??? ?????? PyTorch, TensorFlow, JAX? ?? ?????? ??? ??? ??? ? ??? ????. ??? ??????? ??? ??? ??? GPU ????? ?? ???? ??? ?? cuDNN? ???? ???? ??-?-?? ??? ????? ???? ?? ???? ????????
cuDNN 9.7 ???? ?? ????? ? GeForce ??? ???? NVIDIA Blackwell ????? ?? ??? ???? ????. ????? cuDNN ??? ?? Blackwell ?? ??? ??????? ? ??? ?? ??? ??? ? ????. ? ?????? ?? ???? FP8 ? FP4 ??? ?? Blackwell? ?? ??? ???? ???? GEMM(General Matrix Multiply) API? ????, ??? ???? ???? ??????? ????? ??? ??? ? ??? ???.
cuDNN? FP8 ??? ???(Flash Attention) ???? ??? ?? ??? ????, FP8 ??? ?? ??? ???? ?? 50%? ?? ??? ??? ???? 84%? ?? ??? ?????. ? ?????? ?? Blackwell ?????? ?? ?? ??? ?? ??? ???? GEMM ??? ?????. ??? cuDNN? ??? ????? ?? ? ? ?? ??? ?? ?? ??? ?? ??? ????.

CUTLASS? ?? ??? Blackwell ?? ??
CUTLASS? 2017? ? ?? ??, NVIDIA GPU?? ??? CUDA ??? ???? ??? ? ????? ??? ??? ?????. ????? NVIDIA ?? ??? ???? ?? GEMM(General Matrix Multiply) ? ????? ?? ??? ?? ??? ??? ? ?? ???? ??? ??????, FlashAttention? ?? ???? ?? ??? ???? ??? ??? GPU ?? ???? ???? ????????.
CUTLASS 3.8 ???? ?? NVIDIA Blackwell ????? ?? ??? ????, ????? ?? ??? ??? ??? ???? ??? ?? ??? ??? ? ??? ????. ???? ??? ?? ??? MX ??? NVIDIA ?? FP4? ????, ????? ?? ???? ?? ??? ?? ??? ?? ????? ???? ????? ???? ? ??? ?????. ?? 7? ?? ?? ???? ?? 98%? ??? ?? ??? ??? ? ??? ?????.

????? B200 ????? ???????. M=K=16384, N=17290.
CUTLASS? ???? GEMM(Grouped GEMM) ? ?? ?? GEMM(Mixed Input GEMM) ??? ?? ?? ?? ??? Blackwell? ?????. ???? GEMM? ?? Expert ??? ??? ???? ? ???? ??? ???? MoE(Mixture-of-Experts) ??? ????? ? ??? ???. ?? ?? GEMM? ?? ???? GPU ??? ??? ???? LLM(??? ?? ??)? GPU ??? ?? ??? ?? ? ?? ???? ??? ?????.
OpenAI Triton? Blackwell ??
OpenAI Triton ???? ?? ?? Blackwell? ????, ???? ????? Python ?? ????? ?? ?? Blackwell ???? ??? ??? ? ?? ?????. OpenAI Triton? ?? Blackwell ????? ?? ???? ??? ??? ? ???, ?? ??? ?? ???? ?? ??? ??? ??? ? ????. ??? ??? NVIDIA? OpenAI? ?? ??? NVIDIA Blackwell?? OpenAI Triton? AI ?? ? ????? ??? ??? ??????.
??
NVIDIA Blackwell ????? FP4 ?? ??? ?? 2?? ????? ??? 5?? NVLink ???? ??? NVLink ? ??? AI ??? ????? ?? ???? ???? ?????. NVIDIA? NVIDIA GTC 2025?? ?? ?? DeepSeek-R1 ?? ??? ??????. 8?? NVIDIA Blackwell GPU? ??? ?? NVIDIA DGX ???? ??? ??? 6,710? ???? DeepSeek-R1 ???? ???? ?? 250?? ?? ?? ?? ?? 30,000?? ??? ???? ??? ? ????.
??? ??????? ?? NVIDIA Blackwell? ????? ????? ???? AI ??? ??? ???? ?? ???? ?? ??? ?? ???? ? ??? ? ????. NVIDIA AI Inference ???? ?? ??? ???? ?? AI inference ?? ????? ?? ??? ?????.
??? ?
? ??? Matthew Nicely, Nick Comly, Gunjan Mehta, Rajeev Rao, Dave Michael, Yiheng Zhang, Brian Nguyen, Asfiya Baig, Akhil Goel, Paulius Micikevicius, June Yang, Alex Settle, Kai Xu, Zhiyu Cheng, Chenjie Luo? ??? ?? ??? ??? ?? ??? ????? ????.
?? ???
- GTC ??: TensorRT ?? ?????? Blackwell ?? ?????
- GTC ??: Blackwell?? ????? ?? ??? FP8 ? ?? ????
- GTC ??: cuDNN?? Blackwell?? ? ?? ?? ????
- NGC ????: Triton ?? ?? PB 2024? 10?(PB 24h2)
- SDK: Triton ?? ??
- SDK: ??? ??