2022? NVIDIA GTC ??? ???? CEO ?? ?? ??? NVIDIA Hopper GPU ???? ??? ??? NVIDIA H100 Tensor ?? GPU? ??????. ? ???? ??? H100 GPU? ??? ???? NVIDIA Hopper ???? GPU? ??? ??? ??? ?????.
NVIDIA H100 Tensor ?? GPU ??
NVIDIA H100 Tensor ?? GPU? ?? ??? NVIDIA A100 Tensor ?? GPU?? ??? AI ? HPC ??? ?? ??? ??? ??? 9?? ????? GPU???. H100? A100? ?? ?? ??? ???? AI ? HPC ????? ?? ??? ???? ???? ???? ???? ?? ???????.

???? ????? AI ? HPC ???? InfiniBand ?????? ??? H100? A100?? ?? 30?? ??? ?????. ??? NVLink ??? ??? ?????? ?? GPU ?? ?? ??? ?? ?? ?? ??? ???? ?? ?? ?? ???? ??? ????? ???? ???. ?? ?? ? ?? ?? ??? ???? ? ????? ?? ?? InfiniBand? ??? H100? ???? ?? ? ? ? ? ? ?????.

?? ?? ??? ??? ??? ?? ?? ???? ?? ????? ?? ? ????. ?A100 cluster: HDR IB network. H100 cluster: NDR IB network with NVLink Switch System where indicated. # GPUs: Climate Modeling 1K, LQCD 1K, Genomics 8, 3D-FFT 256, MT-NLG 32 (batch sizes: 4 for A100, 60 for H100 at 1 sec, 8 for A100 and 64 for H100 at 1.5 and 2sec), MRCNN 8 (batch 32),GPT-3 16B 512 (batch 256), DLRM 128 (batch 64K), GPT-3 16K (batch 512), MoE 8K (batch 512, one expert per GPU)?.
GTC Spring 2022?? ??? NVIDIA Grace Hopper ??? ??? ???????. NVIDIA Hopper H100 Tensor Core GPU? NVIDIA Grace Hopper ??? CPU+GPU ????? ?????. ????? ??? ?? ???? ?? ??? ??????, ??? ?? AI ? HPC?? 10? ? ?? ??? ?????.
NVIDIA Grace Hopper ???? Arm ????? ???? ???? ???? ??? ???? ?? ??? CPU ? ?? ????? ?????. H100? NVIDIA Grace CPU? ???? ??? NVIDIA ? ? ?????? ?? PCIe Gen5?? 7? ?? 900GB/s? ? ???? ?????. ? ???? ??? ??? ?? ?? ?? ??? ?? ?? 30? ?? ?? ???? ????? ??? ???? ???? ??????? ?? ?? 10? ?? ??? ?????.
NVIDIA H100 GPU ?? ?? ??
? ??? ???? ??????(SM)? ??? ???? ?? ???????. ??? ?? ??? ??? ????.
o??????? ??? 4?? Tensor ??? SM? ?? ??, ??? SM ?, H100? ? ?? ??? ??? ?? A100? ?? ? ? ??? ?? 6? ? ????. SM? ???? Tensor ??? ?? ??? 16?? ?? ??? ??? ???? ?? ??? ???? A100 SM? MMA(Matrix Multiply-Accumulate) ?? ??? 2?, ??? FP8 ??? ??? ???? A100 ??? 4?? ?????. Sparsity ??? ? ?? ?????? ???? ??? Sparsity? ???? ?? Tensor ?? ?? ??? ? ?? ????.
o??????? ??? DPX ???? ?? ????? ????? A100 GPU?? ?? 7?? ??????. ? ?? ??? ???? ??? ?? ???-??? ????? ??? ?? ??? ??? ??? ?? ??? ??? ?? ? ???? ????-?? ????? ????.
o SM? 2? ? ?? ??? ??? ??? SM ?, H100? ? ?? ???? ?? A100?? ? ?? ?? ??? 3? ? ?? IEEE FP64 ? FP32.
o??????? ??? ??? ?? ???? ??? ?? ?? SM? ?? ??? ???? ? ? ???, locality? ????? ???? ??? ? ?? ?????. ?? ??? ???, ??? ??, ??? ?? ???? ? ???? ????? ????? ?? ??? ? ?? ??? ???? CUDA ????? ??? ?????. ????? ???? ?? SM?? ??? ???? ?? ??? ??? ???? ???? ????? ?? ???? ???? ??? ? ????.
o??????? ?? ?? ???? ???? ?? SM ?? ??? ???? ??, ?? ? ???? ?? SM? SM ?? ???? ??? ?????.
o ??? ??? ?? ???? ??? ???? ?? ??? ?? ??? ???? ????? ??? ? ?? ??? Tensor ??? ???(TMA) ??? ?????. TMA? ?? ????? ??? ?? ?? ??? ??? ?????. ??? ??? ?? ? ???? ?? ??? ??? ???? ??? ????.
? ??? ????? ??? ????? ?? ???? ? ??? ?????? ??? ??? ?????? ??? NVIDIA Hopper Tensor ?? ??? ???? ?????. ? ????? ??? FP8? 16?? ?? ???? ????? ???? ???? ??? ? ????? FP8? 16?? ?? ??? ? ??? ???? ???? ?? ??? A100? ?? ?? ?? ???? ?? 9? ?? AI ????? ?? 30? ?? AI ?? ??? ?????.
? HBM3 ??? ?? ???? ?? ??? ??? ?? 2? ??? ???? ?????. H100 SXM5 GPU? HBM3 ???? ??? ?? ??? GPU? ?? ??? 3TB/s ??? ???? ?????.
? 50MB L2 ?? ????? ???? ???? ?? ?? ? ??? ??? ?? ??? ????? HBM3??? ??? ?????.
? 2?? MIG(Multi-Instance GPU) ??? A100?? GPU ????? ? 3? ? ?? ??? ??? 2?? ??? ??? ???? ?????. MIG ??? TEE? ?? ???? ??? ??? ??? ?????. ?? 7?? ?? GPU ????? ???? ? ?????? ?? NVDEC ? NVJPG ??? ????. ?? ? ?????? NVIDIA ??? ??? ?? ???? ?? ?? ??? ??? ?????.
? ??? ???? ??? ??? ??? ???? ???? ???? ? ????? ?????? ???? ??? ? MIG ???? ?? ??(VM)? ? ???? ?? ???? ?????. H100? ?? ??? ???? ???? ??? GPU? ???? PCIe ?? ?? ??? CPU? ???? ??? ? ?? ?? ??(TEE)? ?????.
???????? 4?? NVIDIA NVLink PCIe Gen 5? 7? ????? ???? ?? GPU IO? ?? ? ???? 900GB/s? ?? ?? NVLink ?? ?? ???? 50% ???? all-reduce ???? 3? ??????.
? 3?? NVSwitch ???? ?? ?? ? ??? ?? ???? ???? ???? ??, ???? ? ????? ???? ?? GPU? ?????. ?? ??? NVSwitch? ?? ?? GPU ??? ????? ?? 4?? NVLink ?? ??? 64? ?????. ? ??? ???? ?? ??? 7.2Tbits/s?? 13.6Tbits/s? ??????. ??? 3?? NVSwitch ??? ????? ? NVIDIA SHARP ???? ? ??? ???? ?? ??? ?? ???? ???? ?????.
???????? ??? NVLink ??? ??? ????? ??? 3?? NVSwitch ??? ??? ??? 2?? NVLink ???? ?? ?? ??? ??? ???? 2:1 ??? ??? ?? ??(fat tree) ?????? NVLink? ?? ?? 32?? ?? ?? 256?? GPU? ??? ? ????. ??? ??? ??? ?? 57.6TB/s? ???? ??? ? ??? ??? 1????? FP8 Sparsity AI ???? ??? ? ????.
? Gen 4 PCIe?? 64GB/s?? ? ???(? ???? 32GB/s)? ???? PCIe Gen 5? ? ???? 128GB/s(? ???? 64GB/s)???. H100? PCIe Gen 5? ?? ?? ??? x86 CPU ? SmartNIC ?? ??? ?? ??(DPU)? ?????? ? ????.
??? ???? ???? ?? ??? ????? ??? ????? GPU ?????? ????? ?? ?? ??? ??? ?? ???? ????.
NVIDIA H100 GPU ???? ?? ??
??? NVIDIA Hopper GPU ???? ??? NVIDIA H100 GPU? ???? ???? ??? ??? ????.
? ??? 4?? Tensor ??? ?? ???? AI ? HPC ???? ???? ? ?? ?? ??? ?????.
? H100? ??? ????? ??? ?? ?? 9? ?? AI ????? ?? 30? ?? AI? ??? ? ????. ?? ?? A100 ?? ?? ?? ??? ?? ??? ???????.
? ??? NVLink ???? ?????? ?? ?? ??? ??? ?? ?? 256?? GPU? GPU ? ??? ?????.
? ??? MIG? GPU? ??? ??? ??? ????? ???? ? ?? ????? ?? ??? ??(QoS)? ??????.
??? ??? ???? ??? ?? ?? ???????? ?? 3?? ?? ??? ??? ? ????.
NVIDIA H100? ??? ??? ??? GPU???. H100? ?? ?? ???? A100? ??? ?? ??? ??? ???? Tensor ??? ??? ??? ?? ??? ?????. ?? ?? ??????? ???? ? ??? ???? ?? ? ?? ??? ?????? ???? ??? ?? ??? ??? ??? ??? ?? ? ????.
??? Tensor ??? ???? ???? H100? ?? ??? ???? ???? ? ??? CUDA ???? ??? ?? ???? ?? CUDA ???? ??? ??? Tensor ??? ?? ??? ? ??? ???? ?? ?? ??? ??? ? ????.
H100? ??? ?? ?????? ??? ???? CUDA ??? ?? ?? ??? ???? ????. ????? ?? ??? ???? ??? ?? ???? ?? SM?? ???? ?? ???? ??? ??? ??? ???? ???. ?? ????? Tensor ??? ??? ? Tensor ??? ?? ??? ??? ?? ????? ???? ?????.
???? ?-? ???? ??? ?? ??? ??? ????? ???? ?????. ?? ?? ??? ???? ???? ???? ??? ???? ???? ????? ???? ???.
NVIDIA ??? ???? ??? ?? ???? ? ?? CUDA ???? ?-? ???? ??? SM? ?????? ????? ???? ? ????. ? ?? ??? ??? ??? ?? ???? ??????? ?? H100 GPU? ?? ??? ??? ??? ? ???? H100? ???? ?? ???? ????? ???? ?? ???? ?? NVIDIA GPU? ?????.
H100 GPU? ???? ?? GH100 GPU? 800? ?? ?????, 814mm2? ?? ?? ? ? ?? ??? ??? NVIDIA? ???? TSMC 4N ????? ???? ?????.
NVIDIA GH100 GPU? ?? GPU ?? ????(GPC), ??? ?? ????(TPC), ???? ??????(SM), L2 ??, HBM3 ??? ????? ?????.
GH100 GPU? ??? ???? ?? ??? ?????.
? 8?? GPC, 72?? TPC(GPC? TPC 9?), TPC? 2?? SM, ?? GPU? 144?? SM
? SM? 128?? FP32 CUDA ??, ?? GPU? 18432?? FP32 CUDA ??
? SM? 4?? 4?? Tensor ??, ?? GPU? 576?
? HBM3 ?? HBM2e ?? 6?, 512?? ??? ???? 12?
? 60MB L2 ??
? 4?? NVLink ? PCIe Gen 5
SXM5 ?? ? ??? ??? NVIDIA H100 GPU?? ?? ??? ?????.
? 8?? GPC, 66?? TPC, TPC? 2?? SM, GPU? 132?? SM
? SM? 128?? FP32 CUDA ??, ?? GPU? 16896?? FP32 CUDA ??
? SM? 4?? 4?? Tensor ??, GPU? 528?
? 80GB HBM3, HBM2e ?? 5?, 512?? ??? ???? 10?
? 50MB L2 ??
? 4?? NVLink ? PCIe Gen 5
PCIe Gen 5 ?? ? ??? ??? NVIDIA H100 GPU?? ?? ??? ?????.
? 7? ?? 8?? GPC, 57?? TPC, TPC? 2?? SM, GPU? 114?? SM
? SM? 128?? FP32 CUDA ??, ?? GPU? 14592?? FP32 CUDA ??
? SM? 4?? 4?? Tensor ??, GPU? 456?
? 80GB HBM2e, HBM2e ?? 5?, 512?? ??? ???? 10?
? 50MB L2 ??
? 4?? NVLink ? PCIe Gen 5
TSMC 4N ?? ????? ???? TSMC 7nm N7 ????? ??? ?? ??? GA100 GPU?? H100 GPU ?? ???? ??? ??? ??? ???? ? ?? GPC, TPC, SM? ??? ? ????.
?? 3? 144?? SM? ?? GH100 GPU ?? ??? ?????. H100 SXM5 GPU?? 132?? SM? ??? PCIe ??? 114?? SM? ????. H100 GPU? ?? AI, HPC, ??? ??? ?? ????? ? ?? ??? ????? ????? ?????? ??? ??? ?? ????. SXM5 ? PCIe H100 GPU ???? ? 2?? TPC?? ??? ??(??, ?????, ?? ??? ?? ??)? ?????.

H100 SM ????
NVIDIA A100 Tensor ?? GPU SM ????? ???? ??? H100 SM? FP8? ???? SM? A100? ?? ?? ??? ?? ??? 4?, ??? ?? Tensor ??, FP32 ? FP64 ??? ??, ???? A100? ?? SM ??? ??? ? ?? ?????.
NVIDIA Hopper FP8 Tensor ??? ??? ??? ????? ??? ?? ?? A100? ?? ?? ?? ???? AI ?? ??? 30?, AI ????? ?? 9? ? ?????. ??? NVIDIA Hopper DPX ???? ???? ? ??? ???? ??? ?? ???-??? ????? ?? 7? ??? ??? ? ????.
??? NVIDIA Hopper 4?? Tensor ??, Tensor ??? ??? ? ?? ???? ??? SM ? ???? H100 ???? ?? ???? ???? ???? ?? 3? ?? HPC ? AI ??? ?????.
NVIDIA H100 SXM51 | NVIDIA H100 PCIe1 | |
?? FP641 | 30TFLOPS | 24TFLOPS |
?? FP64 Tensor ??1 | 60TFLOPS | 48TFLOPS |
?? FP321 | 60TFLOPS | 48TFLOPS |
?? FP161 | 120TFLOPS | 96TFLOPS |
?? BF161 | 120TFLOPS | 96TFLOPS |
?? TF32 Tensor ??1 | 500TFLOPS | 1000TFLOPS2 | 400TFLOPS | 800TFLOPS2 |
?? FP16 Tensor ??1 | 1000TFLOPS | 2000TFLOPS2 | 800TFLOPS | 1600TFLOPS2 |
?? BF16 Tensor ??1 | 1000TFLOPS | 2000TFLOPS2 | 800TFLOPS | 1600TFLOPS2 |
?? FP8 Tensor ??1 | 2000TFLOPS | 4000TFLOPS2 | 1600TFLOPS | 3200TFLOPS2 |
?? INT8 Tensor ??1 | 2000TOPS | 4000TOPS2 | 1600TOPS | 3200TOPS2 |
1. H100? ?? ?? ???? ??? ??? ??? ???? ?? ??? ????? ?? ? ????.
2.????? Sparsity ??? ??? ???? TFLOPS ? TOPS???.

H100 SM ?? ?? ??
? 4?? Tensor ??
o SM? ?? ??, ??? SM ?, H100? ? ?? ??? ??? ?? A100? ?? ? ? ??? ?? 6? ? ????.
o SM? ???? Tensor ??? ?? ??? 16?? ?? ??? ??? ???? ?? ??? ???? A100 SM? MMA(Matrix Multiply-Accumulate) ?? ??? 2?, ??? FP8 ??? ??? ???? A100 ??? 4?? ?????.
o???????Sparsity ??? ? ?? ?????? ???? ??? Sparsity? ???? ?? Tensor ?? ?? ??? ? ?? ????.
? ??? DPX ???? ?? ????? ????? A100 GPU?? ?? 7?? ??????. ? ?? ??? ???? ??? ?? ???-??? ????? ??? ?? ?? ??? ??? ??? ?? ??? ??? ?? ? ???? ????-?? ????? ????.
? SM? 2? ? ?? ??? ??? ??? SM ?, H100? ? ?? ???? ?? A100?? ? ?? ?? ??? 3? ? ?? IEEE FP64 ? FP32.
? A100?? 1.33? ? ?? 256KB? ?? ?? ???? L1 ??? ??.
? ??? ??? ?? ???? ??? ???? ?? ??? ?? ??? ???? ????? ??? ? ?? ??? Tensor ??? ???(TMA) ??? ?????. TMA? ?? ????? ??? ?? ?? ??? ??? ?????. ??? ??? ?? ? ???? ?? ??? ??? ???? ??? ????.
? ??? ??? ?? ???? ??? ?? ?? SM?? ???? ??? ? ????.
? ?? ?? ???? ?? SM ?? ??? ???? ??, ?? ? ???? ?? SM? SM ?? ???? ??? ???? ???.
H100 Tensor ?? ????
Tensor ??? AI ? HPC ??????? ???? ??? ???? ?? ?? ? ??(MMA) ?? ??? ???? ??? ??? ?????. NVIDIA GPU ? ??? SM ?? ??? ???? Tensor ??? ?? ?? ???(FP), ??(INT), ?? ?? ??(FMA) ??? ?? ???? ???? ?? ??????.
Tensor ??? NVIDIA V100 GPU? ?? ????? ??? NVIDIA GPU ???? ???? ?? ???????.
H100? ??? 4?? Tensor ?? ????? ??? ?? ??? ? Sparsity? ?? ?? ????? A100? ?? SM? 2? ? ??? GPU ??? ?? ?? A100?? H100? ? ??? ?? ??? ? ???? ? ?????. ???? ??? ??? FP8, FP16, BF16, TF32, FP64, INT8 MMA???. ?? ??? Tensor ??? ? ???? ??? ?? ??? ??? ??? ???? ?? ??? ?? 30% ??? ? ????.

NVIDIA Hopper FP8 ??? ??
H100 GPU? FP8 Tensor ??? ???? AI ????? ??? ?? ??????. ?? 6?? ??? FP8 Tensor ??? FP32 ? FP16 ???? ??? ??? FP8 ?? ?? ? ??? ?????.
? E4M3(?? 4??, ?? 3??)? 1?? ?? ??
? E5M2(?? 5??, ?? 2??)? 1?? ?? ??
E4M3? ?? ?? ??? ?? ???? ???? ?? E5M2? ?? ?? ??? ?? ???? ????. FP8? FP16 ?? BF16? ?? ??? ???? ?? ??? ???? ??? ???? ? ?? ????.
? ???? ???? ??? ??? ????? ??? FP8 ? FP16 ???? ?? ???? ??? ???? ??? ??? ????? ?? ?? ??? ??? ?? ??? ???? ?????.



? 2? ?? ??? ??? ?? A100?? ??? H100 ??? ?????.
(TFLOPS ?? ??) | A100 | A100 Sparsity | H100 SXM51 | H100 SXM51 Sparsity | H100 SXM51 ?? ??(A100 ??) |
FP8 Tensor ?? | 2000 | 4000 | 6.4?(A100 FP16 ??) | ||
FP16 | 78 | 120 | 1.5? | ||
FP16 Tensor ?? | 312 | 624 | 1000 | 2000 | 3.2? |
BF16 Tensor ?? | 312 | 624 | 1000 | 2000 | 3.2? |
FP32 | 19.5 | 60 | 3.1? | ||
TF32 Tensor ?? | 156 | 312 | 500 | 1000 | 3.2? |
FP64 | 9.7 | 30 | 3.1? | ||
FP64 Tensor ?? | 19.5 | 60 | 3.1? | ||
INT8 Tensor ?? | 624TOPS | 1248TOPS | 2000 | 4000 | 3.2? |
?? ?? ??? ????? ?? ????? ?? ? ????.
??? ?? ?????? ?? ??? DPX ???
??? ?? ??? ????? ???? ? ? ??? ??? ? ?? ?? ???? ?? ? ?????? ??? ????. ?? ?????(DP)? ??? ?? ??? ? ??? ?? ??? ????? ???? ???? ?????. ?? ??? ?? ?? ?? ??? ??? ?????? DP ????? ?? ??? ?????? ?? ???? ?? ??? ????.
DP? ????? ???? ???, ??? ?? ? ???? ????? ?????.
? ??? ???? ??? ?? ???? ??? ?? ???-??? DP ????? ?? ??? ?? ? ?????.
? ???? ???? ????-?? ????? ??? ?? ?? ??? ??? ??? ?? ??? ??? ??? ?? ? ???? ?? ???????.
H100? DPX ???? ???? NVIDIA Ampere GPU ?? DP ???? ??? ?? 7??? ??????. ? ??? ???? ?? DP ????? ?? ??? ?? ?? ?? ????? ?????. ?? ?? ?? ??, ?? ??? ???? ??? ??? ???? ????? ??? ????? ??? ? ????.

H100 ??? ?? ??
????? H100? H100? ?? ??? ??? ?? ??? ??? ? A100?? ? 6? ??? ??? ??? ?????. ?? 10? H100? ?? ??? ????? ??? ????.
? A100? SM 108??? 22% ??? 132?? SM
? ??? 4?? Tensor ?? ??? ??? H100 SM ??? 2? ? ????.
? ? Tensor ?? ??? ??? FP8 ?? ? ?? ????? ??? ? ?? 2? ??? ??????.
? ?? H100? ?? ??? ??? ??? ? 1.3? ???????.
????? ??? ?? ??? ?? H100? ?? ??? ???? A100?? 6? ????? ?? ? ???? ???? ?? ?? ??? ????? ?? ? ?????.

?? 10. H100 ??? ?? ?? ??
H100? ? ???? ???? ?? ?? ??? ????? ?? 6? ??? ???? ?????.
H100 GPU ?? ?? ? ??? ?? ??
?? ?????? ???? ???? ?? ???? ? ?? ??? ??? ???? ??? ?????. ????? ???? ???? ???? ?? ??? ??? ??? ???? ?? ???? ????? ?? ??? ???? ? ?? ???? ??? ? ????. ??? ???? ??? ?? ? ?? ??? ??? ? ?? ???? ??? ?? ?? ?????. ??? GPU? ?? ??? ??? ???? ????.
?? ????? ?? SM?? ?? ??? ???? ? ??? ???? ???? NVIDIA Hopper? GPU ????? ?? ??? ??? ??? ??? ??? ?????. ?? ??? ???? ??? ????? ??? ??? ??? ?? ??? ???? ?????.
??? ?? ????
CUDA ????? ??? ?? ??? ??? ???? ???? ???? ????? ???? ???? GPU ??? ????? ???? ??? ????. ??? ???? ?? SM?? ??? ???? ?? ???? ???? ??? ? ???? ???? ?? ??? ????? SM? ?? ???? ???? ???? ??? ? ????. ??? GPU? SM? 100? ???? ???? ??? ????? ? ?????? ????? ???? ???? ??? ??? ??? ??? ??? ?? ???? ?????? ???? ????.
H100? ?? SM? ?? ??? ???? ? ???? ???? ???? ??? ??? ?? ???? ????? ??????. ??? ?? ????? ???, ??? ??, ??? ?? ????, ???? ????? GPU? ??? ????? ?? ??? ? ?? ??? ???? CUDA ????? ??? ??????.
????? SM ??? ?? ??? ???? ??? ?? ???? ?? SM?? ???? ???? ??? ???? ?? ?? ?????. H100? ????? GPC ? SM?? ??? ?????.
GPC? ?? ????? ???? ?? ?? ???? ?? ??? SM ?????. ?????? ???? ??? ??? ?? ???? ??? ??? ??? ??? ?? ??? ????. GPC? SM? SM ?? ?? ????? ????? ??? ???? ??? ???? ?????.
CUDA?? ???? ??? ??? ?? 11?? ? ? ??? ?? ?? ? ????? ?? ???? ? ??? ???? ??? CUDA cooperative_groups API?? ??? ? ????.

?? 11. ??? ?? ????? ????? ?? ???
???? ?????? ??? ??? A100???? ??? CUDA ????? ??? ??? ???? ?????. NVIDIA Hopper ????? ?????? ???? ??? ???? ?? ?? ??? ?????.
?? ?? ???
????? ???? ?? ???? ??, ??, ??? ??? ?? ?? SM? ?? ???? ?? ???? ? ????. ? ??? ?? ??? ?? ?? ??? ????? ?? ??? ????? ????? ?? ?? ???(DSMEM)??? ???.
DSMEM? ???? ? ?? ??? ????? ???? ???? ?? ??? ?? ??? SM ?? ? ???? ??? ??? ?????. ???? ?? SM? SM ?? ????? ?? DSMEM? ?? ??? ?? ?? ?? ???? ?????. DSMEM? ??? ???? ??? ?? ??? ??? ?? ? ??? ??? ? 7? ??????.

?? 12. ??? ??? ??? ?? ?? ??? ??(A100? ????? ?? H100 ??)
CUDA ???? ????? ??? ?? ??? ??? ?? DSMEM ????? ? ???? ?? ?? ??? ???? ?? DSMEM? ??? ???? ?? ??? ? ????. CUDA ???? cooperative_groups API? ???? ????? ?? ??? ??? ?? ?? ???? ??? ? ????. ?? DSMEM ??? ?? ??? ?? ?? ??? ?? ??? ???? ??? ?? ???? ??? ?? ????.
?? 13? ?? ?????? ????? ??? ?? ?? ??? ?????. ????? ?? SM?? GPU? ? ?? ??? ?? ??? ? ??? ?? ??? ?????. ????? ? ?? ?? ???? ?? ??? ???? ?? ?? ??? ???? ??? ??? ? ? ?? ??? ?? ???? ? ????.

H100? ?? ?? ???? ??? ??? ??? ???? ?? ?? ????? ?? ? ????.
??? ??
??? NVIDIA GPU?? ??, ????? ??, ?? ???, GPU ???, ?? ?? ??? ???? ?? ??? ???? ?? ??? ???? ????. ?? NVIDIA GPU ???? ??? ??, ???, ???? ? ?? ????? ?? ?? ??? ?? ??? ???? ????.
NVIDIA Hopper ????? ??? ??? ???????? ??? ??? ???? ??? ? ?? ?? ??? ??? ???? ? ?? ??? ? ??? ?? ??? ??? ?????. Tensor ??? ???(TMA)?? ?? ??? ??? ??? ?? ??? ??? ??? ???? ??? ?????.

??? ??, ??, ???? ????? ???? ?????. ??? ???? ??? ?? ???? ??? ?????.
Tensor ??? ???
???? ??? H100 Tensor ??? ??? ?? ?? ??? Tensor ??? ???(TMA)? ??? ???? ???? ???????. ? TMA? ??? ??? ??? ??? Tensor? ??? ????? ?? ???? ?? ??? ? ????.
TMA ??? ??? ?? ?? ?? Tensor ?? ? ?? ??? ???? ??? ??? ???? ????? ??? ???? ?????(?? 15). ??? ??? ??? ?? ?? ??? ???? ???? ??? ????? ?? ???? ????? ?? ????? ??? ???? ?? ??? ? ????. TMA? ??? ?? ????(1D ~ 5D Tensor), ?? ?? ??? ??? ??, ?? ? ?? ??? ???? ?? ?? ????? ?? ??? ???? ?????.

TMA ??? ?????? A100? ????? ?? ??? ?? ??? ??? ?????. ?? TMA ????? ??? ?? ????? ??? TMA ??(cuda:memcpy_async)? ???? Tensor? ????? ??? ?? ???? ?????. ? ?? ?? ???? cuda:???? ??? ??? ????? ??? ? ????. ??? ??? ?? ?? ??? ????? ????? H100 SM? ???? ??? ?? ??? ? ????.
TMA? ?? ??? ???? ???? ?? ?? ???? ??? ??? ? ??? ????. A100(?? 16? ??)?? ??? ??? ??? ?? LoadGlobalStoreShared ???? ???? ??????? ???? ?? ??? ???? ?? ?? ??? ?? ??? ??????.
NVIDIA Hopper??? TMA? ?? ?? ?????. ?? ???? TMA? ???? ?? ????? ??? ???? ???? ?? ??? ??? ??? ?????? ?????. TMA? Tensor? ????? ??? ? ?????, ???, ?? ??? ????? ??? ???? ??? ?? ??? ????? ??? ?????.

?? 16. A100? LDGSTS? ??? ??? ??? ??? H100? TMA? ??? ??? ??? ??
??? ???? ??
??? ??? ?? NVIDIA Ampere ????? ???????(?? 17? ??). ??? ??? ?? ???? ?? ???? ???? ???? ?? ??? ???. ??? ??? ??? ????? ? ??? ?????.
? ?? ???? ?? ???? ?? ??? ???? ?? ??? ?????. ? ?? ??? ???? ?? ???? ??? ???? ??? ? ???, ???? ????.
? ?? ???? ?? ?? ????? ??? ???? ??? ???. ? ? ?? ???? ????? ?? ??? ???? ?????.
??? ??? ??? ?? ??? ???? ?? ?? ?? ???? ??? ??? ? ????. ? ??? ?? ??? ?????. ?? ???? ?? ?? ??? ????? ?? ???? ?? ????? ??? ?? ???? ?? ??? ? ?? ??? ??? ????? ???????.
NVIDIA Hopper? ??? ??? ?? ?? ???? ??? ??? ???? ????? ?????. ?? ???? ?? ???? ?? ???? ?? ???? ?? ?????.
??? ??? ??? NVIDIA Hopper ????? ??? ????? ????? ??? ???? ????? ??? ??? ??? ??????. ??? ???? ??? ??? ??? ?????(?? 17? ???). ? ?? ?? ????? ??? ??? ????? ??? ????? ?????.
NVIDIA Hopper?? ??? ???? ???? ?? ?? ???? ?? ??? ?? ?? ??? ???? ???? ????. ???? ?? ????? ??? ????. ??? ???? ??? ?? ??? ???? ???? ?? ???? ?? ?? ?? ?? ??? ??? ?? ???? ???? ?????.
??? ???? ??? ??? ??? ?? ?? ??? ??? ?? ???? ??? ?? ?????. ?? ????? ????? ??? ???? ?? ??? ??? ?? ??? ?? ? ??? ? ? ??? ?? ???? ??? ??? ???? ?? ?? ?????.

H100 HBM ? L2 ?? ??? ????
GPU? ??? ????? ?? ??? ??? ?????? ??? ?? ???? GPU ??, ??, ?? ???, ????? ??? ??? ????. ??? DRAM(??? ??) ?? ???? ??? ??? ??? ?? ? ??? ?-? ????? SM?? ??? ???? ???? ??? ????? ?? ??? ?? ???? GPU? ?????.
H100 HBM3 ? HBM2e DRAM ?? ???
HPC, AI ? ??? ?? ??? ??? ??? ?? ???? ??? ??? ?? ? ????? ?? ? ? GPU ??? ??? ???? ??? ?????.
? NVIDIA P100? ???? HBM2 ??? ??? ???? ?? ??? GPU ???????.
? NVIDIA V100? ?? ? ??? ????? ? ?? ??? HBM2? ??????.
? NVIDIA A100 GPU? HBM2? ??? ??? ?? ???????.
H100 SXM5 GPU? 80GB(5?? ??)? ?? HBM3 ???? ???? 3TB/s ??? ??? ???? ???? ? ??? ?? ?? ???? ?? 2? ?? ??? A100? ??? ????? ??? 2? ? ??????. PCIe H100? 2TB/s ??? ??? ???? 80GB? ?? HBM2e? ?????.

??? ??? ??? ?? ???? ???? ?? ??? ?? ? ????.
H100 L2 ??
H100? A100 40MB L2 ???? 1.25? ??? 50MB L2 ??? ?????. ??? L2 ??? ?? ? ??? ??? ? ? ??? ???? ???? ???? ???? ?? HBM3 ?? HBM2e DRAM??? ??? ???? ?? ?? ?????.
??? ???? ??? ???? L2 ??? ???? ?? ??? GPC?? SM?? ??? ???? ?? ???? ????? ?????. L2 ?? ?? ??? ?? ??? ????? ??? ?? ??? ???? ?? ???? ????? ??? ? ??? ?????.
HBM3 ?? HBM2e DRAM, L2 ?? ?? ???? ?? ??? ?? ? ?? ?? ??? ???? ???? ??? ???, ??? ?? ??????.
GPU ?? | NVIDIA A100 | NVIDIA H100 SXM51 | NVIDIA H100 PCIe1 |
GPU ???? | NVIDIA Ampere | NVIDIA Hopper | NVIDIA Hopper |
GPU ?? ? ?? | SXM4 | SXM5 | PCIe Gen 5 |
SM | 108 | 132 | 114 |
TPC | 54 | 66 | 57 |
SM? FP32 ?? ? | 64 | 128 | 128 |
GPU? FP32 ?? ? | 6912 | 16896 | 14592 |
SM? FP64 ?? ?(Tensor ??) | 32 | 64 | 64 |
CPU? FP64 ?? ?(Tensor ??) | 3456 | 8448 | 7296 |
SM? INT32 ?? ? | 64 | 64 | 64 |
GPU? INT32 ?? ? | 6912 | 8448 | 7296 |
SM? Tensor ?? ? | 4 | 4 | 4 |
GPU? Tensor ?? ? | 432 | 528 | 456 |
GPU ??? ?? (H100? ?? ?? ???? ??)3 | 1410MHz | ?? ???? ?? | ?? ???? ?? |
?? FP8 Tensor TFLOPS(FP16 ?? ??)1 | ?? ?? | 2000/40002 | 1600/32002 |
?? FP8 Tensor TFLOPS(FP32 ?? ??)1 | ?? ?? | 2000/40002 | 1600/32002 |
?? FP16 Tensor TFLOPS(FP16 ?? ??)1 | 312/6242 | 1000/20002 | 800/16002 |
?? FP16 Tensor TFLOPS(FP32 ?? ??)1 | 312/6242 | 1000/20002 | 800/16002 |
?? BF16 Tensor TFLOPS(FP32 ?? ??)1 | 312/6242 | 1000/20002 | 800/16002 |
?? TF32 Tensor TFLOPS1 | 156/3122 | 500/10002 | 400/8002 |
?? FP64 Tensor TFLOPS1 | 19.5 | 60 | 48 |
?? INT8 Tensor TOPS1 | 624/12482 | 2000/40002 | 1600/32002 |
?? FP16 TFLOPS(Tensor ?)1 | 78 | 120 | 96 |
?? BP16 TFLOPS(Tensor ?)1 | 39 | 120 | 96 |
?? FP32 TFLOPS(Tensor ?)1 | 19.5 | 60 | 48 |
?? FP64 TFLOPS(Tensor ?)1 | 9.7 | 30 | 24 |
?? INT32 TOPS1 | 19.5 | 30 | 24 |
??? ?? | 432 | 528 | 456 |
??? ????? | 5120?? HBM2 | 5120?? HBM3 | 5120?? HBM2e |
??? ?? | 40GB | 80GB | 80GB |
??? ??? ?? (H100? ?? ?? ???? ??) 1 | 1215MHz DDR | ?? ???? ?? | ?? ???? ?? |
??? ???1 | 1555GB/sec | 3000GB/sec | 2000GB/sec |
L2 ?? ?? | 40MB | 50MB | 50MB |
SM? ?? ??? ?? | ?? 164KB ?? ?? | ?? 228KB ?? ?? | ?? 228KB ?? ?? |
SM? ???? ?? ?? | 256KB | 256KB | 256KB |
GPU? ???? ?? ?? | 27648KB | 33792KB | 29184KB |
TDP1 | 400W | 700W | 350W |
????? | 542? ? | 800? ? | 800? ? |
GPU ?? ?? | 826mm2 | 814mm2 | 814mm2 |
TSMC ?? ???? | 7nm N7 | NVIDIA? ???? 4N | NVIDIA? ???? 4N |
1. H100? ?? ??? ??? ??? ??? ???? ?? ??? ????? ?? ? ????.
2.????? Sparsity ??? ??? ???? TFLOPS ? TOPS???.
3. NVIDIA ????? GPU? ?? GPU ?? ??? GPU ??? ??? ?? ?? ????.
H100 ? A100 Tensor ?? GPU? AI ? HPC ??? ????? ??? ???? ??? ?? ? ????? ?? ????? ????? ??? ????? ???, ?? ???? ???? ?? NVIDIA RT ?? ?? NVENC ???? ???? ?? ????.
??? ??
H100 GPU? ??? ??? ?? 9.0? ?????. ? 4? NVIDIA GPU ????? ?? ??? ??? ??? ????? ?????.
????? GPU | NVIDIA V100 | NVIDIA A100 | NVIDIA H100 |
GPU ???? | NVIDIA Volta | NVIDIA Ampere | NVIDIA Hopper |
??? ?? | 7.0 | 8.0 | 9.0 |
??? ??? | 32 | 32 | 32 |
SM? ?? ?? | 64 | 64 | 64 |
SM? ?? ??? | 2048 | 2048 | 2048 |
SM? ?? ??? ??(CTA) | 32 | 32 | 32 |
??? ?? ????? ?? ??? ?? | ?? ?? | ?? ?? | 16 |
SM? ?? 32?? ???? | 65536 | 65536 | 65536 |
??? ??(CTA)? ?? ???? | 65536 | 65536 | 65536 |
???? ?? ???? | 255 | 255 | 255 |
?? ??? ?? ??(??? ?) | 1024 | 1024 | 1024 |
SM? FP32 ?? ? | 64 | 64 | 128 |
FP32 ??? ?? SM ????? ?? | 1024 | 1024 | 512 |
SM? ?? ??? ?? | ?? 96KB ?? ?? | ?? 164KB ?? ?? | ?? 228KB ?? ?? |
????? ??
????? ??? BERT?? GPT-3? ????? ??? ?? ???? ?? ??? ???? ??? ??? ???? ??? ???. ???? ??? ??(NLP)??? ??? ?????? ??? ??, ?? ?? ?? ?? ??? ???? ?? ? ?? ???? ????.
? ?? ?? ??????? ?? ???? ??? ?? ?? ????? ???? ???? ??? ???? ??????. ?? ??? ??? ?? ???? ?? ?????? ??? ?????? ????? ????. ?? ?? Megatron Turing NLG(MT-NLG)?? ????? ?? 2048?? NVIDIA A100 GPU? 8? ?? ????? ???. ????? ????? ??? ?? 5? ?? 2??? 275?? ?? ???? AI ???? ?? ??? ???? ????(?? 19).

H100?? ?????? ??? NVIDIA Hopper Tensor ?? ??? ???? ?????? AI ??? ?? ????? ??? ????? ??? ???? ????.

?? ???? ??? ???? ????? ???? ???? ?????? ? ?? ?? ?? ??? ??? ?? ????. ????? ??? ? ????? ????? ??? Tensor ???? ??? ?? ?? ??? ?????.
??? ?? ??? ??? ??? ?? ??? ???? ???? ?? ??? ???? ????? ??? Tensor? ???? ???? ?? ?? ?? ???? ??? ???? ?????. FP8? ?? ?? ???? ??? ???? ????.
?? ??? ??? ???? ???? ?? ????? ??? Tensor ???? ??? ?? ??? ???? Tensor ???? ?? ??? ??? ?? ???? ?????. ??? ?? ???? ??? ??? ??? ???? ??? ???? ??????.
4?? NVLink ? NVLink ????
?? ?? ??? AI? ?? ??? ?? ?? ???? ?? ????? HPC ? ? ?? ?? ??? AI ??? ???????? ?????? ? ? ??? ????. ??? ???? ??? ? ???? ??? ???? ????? ? ???? ????? ?? ????? ?? GPU ?? ??? ?? ??? ?????. PCIe? ??? ????? ?? ??? ?????. ?? ??? ?? ? ?? ??? ???? ????? ??? ???? ?? ??? NVLink ?? ??? ?????.
NVLink? ???? ???? ??? ???? ?? ?? ?? ?? ? ?? ?? ????? ?? ?? ??? ???? NVIDIA ????, ??? ??, ???, ??? GPU? GPU ?? ????????. H100 GPU? ??? ??? 4?? NVLink? NVIDIA A100 Tensor ?? GPU? ??? ?? 3?? NVLink ?? 1.5? ??? ?? ???? ?????.
?? GPU I/O ? ?? ??? ???? ?? ? 900GB/s? ????? ???? ??? NVLink? PCIe Gen 5 ????? 7? ???????. A100 GPU? 3?? NVLink? ? ???? 4?? ?? ?(??)? ???? ? ???? 25GB/s? ??? ???? ?? ?? ??? ?????. ????? 4?? NVLink? ? ???? ? ? ?? ?? ?? ?? ???? ? ???? 25GB/s? ??? ???? ?? ?? ??? ?????.
? H100?? 18?? 4?? NVLink ??? ???? ?? ? 900GB/s ???? ?????.
? AH100?? 12?? 3?? NVLink ??? ???? ?? ? 600GB/s ???? ?????.
H100? 4?? NVLink ??? ?? ??? ???? ?? 256?? GPU? GPU ? ??? ???? ?? ??? ??? NVLink ??? NVLink ???? ?????? ??????.
?? GPU? ?? ?? ??? ???? ??? ???? GPU? ??? ??? ???? ?? ????? ?? NVLink? ?? NVLink ????? ??? ???? ?? ??? ?????. H100? ??? ?? ?? ?????? ???? ?? GPU ?? ??? ?? ???? ???? ?? ????? ?????. ?? ?? NVLink ????? ? ?? GPU? ???? ??? ? ????.
NVLink ???? ?????? ?? ??? ?? ??? ???? ???? NVLink ???? ??? ?? ????? ???? ????? ????. ??, InfiniBand? ?? ?? ???? ?????? ???? ??? ?????? ??? ?? ????? ? ??? ????? ???? ???.
3?? NVSwitch
??? 3?? NVSwitch ???? ?? ?? ? ??? ?? ???? ???? ???? ??, ???? ? ????? ???? ?? GPU? ?????. ?? ??? ??? NVSwitch? ?? ?? GPU ??? ????? ?? 4?? NVLink ?? ??? 64? ?????. ? ??? ???? ?? ??? 7.2Tbits/s?? 13.6Tbits/s? ??????.
?? ??? 3?? NVSwitch? ????? ? NVIDIA SHARP ???? ? ??? ???? ?? ??? ???? ???? ?????. ???? collective????? write broadcast(all_gather), reduce_scatter, broadcast atomics ??? ?????. ????? ????? ? ??? ???? A100?? NVIDIA Collective Communications Library(NCCL)? ???? ??? ?? ?? ??? ???? ?? ?? ??? ?? ????? ???? ?? 2? ?????. ???? NVSwitch ???? ?? ??? ?? SM? ??? ?? ?????.
??? NVLink ??? ???
NVIDIA? ??? NVLINK ???? ??? ??? 3?? NVSwitch? ???? ?? ?? ??? ?? ???? ?? ??? NVLink ??? ??? ????? ???? ????. ? GPU ??? ??? ?? GPU? ?? ?? NVLink ???? 2:1 ??? ??? ?????. ??? ??? ?? ??? ???? ?? ??? ???? NVLink ??? ??? ??? ? ?? ??? NVSwitch? ?? ?? ?????.
NVLink ??? ???? ?? 256?? GPU? ?????. ??? ??? ?? 57.6TB? ???? ??? ? ??? ??? 1????? FP8 Sparsity AI ???? ??? ? ????.
?? 21? A100? H100 ??? 32??, 256?? GPU DGX SuperPOD? ??? ????. H100 ??? SuperPOD? ????? ??? NVLink ???? ???? DGX ??? ?? ?????.

DGX H100 SuperPOD? 3?? NVSwitch ??? ???? ?? ??? NVLink ???? ???? NVLink ??? ???? ?? ??? ???? ?? 256?? GPU? ?? ?? ? ????.
2:1 ??? ?? ?? ??????? NVLink ???? ?????? ?? ??? ?? ?? ??? ???? 9?? ????? ?? ?? InfiniBand ??? ?? ?? ?? ???? 4.5? ??????. DGX H100 SuperPOD?? NVLINK ??? ???? ???? ??? ? ????.
PCIe Gen 5
H100? PCI Express Gen 5 16?? ?????? ???? A100? ????? Gen 4 PCIe?? 64GB/s?? ? ???(? ???? 32GB/s)? ???? ? ???? 128GB/s(? ???? 64GB/s)? ?????.
H100? PCIe Gen 5 ?????? ???? ?? ??? x86 CPU, SmartNIC, ??? ?? ??(DPU)? ?????? ? ????. H100? ??? HPC ? AI ????? ?? 400Gb/s ??? ?? NDR(Next Data Rate) 400Gb/s InfiniBand ???? ???? ???? NVIDIA BlueField-3 DPU?? ??? ??? ?? ???????.
H100? 32?? ? 64?? ??? ??? ?? ??? CAS, ??? ?? ? ??? ????? ?? ?? PCIe ??? ??? ?? ??? ???? CPU? GPU ?? ??? ? ??? ??? ??????. H100? ?? ?? ???? ?? VM? ?? ?? PCIe? ??? GPU? ?? ? ???? ? ?? ?? ?? IO ???(SR-IOV)? ?????. H100? ???? ?? SR-IOV PCIe? ??? GPU? ?? ??(VF) ?? ??? ??(PF)? NVLink ?? ?? GPU? ???? ? ????.
??
?????? ??? ????? ?? ??? ??? H100 ??? ?? ??? ??? NVIDIA H100 Tensor ?? GPU ???? ??? ??????.
?? ?? ??
? ???? ??? ?? Stephen Jones, Manindra Parhy, Atul Kalambur, Harry Petty, Joe DeLaere, Jack Choquette, Mark Hummel, Naveen Cherukuri, Brandon Bell, Jonah Alben, ??? ?? ?? NVIDIA GPU ??? ? ?????? ??????.