• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • Reading Time: 21 minutes

    2022? NVIDIA GTC ??? ???? CEO ?? ?? ??? NVIDIA Hopper GPU ???? ??? ??? NVIDIA H100 Tensor ?? GPU? ??????. ? ???? ??? H100 GPU? ??? ???? NVIDIA Hopper ???? GPU? ??? ??? ??? ?????.

    NVIDIA H100 Tensor ?? GPU ??

    NVIDIA H100 Tensor ?? GPU? ?? ??? NVIDIA A100 Tensor ?? GPU?? ??? AI ? HPC ??? ?? ??? ??? ??? 9?? ????? GPU???. H100? A100? ?? ?? ??? ???? AI ? HPC ????? ?? ??? ???? ???? ???? ???? ?? ???????.

    NVIDIA H100 GPU SXM5 Module
    ?? 1. ??? SXM5 ??? NVIDIA H100 GPU

    ???? ????? AI ? HPC ???? InfiniBand ?????? ??? H100? A100?? ?? 30?? ??? ?????. ??? NVLink ??? ??? ?????? ?? GPU ?? ?? ??? ?? ?? ?? ??? ???? ?? ?? ?? ???? ??? ????? ???? ???. ?? ?? ? ?? ?? ??? ???? ? ????? ?? ?? InfiniBand? ??? H100? ???? ?? ? ? ? ? ? ?????.

    NVIDIA H100 GPU HPC and AI Preliminary Performance Chart using from 8 to 256 H100 GPUs
    ?? 2. H100? ??? AI? HPC ??? ???? ???.

    ?? ?? ??? ??? ??? ?? ?? ???? ?? ????? ?? ? ????. ?A100 cluster: HDR IB network. H100 cluster: NDR IB network with NVLink Switch System where indicated. # GPUs: Climate Modeling 1K, LQCD 1K, Genomics 8, 3D-FFT 256, MT-NLG 32 (batch sizes: 4 for A100, 60 for H100 at 1 sec, 8 for A100 and 64 for H100 at 1.5 and 2sec), MRCNN 8 (batch 32),GPT-3 16B 512 (batch 256), DLRM 128 (batch 64K), GPT-3 16K (batch 512), MoE 8K (batch 512, one expert per GPU)?.

    GTC Spring 2022?? ??? NVIDIA Grace Hopper ??? ??? ???????. NVIDIA Hopper H100 Tensor Core GPU? NVIDIA Grace Hopper ??? CPU+GPU ????? ?????. ????? ??? ?? ???? ?? ??? ??????, ??? ?? AI ? HPC?? 10? ? ?? ??? ?????.

    NVIDIA Grace Hopper ???? Arm ????? ???? ???? ???? ??? ???? ?? ??? CPU ? ?? ????? ?????. H100? NVIDIA Grace CPU? ???? ??? NVIDIA ? ? ?????? ?? PCIe Gen5?? 7? ?? 900GB/s? ? ???? ?????. ? ???? ??? ??? ?? ?? ?? ??? ?? ?? 30? ?? ?? ???? ????? ??? ???? ???? ??????? ?? ?? 10? ?? ??? ?????.

    NVIDIA H100 GPU ?? ?? ??

    ?        ??? ???? ??????(SM)? ??? ???? ?? ???????. ??? ?? ??? ??? ????.

    o??????? ??? 4?? Tensor ??? SM? ?? ??, ??? SM ?, H100? ? ?? ??? ??? ?? A100? ?? ? ? ??? ?? 6? ? ????. SM? ???? Tensor ??? ?? ??? 16?? ?? ??? ??? ???? ?? ??? ???? A100 SM? MMA(Matrix Multiply-Accumulate) ?? ??? 2?, ??? FP8 ??? ??? ???? A100 ??? 4?? ?????. Sparsity ??? ? ?? ?????? ???? ??? Sparsity? ???? ?? Tensor ?? ?? ??? ? ?? ????.

    o??????? ??? DPX ???? ?? ????? ????? A100 GPU?? ?? 7?? ??????. ? ?? ??? ???? ??? ?? ???-??? ????? ??? ?? ??? ??? ??? ?? ??? ??? ?? ? ???? ????-?? ????? ????.

    o        SM? 2? ? ?? ??? ??? ??? SM ?, H100? ? ?? ???? ?? A100?? ? ?? ?? ??? 3? ? ?? IEEE FP64 ? FP32.

    o??????? ??? ??? ?? ???? ??? ?? ?? SM? ?? ??? ???? ? ? ???, locality? ????? ???? ??? ? ?? ?????. ?? ??? ???, ??? ??, ??? ?? ???? ? ???? ????? ????? ?? ??? ? ?? ??? ???? CUDA ????? ??? ?????. ????? ???? ?? SM?? ??? ???? ?? ??? ??? ???? ???? ????? ?? ???? ???? ??? ? ????.

    o??????? ?? ?? ???? ???? ?? SM ?? ??? ???? ??, ?? ? ???? ?? SM? SM ?? ???? ??? ?????.

    o        ??? ??? ?? ???? ??? ???? ?? ??? ?? ??? ???? ????? ??? ? ?? ??? Tensor ??? ???(TMA) ??? ?????. TMA? ?? ????? ??? ?? ?? ??? ??? ?????. ??? ??? ?? ? ???? ?? ??? ??? ???? ??? ????.

    ?        ??? ????? ??? ????? ?? ???? ? ??? ?????? ??? ??? ?????? ??? NVIDIA Hopper Tensor ?? ??? ???? ?????. ? ????? ??? FP8? 16?? ?? ???? ????? ???? ???? ??? ? ????? FP8? 16?? ?? ??? ? ??? ???? ???? ?? ??? A100? ?? ?? ?? ???? ?? 9? ?? AI ????? ?? 30? ?? AI ?? ??? ?????.

    ?        HBM3 ??? ?? ???? ?? ??? ??? ?? 2? ??? ???? ?????. H100 SXM5 GPU? HBM3 ???? ??? ?? ??? GPU? ?? ??? 3TB/s ??? ???? ?????.

    ?        50MB L2 ?? ????? ???? ???? ?? ?? ? ??? ??? ?? ??? ????? HBM3??? ??? ?????.

    ?        2?? MIG(Multi-Instance GPU) ??? A100?? GPU ????? ? 3? ? ?? ??? ??? 2?? ??? ??? ???? ?????. MIG ??? TEE? ?? ???? ??? ??? ??? ?????. ?? 7?? ?? GPU ????? ???? ? ?????? ?? NVDEC ? NVJPG ??? ????. ?? ? ?????? NVIDIA ??? ??? ?? ???? ?? ?? ??? ??? ?????.

    ?        ??? ???? ??? ??? ??? ???? ???? ???? ? ????? ?????? ???? ??? ? MIG ???? ?? ??(VM)? ? ???? ?? ???? ?????. H100? ?? ??? ???? ???? ??? GPU? ???? PCIe ?? ?? ??? CPU? ???? ??? ? ?? ?? ??(TEE)? ?????.

    ???????? 4?? NVIDIA NVLink PCIe Gen 5? 7? ????? ???? ?? GPU IO? ?? ? ???? 900GB/s? ?? ?? NVLink ?? ?? ???? 50% ???? all-reduce ???? 3? ??????.

    ?        3?? NVSwitch ???? ?? ?? ? ??? ?? ???? ???? ???? ??, ???? ? ????? ???? ?? GPU? ?????. ?? ??? NVSwitch? ?? ?? GPU ??? ????? ?? 4?? NVLink ?? ??? 64? ?????. ? ??? ???? ?? ??? 7.2Tbits/s?? 13.6Tbits/s? ??????. ??? 3?? NVSwitch ??? ????? ? NVIDIA SHARP ???? ? ??? ???? ?? ??? ?? ???? ???? ?????.

    ???????? ??? NVLink ??? ??? ????? ??? 3?? NVSwitch ??? ??? ??? 2?? NVLink ???? ?? ?? ??? ??? ???? 2:1 ??? ??? ?? ??(fat tree) ?????? NVLink? ?? ?? 32?? ?? ?? 256?? GPU? ??? ? ????. ??? ??? ??? ?? 57.6TB/s? ???? ??? ? ??? ??? 1????? FP8 Sparsity AI ???? ??? ? ????.

    ?        Gen 4 PCIe?? 64GB/s?? ? ???(? ???? 32GB/s)? ???? PCIe Gen 5? ? ???? 128GB/s(? ???? 64GB/s)???. H100? PCIe Gen 5? ?? ?? ??? x86 CPU ? SmartNIC ?? ??? ?? ??(DPU)? ?????? ? ????.

    ??? ???? ???? ?? ??? ????? ??? ????? GPU ?????? ????? ?? ?? ??? ??? ?? ???? ????.

    NVIDIA H100 GPU ???? ?? ??

    ??? NVIDIA Hopper GPU ???? ??? NVIDIA H100 GPU? ???? ???? ??? ??? ????.

    ?        ??? 4?? Tensor ??? ?? ???? AI ? HPC ???? ???? ? ?? ?? ??? ?????.

    ?        H100? ??? ????? ??? ?? ?? 9? ?? AI ????? ?? 30? ?? AI? ??? ? ????. ?? ?? A100 ?? ?? ?? ??? ?? ??? ???????.

    ?        ??? NVLink ???? ?????? ?? ?? ??? ??? ?? ?? 256?? GPU? GPU ? ??? ?????.

    ?        ??? MIG? GPU? ??? ??? ??? ????? ???? ? ?? ????? ?? ??? ??(QoS)? ??????.

    ??? ??? ???? ??? ?? ?? ???????? ?? 3?? ?? ??? ??? ? ????.

    NVIDIA H100? ??? ??? ??? GPU???. H100? ?? ?? ???? A100? ??? ?? ??? ??? ???? Tensor ??? ??? ??? ?? ??? ?????. ?? ?? ??????? ???? ? ??? ???? ?? ? ?? ??? ?????? ???? ??? ?? ??? ??? ??? ??? ?? ? ????.

    ??? Tensor ??? ???? ???? H100? ?? ??? ???? ???? ? ??? CUDA ???? ??? ?? ???? ?? CUDA ???? ??? ??? Tensor ??? ?? ??? ? ??? ???? ?? ?? ??? ??? ? ????.

    H100? ??? ?? ?????? ??? ???? CUDA ??? ?? ?? ??? ???? ????. ????? ?? ??? ???? ??? ?? ???? ?? SM?? ???? ?? ???? ??? ??? ??? ???? ???. ?? ????? Tensor ??? ??? ? Tensor ??? ?? ??? ??? ?? ????? ???? ?????.

    ???? ?-? ???? ??? ?? ??? ??? ????? ???? ?????. ?? ?? ??? ???? ???? ???? ??? ???? ???? ????? ???? ???.

    NVIDIA ??? ???? ??? ?? ???? ? ?? CUDA ???? ?-? ???? ??? SM? ?????? ????? ???? ? ????. ? ?? ??? ??? ??? ?? ???? ??????? ?? H100 GPU? ?? ??? ??? ??? ? ???? H100? ???? ?? ???? ????? ???? ?? ???? ?? NVIDIA GPU? ?????.

    H100 GPU? ???? ?? GH100 GPU? 800? ?? ?????, 814mm2? ?? ?? ? ? ?? ??? ??? NVIDIA? ???? TSMC 4N ????? ???? ?????.

    NVIDIA GH100 GPU? ?? GPU ?? ????(GPC), ??? ?? ????(TPC), ???? ??????(SM), L2 ??, HBM3 ??? ????? ?????.

    GH100 GPU? ??? ???? ?? ??? ?????.

    ?        8?? GPC, 72?? TPC(GPC? TPC 9?), TPC? 2?? SM, ?? GPU? 144?? SM

    ?        SM? 128?? FP32 CUDA ??, ?? GPU? 18432?? FP32 CUDA ??

    ?        SM? 4?? 4?? Tensor ??, ?? GPU? 576?

    ?        HBM3 ?? HBM2e ?? 6?, 512?? ??? ???? 12?

    ?        60MB L2 ??

    ?        4?? NVLink ? PCIe Gen 5

    SXM5 ?? ? ??? ??? NVIDIA H100 GPU?? ?? ??? ?????.

    ?        8?? GPC, 66?? TPC, TPC? 2?? SM, GPU? 132?? SM

    ?        SM? 128?? FP32 CUDA ??, ?? GPU? 16896?? FP32 CUDA ??

    ?        SM? 4?? 4?? Tensor ??, GPU? 528?

    ?        80GB HBM3, HBM2e ?? 5?, 512?? ??? ???? 10?

    ?        50MB L2 ??

    ?        4?? NVLink ? PCIe Gen 5

    PCIe Gen 5 ?? ? ??? ??? NVIDIA H100 GPU?? ?? ??? ?????.

    ?        7? ?? 8?? GPC, 57?? TPC, TPC? 2?? SM, GPU? 114?? SM

    ?        SM? 128?? FP32 CUDA ??, ?? GPU? 14592?? FP32 CUDA ??

    ?        SM? 4?? 4?? Tensor ??, GPU? 456?

    ?        80GB HBM2e, HBM2e ?? 5?, 512?? ??? ???? 10?

    ?        50MB L2 ??

    ?        4?? NVLink ? PCIe Gen 5

    TSMC 4N ?? ????? ???? TSMC 7nm N7 ????? ??? ?? ??? GA100 GPU?? H100 GPU ?? ???? ??? ??? ??? ???? ? ?? GPC, TPC, SM? ??? ? ????.

    ?? 3? 144?? SM? ?? GH100 GPU ?? ??? ?????. H100 SXM5 GPU?? 132?? SM? ??? PCIe ??? 114?? SM? ????. H100 GPU? ?? AI, HPC, ??? ??? ?? ????? ? ?? ??? ????? ????? ?????? ??? ??? ?? ????. SXM5 ? PCIe H100 GPU ???? ? 2?? TPC?? ??? ??(??, ?????, ?? ??? ?? ??)? ?????.

    NVIDIA GH100 GPU Full-chip block diagram
    ?? 3. 144?? SM? ??? GH100 ?? GPU

    H100 SM ????

    NVIDIA A100 Tensor ?? GPU SM ????? ???? ??? H100 SM? FP8? ???? SM? A100? ?? ?? ??? ?? ??? 4?, ??? ?? Tensor ??, FP32 ? FP64 ??? ??, ???? A100? ?? SM ??? ??? ? ?? ?????.

    NVIDIA Hopper FP8 Tensor ??? ??? ??? ????? ??? ?? ?? A100? ?? ?? ?? ???? AI ?? ??? 30?, AI ????? ?? 9? ? ?????. ??? NVIDIA Hopper DPX ???? ???? ? ??? ???? ??? ?? ???-??? ????? ?? 7? ??? ??? ? ????.

    ??? NVIDIA Hopper 4?? Tensor ??, Tensor ??? ??? ? ?? ???? ??? SM ? ???? H100 ???? ?? ???? ???? ???? ?? 3? ?? HPC ? AI ??? ?????.

     NVIDIA H100 SXM51NVIDIA H100 PCIe1
    ?? FP64130TFLOPS24TFLOPS
    ?? FP64 Tensor ??160TFLOPS48TFLOPS
    ?? FP32160TFLOPS48TFLOPS
    ?? FP161120TFLOPS96TFLOPS
    ?? BF161120TFLOPS96TFLOPS
    ?? TF32 Tensor ??1500TFLOPS | 1000TFLOPS2400TFLOPS | 800TFLOPS2
    ?? FP16 Tensor ??11000TFLOPS | 2000TFLOPS2800TFLOPS | 1600TFLOPS2
    ?? BF16 Tensor ??11000TFLOPS | 2000TFLOPS2800TFLOPS | 1600TFLOPS2
    ?? FP8 Tensor ??12000TFLOPS | 4000TFLOPS21600TFLOPS | 3200TFLOPS2
    ?? INT8 Tensor ??12000TOPS | 4000TOPS21600TOPS | 3200TOPS2
    ? 1. NVIDIA H100 Tensor ?? GPU ?? ?? ??

    1.      H100? ?? ?? ???? ??? ??? ??? ???? ?? ??? ????? ?? ? ????.

    2.????? Sparsity ??? ??? ???? TFLOPS ? TOPS???.

    NVIDIA GH100 GPU SM (Streaming Multiprocessor) block diagram
    ?? 4. GH100 ???? ??????

    H100 SM ?? ?? ??

    ?        4?? Tensor ??

    o        SM? ?? ??, ??? SM ?, H100? ? ?? ??? ??? ?? A100? ?? ? ? ??? ?? 6? ? ????.

    o        SM? ???? Tensor ??? ?? ??? 16?? ?? ??? ??? ???? ?? ??? ???? A100 SM? MMA(Matrix Multiply-Accumulate) ?? ??? 2?, ??? FP8 ??? ??? ???? A100 ??? 4?? ?????.

    o???????Sparsity ??? ? ?? ?????? ???? ??? Sparsity? ???? ?? Tensor ?? ?? ??? ? ?? ????.

    ?        ??? DPX ???? ?? ????? ????? A100 GPU?? ?? 7?? ??????. ? ?? ??? ???? ??? ?? ???-??? ????? ??? ?? ?? ??? ??? ??? ?? ??? ??? ?? ? ???? ????-?? ????? ????.

    ?        SM? 2? ? ?? ??? ??? ??? SM ?, H100? ? ?? ???? ?? A100?? ? ?? ?? ??? 3? ? ?? IEEE FP64 ? FP32.

    ?        A100?? 1.33? ? ?? 256KB? ?? ?? ???? L1 ??? ??.

    ?        ??? ??? ?? ???? ??? ???? ?? ??? ?? ??? ???? ????? ??? ? ?? ??? Tensor ??? ???(TMA) ??? ?????. TMA? ?? ????? ??? ?? ?? ??? ??? ?????. ??? ??? ?? ? ???? ?? ??? ??? ???? ??? ????.

    ?        ??? ??? ?? ???? ??? ?? ?? SM?? ???? ??? ? ????.

    ?        ?? ?? ???? ?? SM ?? ??? ???? ??, ?? ? ???? ?? SM? SM ?? ???? ??? ???? ???.

    H100 Tensor ?? ????

    Tensor ??? AI ? HPC ??????? ???? ??? ???? ?? ?? ? ??(MMA) ?? ??? ???? ??? ??? ?????. NVIDIA GPU ? ??? SM ?? ??? ???? Tensor ??? ?? ?? ???(FP), ??(INT), ?? ?? ??(FMA) ??? ?? ???? ???? ?? ??????.

    Tensor ??? NVIDIA V100 GPU? ?? ????? ??? NVIDIA GPU ???? ???? ?? ???????.

    H100? ??? 4?? Tensor ?? ????? ??? ?? ??? ? Sparsity? ?? ?? ????? A100? ?? SM? 2? ? ??? GPU ??? ?? ?? A100?? H100? ? ??? ?? ??? ? ???? ? ?????. ???? ??? ??? FP8, FP16, BF16, TF32, FP64, INT8 MMA???. ?? ??? Tensor ??? ? ???? ??? ?? ??? ??? ??? ???? ?? ??? ?? 30% ??? ? ????.

    NVIDIA Hopper H100 GPU FP16 Tensor Core structure and throughput diagram compared to NVIDIA Ampere A100 GPU FP16 Tensor Core structure and throughput
    ?? 5. H100 FP8 Tensor ??? A100 FP16 Tensor ?? ?? 3?? ???? ?????.

    NVIDIA Hopper FP8 ??? ??

    H100 GPU? FP8 Tensor ??? ???? AI ????? ??? ?? ??????. ?? 6?? ??? FP8 Tensor ??? FP32 ? FP16 ???? ??? ??? FP8 ?? ?? ? ??? ?????.

    ?        E4M3(?? 4??, ?? 3??)? 1?? ?? ??

    ?        E5M2(?? 5??, ?? 2??)? 1?? ?? ??

    E4M3? ?? ?? ??? ?? ???? ???? ?? E5M2? ?? ?? ??? ?? ???? ????. FP8? FP16 ?? BF16? ?? ??? ???? ?? ??? ???? ??? ???? ? ?? ????.

    ? ???? ???? ??? ??? ????? ??? FP8 ? FP16 ???? ?? ???? ??? ???? ??? ??? ????? ?? ?? ??? ??? ?? ??? ???? ?????.

    New Floating Point FP8 Tensor Core Precision formats and accumulator types
    ?? 6. ??? NVIDIA Hopper FP8 ???: H100 FP16 ?? BF16? 2? ???? ??? ?? ??
    NVIDIA Hopper H100 GPU FP8 Tensor Core structure and throughput diagram compared to NVIDIA Ampere A100 GPU FP16 Tensor Core structure and throughput
    ?? 7. H100 FP8 Tensor ??? A100 FP16 Tensor ?? ?? 6?? ???? ?????.
    NVIDIA H100 GPU TF32, FP64, and INT8 Tensor Core structure and throughput diagram compared to NVIDIA A100 GPU TF22, FP64, INT8 Tensor Core structure and throughput
    ?? 8. H100 TF32, FP64, INT8 Tensor ??? ?? A100 ?? 6?? ???? ?????.

    ? 2? ?? ??? ??? ?? A100?? ??? H100 ??? ?????.

     (TFLOPS ?? ??)A100A100 SparsityH100 SXM51H100 SXM51 SparsityH100 SXM51 ?? ??(A100 ??)
    FP8 Tensor ??  200040006.4?(A100 FP16 ??)
    FP1678 120 1.5?
    FP16 Tensor ??312624100020003.2?
    BF16 Tensor ??312624100020003.2?
    FP3219.5 60 3.1?
    TF32 Tensor ??15631250010003.2?
    FP649.7 30 3.1?
    FP64 Tensor ??19.5 60 3.1?
    INT8 Tensor ??624TOPS1248TOPS200040003.2?
    ? 2. A100 ?? H100? ?? ??(?? H100 ??, TC=Tensor ??). ?? ??? ?? ? ?? ?? ??? TFLOPS???.

    ?? ?? ??? ????? ?? ????? ?? ? ????.

    ??? ?? ?????? ?? ??? DPX ???

    ??? ?? ??? ????? ???? ? ? ??? ??? ? ?? ?? ???? ?? ? ?????? ??? ????. ?? ?????(DP)? ??? ?? ??? ? ??? ?? ??? ????? ???? ???? ?????. ?? ??? ?? ?? ?? ??? ??? ?????? DP ????? ?? ??? ?????? ?? ???? ?? ??? ????.

    DP? ????? ???? ???, ??? ?? ? ???? ????? ?????.

    ?        ??? ???? ??? ?? ???? ??? ?? ???-??? DP ????? ?? ??? ?? ? ?????.

    ?        ???? ???? ????-?? ????? ??? ?? ?? ??? ??? ??? ?? ??? ??? ??? ?? ? ???? ?? ???????.

    H100? DPX ???? ???? NVIDIA Ampere GPU ?? DP ???? ??? ?? 7??? ??????. ? ??? ???? ?? DP ????? ?? ??? ?? ?? ?? ????? ?????. ?? ?? ?? ??, ?? ??? ???? ??? ??? ???? ????? ??? ????? ??? ? ????.

    NVIDIA H100 GPU's new DPX Instruction usage examples and performance
    ?? 9. DPX ???? ?? ?????? ??????

    H100 ??? ?? ??

    ????? H100? H100? ?? ??? ??? ?? ??? ??? ? A100?? ? 6? ??? ??? ??? ?????. ?? 10? H100? ?? ??? ????? ??? ????.

    ?        A100? SM 108??? 22% ??? 132?? SM

    ?        ??? 4?? Tensor ?? ??? ??? H100 SM ??? 2? ? ????.

    ?        ? Tensor ?? ??? ??? FP8 ?? ? ?? ????? ??? ? ?? 2? ??? ??????.

    ?        ?? H100? ?? ??? ??? ??? ? 1.3? ???????.

    ????? ??? ?? ??? ?? H100? ?? ??? ???? A100?? 6? ????? ?? ? ???? ???? ?? ?? ??? ????? ?? ? ?????.

    NVIDIA H100 GPU compute performance improvement over NVIDIA A100 GPU

    ?? 10. H100 ??? ?? ?? ??

    H100? ? ???? ???? ?? ?? ??? ????? ?? 6? ??? ???? ?????.

    H100 GPU ?? ?? ? ??? ?? ??

    ?? ?????? ???? ???? ?? ???? ? ?? ??? ??? ???? ??? ?????. ????? ???? ???? ???? ?? ??? ??? ??? ???? ?? ???? ????? ?? ??? ???? ? ?? ???? ??? ? ????. ??? ???? ??? ?? ? ?? ??? ??? ? ?? ???? ??? ?? ?? ?????. ??? GPU? ?? ??? ??? ???? ????.

    ?? ????? ?? SM?? ?? ??? ???? ? ??? ???? ???? NVIDIA Hopper? GPU ????? ?? ??? ??? ??? ??? ??? ?????. ?? ??? ???? ??? ????? ??? ??? ??? ?? ??? ???? ?????.

    ??? ?? ????

    CUDA ????? ??? ?? ??? ??? ???? ???? ???? ????? ???? ???? GPU ??? ????? ???? ??? ????. ??? ???? ?? SM?? ??? ???? ?? ???? ???? ??? ? ???? ???? ?? ??? ????? SM? ?? ???? ???? ???? ??? ? ????. ??? GPU? SM? 100? ???? ???? ??? ????? ? ?????? ????? ???? ???? ??? ??? ??? ??? ??? ?? ???? ?????? ???? ????.

    H100? ?? SM? ?? ??? ???? ? ???? ???? ???? ??? ??? ?? ???? ????? ??????. ??? ?? ????? ???, ??? ??, ??? ?? ????, ???? ????? GPU? ??? ????? ?? ??? ? ?? ??? ???? CUDA ????? ??? ??????.

    ????? SM ??? ?? ??? ???? ??? ?? ???? ?? SM?? ???? ???? ??? ???? ?? ?? ?????. H100? ????? GPC ? SM?? ??? ?????.

    GPC? ?? ????? ???? ?? ?? ???? ?? ??? SM ?????. ?????? ???? ??? ??? ?? ???? ??? ??? ??? ??? ?? ??? ????. GPC? SM? SM ?? ?? ????? ????? ??? ???? ??? ???? ?????.

    CUDA?? ???? ??? ??? ?? 11?? ? ? ??? ?? ?? ? ????? ?? ???? ? ??? ???? ??? CUDA cooperative_groups API?? ??? ? ????.

    NVIDIA H100 GPU Thread Block Clusters and Grids that include Thread Block Clusters compared to Grids of Thread Blocks

    ?? 11. ??? ?? ????? ????? ?? ???

    ???? ?????? ??? ??? A100???? ??? CUDA ????? ??? ??? ???? ?????. NVIDIA Hopper ????? ?????? ???? ??? ???? ?? ?? ??? ?????.

    ?? ?? ???

    ????? ???? ?? ???? ??, ??, ??? ??? ?? ?? SM? ?? ???? ?? ???? ? ????. ? ??? ?? ??? ?? ?? ??? ????? ?? ??? ????? ????? ?? ?? ???(DSMEM)??? ???.

    DSMEM? ???? ? ?? ??? ????? ???? ???? ?? ??? ?? ??? SM ?? ? ???? ??? ??? ?????. ???? ?? SM? SM ?? ????? ?? DSMEM? ?? ??? ?? ?? ?? ???? ?????. DSMEM? ??? ???? ??? ?? ??? ??? ?? ? ??? ??? ? 7? ??????.

    NVIDIA A100 GPU vs H100 GPU Thread Block data exchange differences. H100 includes a direct SM-to-SM network in a Cluster.

    ?? 12. ??? ??? ??? ?? ?? ??? ??(A100? ????? ?? H100 ??)

    CUDA ???? ????? ??? ?? ??? ??? ?? DSMEM ????? ? ???? ?? ?? ??? ???? ?? DSMEM? ??? ???? ?? ??? ? ????. CUDA ???? cooperative_groups API? ???? ????? ?? ??? ??? ?? ?? ???? ??? ? ????. ?? DSMEM ??? ?? ??? ?? ?? ??? ?? ??? ???? ??? ?? ???? ??? ?? ????.

    ?? 13? ?? ?????? ????? ??? ?? ?? ??? ?????. ????? ?? SM?? GPU? ? ?? ??? ?? ??? ? ??? ?? ??? ?????. ????? ? ?? ?? ???? ?? ??? ???? ?? ?? ??? ???? ??? ??? ? ? ?? ??? ?? ???? ? ????.

    NVIDIA H100 GPU Cluster Performance Examples with three algorithms
    ?? 13. ????? ?? ?? ?? ? ?? ??? ?? ? ?? ??

    H100? ?? ?? ???? ??? ??? ??? ???? ?? ?? ????? ?? ? ????.

    ??? ??

    ??? NVIDIA GPU?? ??, ????? ??, ?? ???, GPU ???, ?? ?? ??? ???? ?? ??? ???? ?? ??? ???? ????. ?? NVIDIA GPU ???? ??? ??, ???, ???? ? ?? ????? ?? ?? ??? ?? ??? ???? ????.

    NVIDIA Hopper ????? ??? ??? ???????? ??? ??? ???? ??? ? ?? ?? ??? ??? ???? ? ?? ??? ? ??? ?? ??? ??? ?????. Tensor ??? ???(TMA)?? ?? ??? ??? ??? ?? ??? ??? ??? ???? ??? ?????.

    NVIDIA H100 GPU asynchronous execution enhancements overview
    ?? 14. NVIDIA Hopper? ??? ?? ???? ?? ??

    ??? ??, ??, ???? ????? ???? ?????. ??? ???? ??? ?? ???? ??? ?????.

    Tensor ??? ???

    ???? ??? H100 Tensor ??? ??? ?? ?? ??? Tensor ??? ???(TMA)? ??? ???? ???? ???????. ? TMA? ??? ??? ??? ??? Tensor? ??? ????? ?? ???? ?? ??? ? ????.

    TMA ??? ??? ?? ?? ?? Tensor ?? ? ?? ??? ???? ??? ??? ???? ????? ??? ???? ?????(?? 15). ??? ??? ??? ?? ?? ??? ???? ???? ??? ????? ?? ???? ????? ?? ????? ??? ???? ?? ??? ? ????. TMA? ??? ?? ????(1D ~ 5D Tensor), ?? ?? ??? ??? ??, ?? ? ?? ??? ???? ?? ?? ????? ?? ??? ???? ?????.

    NVIDIA H100 GPU new Tensor Memory Accelerator address generation example
    ?? 15. ????? ??? ?? TMA ??? ?????.

    TMA ??? ?????? A100? ????? ?? ??? ?? ??? ??? ?????. ?? TMA ????? ??? ?? ????? ??? TMA ??(cuda:memcpy_async)? ???? Tensor? ????? ??? ?? ???? ?????. ? ?? ?? ???? cuda:???? ??? ??? ????? ??? ? ????. ??? ??? ?? ?? ??? ????? ????? H100 SM? ???? ??? ?? ??? ? ????.

    TMA? ?? ??? ???? ???? ?? ?? ???? ??? ??? ? ??? ????. A100(?? 16? ??)?? ??? ??? ??? ?? LoadGlobalStoreShared ???? ???? ??????? ???? ?? ??? ???? ?? ?? ??? ?? ??? ??????.

    NVIDIA Hopper??? TMA? ?? ?? ?????. ?? ???? TMA? ???? ?? ????? ??? ???? ???? ?? ??? ??? ??? ?????? ?????. TMA? Tensor? ????? ??? ? ?????, ???, ?? ??? ????? ??? ???? ??? ?? ??? ????? ??? ?????.

    Comparison of NVIDIA H100 GPU new Tensor Memory Accelerator versus NVIDIA A100 GPU LDGSTS Instruction to perform memory copies

    ?? 16. A100? LDGSTS? ??? ??? ??? ??? H100? TMA? ??? ??? ??? ??

    ??? ???? ??

    ??? ??? ?? NVIDIA Ampere ????? ???????(?? 17? ??). ??? ??? ?? ???? ?? ???? ???? ???? ?? ??? ???. ??? ??? ??? ????? ? ??? ?????.

    ?        ?? ???? ?? ???? ?? ??? ???? ?? ??? ?????. ? ?? ??? ???? ?? ???? ??? ???? ??? ? ???, ???? ????.

    ?        ?? ???? ?? ?? ????? ??? ???? ??? ???. ? ? ?? ???? ????? ?? ??? ???? ?????.

    ??? ??? ??? ?? ??? ???? ?? ?? ?? ???? ??? ??? ? ????. ? ??? ?? ??? ?????. ?? ???? ?? ?? ??? ????? ?? ???? ?? ????? ??? ?? ???? ?? ??? ? ?? ??? ??? ????? ???????.

    NVIDIA Hopper? ??? ??? ?? ?? ???? ??? ??? ???? ????? ?????. ?? ???? ?? ???? ?? ???? ?? ???? ?? ?????.

    ??? ??? ??? NVIDIA Hopper ????? ??? ????? ????? ??? ???? ????? ??? ??? ??? ??????. ??? ???? ??? ??? ??? ?????(?? 17? ???). ? ?? ?? ????? ??? ??? ????? ??? ????? ?????.

    NVIDIA Hopper?? ??? ???? ???? ?? ?? ???? ?? ??? ?? ?? ??? ???? ???? ????. ???? ?? ????? ??? ????. ??? ???? ??? ?? ??? ???? ???? ?? ???? ?? ?? ?? ?? ??? ??? ?? ???? ???? ?????.

    ??? ???? ??? ??? ??? ?? ?? ??? ??? ?? ???? ??? ?? ?????. ?? ????? ????? ??? ???? ?? ??? ??? ?? ??? ?? ? ??? ? ? ??? ?? ???? ??? ??? ???? ?? ?? ?????.

    New NVIDIA H100 GPU asynchronous transaction barrier feature compared to NVIDIA A100 GPU asynchronous barrier
    ?? 17. A100? ??? ??? H100? ??? ???? ??

    H100 HBM ? L2 ?? ??? ????

    GPU? ??? ????? ?? ??? ??? ?????? ??? ?? ???? GPU ??, ??, ?? ???, ????? ??? ??? ????. ??? DRAM(??? ??) ?? ???? ??? ??? ??? ?? ? ??? ?-? ????? SM?? ??? ???? ???? ??? ????? ?? ??? ?? ???? GPU? ?????.

    H100 HBM3 ? HBM2e DRAM ?? ???

    HPC, AI ? ??? ?? ??? ??? ??? ?? ???? ??? ??? ?? ? ????? ?? ? ? GPU ??? ??? ???? ??? ?????.

    ?        NVIDIA P100? ???? HBM2 ??? ??? ???? ?? ??? GPU ???????.

    ?        NVIDIA V100? ?? ? ??? ????? ? ?? ??? HBM2? ??????.

    ?        NVIDIA A100 GPU? HBM2? ??? ??? ?? ???????.

    H100 SXM5 GPU? 80GB(5?? ??)? ?? HBM3 ???? ???? 3TB/s ??? ??? ???? ???? ? ??? ?? ?? ???? ?? 2? ?? ??? A100? ??? ????? ??? 2? ? ??????. PCIe H100? 2TB/s ??? ??? ???? 80GB? ?? HBM2e? ?????.

    New NVIDIA H100 GPU HBM3 DRAM Bandwidth comparison to NVIDIA A100, V100, and P100 GPU HBM2 DRAM bandwidths
    ?? 18. ?? ???? 2?? ??? ?? ?? HBM3 GPU ??? ????

    ??? ??? ??? ?? ???? ???? ?? ??? ?? ? ????.

    H100 L2 ??

    H100? A100 40MB L2 ???? 1.25? ??? 50MB L2 ??? ?????. ??? L2 ??? ?? ? ??? ??? ? ? ??? ???? ???? ???? ???? ?? HBM3 ?? HBM2e DRAM??? ??? ???? ?? ?? ?????.

    ??? ???? ??? ???? L2 ??? ???? ?? ??? GPC?? SM?? ??? ???? ?? ???? ????? ?????. L2 ?? ?? ??? ?? ??? ????? ??? ?? ??? ???? ?? ???? ????? ??? ? ??? ?????.

    HBM3 ?? HBM2e DRAM, L2 ?? ?? ???? ?? ??? ?? ? ?? ?? ??? ???? ???? ??? ???, ??? ?? ??????.

    GPU ??NVIDIA A100NVIDIA H100 SXM51NVIDIA H100 PCIe1
    GPU ????NVIDIA AmpereNVIDIA HopperNVIDIA Hopper
    GPU ?? ? ??SXM4SXM5PCIe Gen 5
    SM108132114
    TPC546657
    SM? FP32 ?? ?64128128
    GPU? FP32 ?? ?69121689614592
    SM? FP64 ?? ?(Tensor ??)326464
    CPU? FP64 ?? ?(Tensor ??)345684487296
    SM? INT32 ?? ?646464
    GPU? INT32 ?? ?691284487296
    SM? Tensor ?? ?444
    GPU? Tensor ?? ?432528456
    GPU ??? ??
    (H100? ?? ?? ???? ??)3
    1410MHz?? ???? ???? ???? ??
    ?? FP8 Tensor TFLOPS(FP16 ?? ??)1?? ??2000/400021600/32002
    ?? FP8 Tensor TFLOPS(FP32 ?? ??)1?? ??2000/400021600/32002
    ?? FP16 Tensor TFLOPS(FP16 ?? ??)1312/62421000/20002800/16002
    ?? FP16 Tensor TFLOPS(FP32 ?? ??)1312/62421000/20002800/16002
    ?? BF16 Tensor TFLOPS(FP32 ?? ??)1312/62421000/20002  800/16002
    ?? TF32 Tensor TFLOPS1156/3122500/10002400/8002
    ?? FP64 Tensor TFLOPS119.56048
    ?? INT8 Tensor TOPS1624/124822000/400021600/32002
    ?? FP16 TFLOPS(Tensor ?)17812096
    ?? BP16 TFLOPS(Tensor ?)13912096
    ?? FP32 TFLOPS(Tensor ?)119.56048
    ?? FP64 TFLOPS(Tensor ?)19.73024
    ?? INT32 TOPS119.53024
    ??? ??432528456
    ??? ?????5120?? HBM25120?? HBM35120?? HBM2e
    ??? ??40GB80GB80GB
    ??? ??? ??
    (H100? ?? ?? ???? ??) 1
    1215MHz DDR?? ???? ???? ???? ??
    ??? ???11555GB/sec3000GB/sec2000GB/sec
    L2 ?? ??40MB50MB50MB
    SM? ?? ??? ???? 164KB ?? ???? 228KB ?? ???? 228KB ?? ??
    SM? ???? ?? ??256KB256KB256KB
    GPU? ???? ?? ??27648KB33792KB29184KB
    TDP1400W700W350W
    ?????542? ?800? ?800? ?
    GPU ?? ??826mm2814mm2814mm2
    TSMC ?? ????7nm N7NVIDIA? ???? 4NNVIDIA? ???? 4N
    ? 3. NVIDIA A100? H1001 ????? GPU ??

    1.      H100? ?? ??? ??? ??? ??? ???? ?? ??? ????? ?? ? ????.

    2.????? Sparsity ??? ??? ???? TFLOPS ? TOPS???.

    3.      NVIDIA ????? GPU? ?? GPU ?? ??? GPU ??? ??? ?? ?? ????.

    H100 ? A100 Tensor ?? GPU? AI ? HPC ??? ????? ??? ???? ??? ?? ? ????? ?? ????? ????? ??? ????? ???, ?? ???? ???? ?? NVIDIA RT ?? ?? NVENC ???? ???? ?? ????.

    ??? ??

    H100 GPU? ??? ??? ?? 9.0? ?????. ? 4? NVIDIA GPU ????? ?? ??? ??? ??? ????? ?????.

    ????? GPUNVIDIA V100NVIDIA A100NVIDIA H100
    GPU ????NVIDIA VoltaNVIDIA AmpereNVIDIA Hopper
    ??? ??7.08.09.0
    ??? ???323232
    SM? ?? ??646464
    SM? ?? ???204820482048
    SM? ?? ??? ??(CTA)323232
    ??? ?? ????? ?? ??? ???? ???? ??16
    SM? ?? 32?? ????655366553665536
    ??? ??(CTA)? ?? ????655366553665536
    ???? ?? ????255255255
    ?? ??? ?? ??(??? ?)102410241024
    SM? FP32 ?? ?6464128
    FP32 ??? ?? SM ????? ??10241024512
    SM? ?? ??? ???? 96KB ?? ???? 164KB ?? ???? 228KB ?? ??
    ? 1. ??? ??: V100, A100, H100 ??

    ????? ??

    ????? ??? BERT?? GPT-3? ????? ??? ?? ???? ?? ??? ???? ??? ??? ???? ??? ???. ???? ??? ??(NLP)??? ??? ?????? ??? ??, ?? ?? ?? ?? ??? ???? ?? ? ?? ???? ????.

    ? ?? ?? ??????? ?? ???? ??? ?? ?? ????? ???? ???? ??? ???? ??????. ?? ??? ??? ?? ???? ?? ?????? ??? ?????? ????? ????. ?? ?? Megatron Turing NLG(MT-NLG)?? ????? ?? 2048?? NVIDIA A100 GPU? 8? ?? ????? ???. ????? ????? ??? ?? 5? ?? 2??? 275?? ?? ???? AI ???? ?? ??? ???? ????(?? 19).

    Transformer Model Size and Complexity Increases in recent years with examples
    ?? 19. ??? ?? ???? ??????? ???? ????? ?? ??

    H100?? ?????? ??? NVIDIA Hopper Tensor ?? ??? ???? ?????? AI ??? ?? ????? ??? ????? ??? ???? ????.

    NVIDIA H100 GPU Transformer Engine conceptual operation diagram
    ?? 20. ????? ?? ?? ??

    ?? ???? ??? ???? ????? ???? ???? ?????? ? ?? ?? ?? ??? ??? ?? ????. ????? ??? ? ????? ????? ??? Tensor ???? ??? ?? ?? ??? ?????.

    ??? ?? ??? ??? ??? ?? ??? ???? ???? ?? ??? ???? ????? ??? Tensor? ???? ???? ?? ?? ?? ???? ??? ???? ?????. FP8? ?? ?? ???? ??? ???? ????.

    ?? ??? ??? ???? ???? ?? ????? ??? Tensor ???? ??? ?? ??? ???? Tensor ???? ?? ??? ??? ?? ???? ?????. ??? ?? ???? ??? ??? ??? ???? ??? ???? ??????.

    ?? ?? ??? AI? ?? ??? ?? ?? ???? ?? ????? HPC ? ? ?? ?? ??? AI ??? ???????? ?????? ? ? ??? ????. ??? ???? ??? ? ???? ??? ???? ????? ? ???? ????? ?? ????? ?? GPU ?? ??? ?? ??? ?????. PCIe? ??? ????? ?? ??? ?????. ?? ??? ?? ? ?? ??? ???? ????? ??? ???? ?? ??? NVLink ?? ??? ?????.

    NVLink? ???? ???? ??? ???? ?? ?? ?? ?? ? ?? ?? ????? ?? ?? ??? ???? NVIDIA ????, ??? ??, ???, ??? GPU? GPU ?? ????????. H100 GPU? ??? ??? 4?? NVLink? NVIDIA A100 Tensor ?? GPU? ??? ?? 3?? NVLink ?? 1.5? ??? ?? ???? ?????.

    ?? GPU I/O ? ?? ??? ???? ?? ? 900GB/s? ????? ???? ??? NVLink? PCIe Gen 5 ????? 7? ???????. A100 GPU? 3?? NVLink? ? ???? 4?? ?? ?(??)? ???? ? ???? 25GB/s? ??? ???? ?? ?? ??? ?????. ????? 4?? NVLink? ? ???? ? ? ?? ?? ?? ?? ???? ? ???? 25GB/s? ??? ???? ?? ?? ??? ?????.

    ?        H100?? 18?? 4?? NVLink ??? ???? ?? ? 900GB/s ???? ?????.

    ?        AH100?? 12?? 3?? NVLink ??? ???? ?? ? 600GB/s ???? ?????.

    H100? 4?? NVLink ??? ?? ??? ???? ?? 256?? GPU? GPU ? ??? ???? ?? ??? ??? NVLink ??? NVLink ???? ?????? ??????.

    ?? GPU? ?? ?? ??? ???? ??? ???? GPU? ??? ??? ???? ?? ????? ?? NVLink? ?? NVLink ????? ??? ???? ?? ??? ?????. H100? ??? ?? ?? ?????? ???? ?? GPU ?? ??? ?? ???? ???? ?? ????? ?????. ?? ?? NVLink ????? ? ?? GPU? ???? ??? ? ????.

    NVLink ???? ?????? ?? ??? ?? ??? ???? ???? NVLink ???? ??? ?? ????? ???? ????? ????. ??, InfiniBand? ?? ?? ???? ?????? ???? ??? ?????? ??? ?? ????? ? ??? ????? ???? ???.

    3?? NVSwitch

    ??? 3?? NVSwitch ???? ?? ?? ? ??? ?? ???? ???? ???? ??, ???? ? ????? ???? ?? GPU? ?????. ?? ??? ??? NVSwitch? ?? ?? GPU ??? ????? ?? 4?? NVLink ?? ??? 64? ?????. ? ??? ???? ?? ??? 7.2Tbits/s?? 13.6Tbits/s? ??????.

    ?? ??? 3?? NVSwitch? ????? ? NVIDIA SHARP ???? ? ??? ???? ?? ??? ???? ???? ?????. ???? collective????? write broadcast(all_gather), reduce_scatter, broadcast atomics ??? ?????. ????? ????? ? ??? ???? A100?? NVIDIA Collective Communications Library(NCCL)? ???? ??? ?? ?? ??? ???? ?? ?? ??? ?? ????? ???? ?? 2? ?????. ???? NVSwitch ???? ?? ??? ?? SM? ??? ?? ?????.

    NVIDIA? ??? NVLINK ???? ??? ??? 3?? NVSwitch? ???? ?? ?? ??? ?? ???? ?? ??? NVLink ??? ??? ????? ???? ????. ? GPU ??? ??? ?? GPU? ?? ?? NVLink ???? 2:1 ??? ??? ?????. ??? ??? ?? ??? ???? ?? ??? ???? NVLink ??? ??? ??? ? ?? ??? NVSwitch? ?? ?? ?????.

    NVLink ??? ???? ?? 256?? GPU? ?????. ??? ??? ?? 57.6TB? ???? ??? ? ??? ??? 1????? FP8 Sparsity AI ???? ??? ? ????.

    ?? 21? A100? H100 ??? 32??, 256?? GPU DGX SuperPOD? ??? ????. H100 ??? SuperPOD? ????? ??? NVLink ???? ???? DGX ??? ?? ?????.

    NVIDIA's new DGX H100 SuperPOD 256 GPU clustered system performance compared to DGX A100 SuperPOD
    ?? 21. DGX A100? DGX H100? 32??, 256?? GPU NVIDIA SuperPOD ???? ??

    DGX H100 SuperPOD? 3?? NVSwitch ??? ???? ?? ??? NVLink ???? ???? NVLink ??? ???? ?? ??? ???? ?? 256?? GPU? ?? ?? ? ????.

    2:1 ??? ?? ?? ??????? NVLink ???? ?????? ?? ??? ?? ?? ??? ???? 9?? ????? ?? ?? InfiniBand ??? ?? ?? ?? ???? 4.5? ??????. DGX H100 SuperPOD?? NVLINK ??? ???? ???? ??? ? ????.

    PCIe Gen 5

    H100? PCI Express Gen 5 16?? ?????? ???? A100? ????? Gen 4 PCIe?? 64GB/s?? ? ???(? ???? 32GB/s)? ???? ? ???? 128GB/s(? ???? 64GB/s)? ?????.

    H100? PCIe Gen 5 ?????? ???? ?? ??? x86 CPU, SmartNIC, ??? ?? ??(DPU)? ?????? ? ????. H100? ??? HPC ? AI ????? ?? 400Gb/s ??? ?? NDR(Next Data Rate) 400Gb/s InfiniBand ???? ???? ???? NVIDIA BlueField-3 DPU?? ??? ??? ?? ???????.

    H100? 32?? ? 64?? ??? ??? ?? ??? CAS, ??? ?? ? ??? ????? ?? ?? PCIe ??? ??? ?? ??? ???? CPU? GPU ?? ??? ? ??? ??? ??????. H100? ?? ?? ???? ?? VM? ?? ?? PCIe? ??? GPU? ?? ? ???? ? ?? ?? ?? IO ???(SR-IOV)? ?????. H100? ???? ?? SR-IOV PCIe? ??? GPU? ?? ??(VF) ?? ??? ??(PF)? NVLink ?? ?? GPU? ???? ? ????.

    ??

    ?????? ??? ????? ?? ??? ??? H100 ??? ?? ??? ??? NVIDIA H100 Tensor ?? GPU ???? ??? ??????.

    ?? ?? ??

    ? ???? ??? ?? Stephen Jones, Manindra Parhy, Atul Kalambur, Harry Petty, Joe DeLaere, Jack Choquette, Mark Hummel, Naveen Cherukuri, Brandon Bell, Jonah Alben, ??? ?? ?? NVIDIA GPU ??? ? ?????? ??????.

    Discuss (0)
    +3

    Tags

    ?? ???

    人人超碰97caoporen国产