• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • Data Center / Cloud

    NVIDIA H200?? ?? ?? ?? ?? ??? ???? NVIDIA TensorRT-LLM

    Reading Time: 3 minutes

    ?? ?? ??(LLM)? ?? ? ? ?? ??? ??? ??????. ??? ??? ??? ???? ???? ?? ??? ???? ??? ???? ???? ?? ?????. NVIDIA TensorRT-LLM? ?? ???? ??? ??? ??? ?? ???? ???? LLM ?? ??? ?? ??????.

    NVIDIA H200 GPU? ?? TensorRT-LLM ?? ??? Llama 2 70B LLM?? 6.7?? ?? ??? ????, Falcon-180B? ?? ??? ??? ?? GPU?? ??? ? ??? ?????. Llama 2 70B? ???? ?? ?? ??? ??? ??? ???? ?? ???(GQA)??? ??? ????? ?? ????, ?? Llama 2 70B? ?? ??????.

    Falcon-180B? ???? ?? ?? ??? ?? ?? ??? ?? ?? ? ???, ???? ?? ???? ?? ?? 8?? NVIDIA A100 Tensor ?? GPU? ?????.

    ??? INT4 AWQ?? TensorRT-LLM? ???? ?? ?? 5TB/s? ??? ???? 141GB? ?? HBM3e ???? ?? ?? H200 ?? ?? GPU? ??? ? ?? ?????.

    ? ?????? ? ?? ?? LLM? Llama 2 70B? Falcon-180B? ??? ?? TensorRT-LLM ??? ? ??? ?????.

    6.7?? ?? ??? ???? H200? Llama 2 70B

    ?? ??? TensorRT-LLM? ?? ???? ??? ?? ?? ??(GQA) ??? ???? ??, H200? ???? NVIDIA A100 GPU?? ???? ??? ????? ???? ?? 6.7?? ?? ??? ?????.

    Llama 2 70B?? ???? GQA? ?-?(KV) ??? ?? ????? ?? ?? ??(MHA)? ????, ??(Q) ???? ? ?? ?? KV ??? ?????. TensorRT-LLM?? GQA, ?? ?? ??(MQA) ? ?? MHA? ???? ??? MHA ??? ????.

    ?? ? ???? ???? NVIDIA ?? ??? ???? NVIDIA GPU?? ??? ??? ?????.

    ?? 1. ??? ??/?? ??? ?? ??? ?? H200? Llama 2 70B ?? ???
    H200 Llama 2 70B ?? ??
    ?? ??? ???? ??? ?????(GPU? ??/s)
    1281283,803
    12820483,163
    12840962,263
    ? 1. ??? ?? ??? ???? GPU? Llama 2 70B H200 ?? ???

    LLM ??? ??? ?? ??? ?? ? ?? ??? ??? ???? ?? ????, ?? LLM? ???? ?? ??????? ?? ?????. ?? ??? ??? ??? ???? ?? ???? ?????, A100? ?? ?? ??? ?? ?????.

    TensorRT-LLM ?????? ?????? H200?? ???? ?? ??? ?? 2.4?? ?? ??? ??????.

    Falcon-180B ?? ??

    LLM? ????? ???? ??? ??? ? ??? ??? ?????, ??? ??? ????? ???? ?? ? ??? ???? ??? ??? ????. ????? ? ??? ???? ?? ?? ??? ????? ????.

    ? ? ??? INT4 ??? ?? ??? ???(AWQ)???(Lin et al., 2023). ? ??? ??? ??? ???? ?? LLM? ???? ? 4??? ??? ?? FP16?? ??? ?????.

    ? ?? ??? ?? AWQ? ?? 4?? ???? ?? ???? ????? ??? ???? ?? ? ????. ?? ???? ????? ??? ??? ??? ? ?? ?? ??? ?????.

    ?? ??? TensorRT-LLM? AWQ? ?? ??? ??? ?????. ? ??? ? ?? ? ???? ?? Hopper Tensor ?? ??? ???? FP16? ?? NVIDIA Hopper GPU?? FP8 ???? ??? ?????.

    ?? 2. ?? H200 GPU??? Falcon-180B ?? ???

    ?? ?? H200?? FP8? INT4 AWQ? ??? ?????. H200? ?? Falcon-180B ??? ??? ?? ??? ?? ?? 800?? ??? ???? ??? ?? ????? ??? ??? ? ????.

    ??? ??

    ???? ?? ?? ???? ???? ? ????. ??? TensorRT-LLM AWQ? ??? ???? ????? ??? ???? ?? 4? ??? ??? ?? ???? ?????.

    ?? 3. FP16, FP8 ? INT4 AWQ??? ??? ??

    TensorRT-LLM v0.7a | Falcon-180B | 1xH200 TP1 | INT4 AWQ

    TensorRT-LLM v0.7a | Falcon-180B | 1xH200 TP1 | INT4 AWQ
    ???? ? ?? ???? ??? ?? ???? 95% ??? ????? ? ?? ??? ????, ?? ??? ?? GPU? ???? GPU ??? ???? ??? ?????. ??? ???????? GPU? ????? ???? ??? ???? ???? ??? ? ??? ?? ??? ??? ? ????.

    ?? ?? ??

    ??? ?? ??? ? TensorRT-LLM?? ??? ? ???, v0.7 ? v0.8 ???? ??? ?????. TensorRT-LLM?? ?? 2 70B? ???? ??? ??? TensorRT-LLM GitHub ????? ??? ? ????.

    ??? ??? NVIDIA H200 Tensor ?? GPU ?? ???? ?????.

    ? ??? ???? TensorRT-LLM GitHub? ?? ???? ??? ????: INT4 AWQ? ?? ?? H200 GPU? Falcon-180B ? A100 ?? 6.7? ?? Llama-70B

    ?? ???

    Discuss (0)
    +1

    Tags

    人人超碰97caoporen国产