• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • Generative AI

    ?? ?? ????? ??? ????? TensorRT-LLM???

    Reading Time: 5 minutes

    ??? ?? ??(LLM)? ???? ??? ??? AI? ??? ??? ????. ??? ? ??? ??? ?? ???? ?? ???? ???? ???? ??? ? ????.

    ??? NVIDIA? ??? ?? ?? ??? ????? ????? ?? ??(Meta)?????(Anyscale)???(Cohere)??(Deci)????(Grammarly)???? AI(Mistral AI), ?? ??????(Databricks)? ??? ????ML(MosaicML)??ML(OctoML)???(Tabnine)??? AI(Together AI)??(Uber) ? ?? ???? ??? ?????.

    ??? ??? ? ? ?? ?? ??? ?? ?? ?????? NVIDIA?TensorRT-LLM? ?????,????(Ampere),??????(Lovelace)? ??(Hopper) GPU?? ??? ? ????.?TensorRT-LLM? TensorRT?? ?? ????? ???? ???? ??,????? ??? ??,????GPU/?? ?? ?? ?????? ??? NVIDIA?GPU?? ???? ??? ?????.??? ?? ?????C++??? NVIDIA ??(CUDA)? ?? ???? ?? ?? ??? ??? ??? ?? ??? ?? ??? ???? ??? ??? ?? ??? ???? ? ????.

    TensorRT-LLM? ??? ?? ??? ???? ?? ?? ?? ??? ????API(Python API)? ?? ?? ???? ???? ????,??? ??? ???? ? ????.?????API? ??? ????? ?? ??? ??,????,???? ? ????.?

    ?? ??,?????ML? TensorRT-LLM??? ??? ?? ??? ???? ???? ?? ???? ??????.???????? ????? ?? ???? ?? ??(Naveen Rao)??“TensorRT-LLM? ??? ????,??? ????,?????? ??(In-flight Batching),????? ???(Paged-attention),???? ? ??? ??? ??? ??? ?????.?? ???? NVIDIA?GPU? ??? ??? ?? ?? ???? ?? ??? ??? ????,????? ?? ?? ??? ????”? ?????.

    ?? ??

    ?? ??? LLM? ??? ?? ?? ? ??? ?????. ?? ????? ?? NVIDIA Hopper ?????? TensorRT-LLM? ??? ?? ??? ?????.

    ?? ??? ?? ??? ???? ? ? ??? ??? ??? CNN/Daily Mail? ?? NVIDIA A100 ? NVIDIA H100? ??? ?? ??? ?? ????.

    ?? 1?? H100? ???? A100?? 4? ????. ?? ?? ?? ? TensorRT-LLM? ??? ???? ? 8?? ???? ??? ???? ?????.

    ?? 1. GPT-J-6B A100? H100 ??(TensorRT-LLM ?? ? ???)

    ??? ??, ?? I/O ??, CNN/DailyMail ??? ?? | A100 FP16 PyTorch ?? ?? | H100 FP8 | H100 FP8, ?? ??, TensorRT-LLM

    Meta?? ?? ??? ?? ?? ???? ??? AI? ????? ???? ?? ???? Llama 2?? TensorRT-LLM? A100 GPU? ?? ?? ??? 4.6??? ???? ? ????.

    ?? 2. Llama 2 70B, A100? H100 ??(TensorRT-LLM ?? ? ???)

    ??? ??, ?? I/O ??, CNN/DailyMail ??? ?? | A100 FP16 PyTorch ?? ?? | H100 FP8 | H100 FP8, ?? ? ??, TensorRT-LLM

    ?????? ??? ??? ??

    ?????? ?????(TCO)? ??? ??? ????? ???AI? ???? ??? ?? ?????.??? ?? ????? ????? ???? ??? ?? ??? ?? ?? ?????.?????AI???? ??? ??? ??? ?? ??? ???? ??????? ? ?? ??? ?? ??? ????? ???? ???.?

    ?? ?????GPU???,??? ?? ??(???GPU???? ?????CPU???),????? ??(???,????,?????),????? ??? ?????.??? ???? ??????IT??? ??? ?????,??? ????,?????? ???,???? ?? ????.???????? ???? ?? ??? ????? ??? ?,???? ?? ???? ??? ???? ?? ??? ???? ??? ??,??? ??? ??? ? ??.?

    ?? ????GPT-J 6B? ?? ?? ?? ?????8?? ?? ?? ?????A100??? ?? ???????5.3?,??? ?????5.6? ???? ?? ????.

    ?? 3. GPT-J-6B???A100??H100? ?????? ??? ?? ?? ??

    ????? ??2? ?? ?? ??? ?? ??????700? ?? ????? ?????? ????A100??? ???4.6?? ?? ?? ??? ????.???? ???????3?,??? ?????3.2? ??? ? ??.

    ?? 4. Llama 2 70B???A100??H100? TensorRT-LLM??????? ??? ?? ?? ??

    ?? ??? ????? ??? ????? ??? ??? ??? ???? ???,??? ??? ?? ??? ?? ??? ? ????.?TensorRT,?TensorRT-LLM,????(Triton)??? ??,???(NeMo)??????? ?? NVIDIA? ??? ???? ?? ??? ?? ??? ??????.???? ??,??? ??? ?? ??? ? ?? ??? ???? ??? ??AI???? ?? ???? ??? ???? ???.

    ??? ?? ?? ?????? ??? ??

    ??? ?? ?? ?????? ??? ??? ?? ????? ???? ??? ???? ????.???? ??? ??? ??? ?? ??? ?????. 700? ?? ????? ??? ??? ??2? ?? ?? ?? ??? ?? ??? ????? ??? ???? ?? ?? ???GPU? ?? ?????.????? ??? ?? ?? ???? ??? ??? ?? ?? ?????AI???? ?? ???? ???? ???? ??? ???GPU?? ??? ???? ????.

    ??? TensorRT-LLM? ?? ??? ??? ?? ?????? ???? ?? ?? ??? ??? Tensor ?? ??(Tensor Parallelism)? ????. ?? ?? ???? ???? ?? ?? ??? ? ??? NV??(NVLink)? ?? ??? ?? GPU? ???? ??? ??? ??? ??? ????? ??? ? ?? ??.

    ??? ??? ?? ????? ???? ?? ???? TensorRT-LLM?? ?? ??? ???? ?? NVIDIA AI ??? ??? ??? ?????. ???? ?? ???? ????? GPT ?? ??? ?? ??? ?? ??????(FlashAttention)? ??? ??? ???? ???? ??? ?? ????.

    ?? TensorRT-LLM?? ??? ???? ???? ?? ???? ?? ??? ?? ??? ????? ?? ?? ??? ??? ??? ??. ???? ??? ?? 2, ??AI(OpenAI)? GPT-2 ? GPT-3, ??(Falcon), ???? MPT(Mosaic MPT), ??(BLOOM) ? 12??? ????, ?? ??? ??? TensorRT-LLM ???API? ??? ? ??.

    ??? ??? ?? ???? ??? ?? ??? ?? ??? ???? ??? ??? ?? ??? ? ??? ???? ?? ? ??.

    ????? ??(In-flight Batching)

    ??? ??? ?? ??? ???? ?? ????. ??? ??? ?? ?? ??? ??? ??? ??? ?? ??? ??? ??? ? ??. ??? ??? ?????? ?? ?? ?? ? ?? ??? ????? ????? ?? ????, ??? ??? ? ?? ????. 

    ??? ????? ?? ??? ???? ?? ???? ??? ??? ?? ???? ??? ????? ???? ?? ??? ? ???, ?? ?? ?? ??? ?? ???? ?? ?? ??? ? ??.

    ??? ?? ??? ???? ??, TensorRT-LLM?? ????? ????? ???? ???? ??? ????. ?? ??? ?? ??? ?? ??? ?? ????? ???? ?? ?? ?? ???? ???? ? ??? ?? ????. 

    ????? ??? ???? ?? ??? ??? ??? ????? ?? ?? ??? ???? ??, TensorRT-LLM ???? ??? ???? ???? ?? ????. ?? ?? ?? ??? ?? ?? ?? ?? ? ??? ????. ????? ??? ???? ?? ?? ???? ?? GPU ???? ???? H100 Tensor ?? GPU? ?? ??? ?? ?? ?? ?????? ???? ?? ? ? ?? ???? ?????? ????? ??? ??? ????.

    FP8? ??? H100 ????? ??

    ??? ?? ???? ??? ?? ?? ???? ???? ????, ????? ? ?? 16??? ???? ???? 16?? ?? ???(FP16 ?? BF16) ??? ???? ????. ??? ?? ??? ?? ??? ??? ??? ???? ??? 8?? ?? 4?? ??(INT8 ?? INT4)? ?? ? ?? ???? ????? ??? ? ??. 

    ???? ???? ????? ??? ???? ???? ???? ??? ??????. ???? ??? ? ????? ? ???? ??? GPU ????? ???? ??? ????. ??? ??? ????? ? ? ??? ??? ?????? ?? ? ??? ??? ???? ??? ?????. 

    TensorRT-LLM? ??? NVIDIA H100 GPU(H100 GPU)? ???? ?? ???? ??? FP8 ???? ?? ????, ???? FP8 ??? ???? ????? ??? ???? ? ??. ?? ?? ????? ??(Hopper Transformer Engine) ??? ?? ????, ??? ?? ??? ??? ??? ??.

    H100? ??? FP8 ??? ??? ?? ???? ??? ????? ?? ???? ????? ???? ??? ??? ????? ????. FP8 ???? INT8 ?? INT4? ?? ?? ??? ??? ?? ?? ???? ?????? ?? ?? ??? ???? ?? ??? ??? ????.

    ??

    ??? ?? ??? ??? ???? ??. ??? ?? ????? ?? ???? ??? ?????? ??? ???? ??. ????? ? ? ??? ??? ??? ?? ??? ??? ??? ?? ???? ??? ?? ?? ??? ????.

    ??? ?? ?? ??? ??? ??? ???? ??. ??? ??? ?? ??? ???? ??? ?????? ????. ?? ??? ? ?? ?? ??? ???? ? ? ?? ??? ???? ????.

    ?? ?? ??? ?? ?, ??? ??? ?? ??? ??? ??? ??? ???? ???? ???? ? ??? ??? ??. ???? ???? ????? ??? ?? ??. ???? ?? ??, ?? ? ?? ?????, ?? ???? ??? ?? ?? ?? ??? ???? ??. ?? ??? ?? ?? ?? ???? ??? ? ?? ??? ???? ????.

    TensorRT-LLM? ???? ???? ??? ?? ??? ?? ??? ??, ???, ???? ?? ??? ?? ?? ??? API? TensorRT? ? ?? ????, ???? ??, ??, ?? ??, ?? GPU/?? ?? ???? ????.

    TensorRT-LLM ?? ????

    NVIDIA TensorRT-LLM? ?? ?? ??? ???? ????. ??? ??, ???, ?? ???, ?? ?? ?? ??????? AI ????? ???? NVIDIA AI ??????(AI Enterprise)? ??? NVIDIA ?? ?????? ??? ????. ???? ???? NGC? ?? ????? ?? ???(GitHub)? ?? ?????? ?? TensorRT-LLM? ???? ? ??. 

    ?? ??? ???? ??????NVIDIA ??? ????(Developer Program)? ??? ??? ??.??? ??? ??? ??? ????? ??.????(Gmail),???(Yahoo),???(QQ)??? ?? ?? ??? ??? ???? ????? ??? ?? ? ??.

    Discuss (0)
    +2

    Tags

    人人超碰97caoporen国产