• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 生成式人工智能/大語言模型

    NVIDIA?TensorRT-LLM?支持騰訊混元最新大語言模型?Hunyuan-A13B?推理加速

    騰訊混元 (Hunyuan) 最新大語言模型 Hunyuan-A13B 今日發布,NVIDIA TensorRT-LLM 作為全球領先的 AI 推理加速引擎,現已提供全面高效的推理支持。開發者與企業用戶現可借助 TensorRT-LLM 的強大優化能力,無縫部署并極致發揮混元模型的卓越性能,開啟高效、穩定、低成本的大模型應用之旅。

    騰訊混元:自研大模型的卓越力量

    騰訊混元大模型 (Tencent Hunyuan) 是騰訊公司自主研發的全鏈路大語言模型及應用體系。基于強大的 Transformer 架構,該系列模型以其深厚的知識理解、精準的邏輯推理、流暢的文本生成(特別是卓越的中文創作能力)、復雜語境下的可靠任務執行能力著稱,并具備多模態潛力。混元模型深度服務于騰訊內部海量業務場景,并持續向開發者及企業客戶輸出領先的 AI 能力。

    最新混元模型的亮點聚焦:

    • 性能躍升與架構創新:
      • Hunyuan-A13B 在復雜推理、長文本理解(支持 256K 上下文)、指令跟隨等方面取得顯著突破,綜合性能達到業界頂尖水平。
      • 采用創新的模型架構:融合了 Grouped Query Attention (GQA) 和 Mixture of Experts (MoE) 結構,在保持甚至提升強大能力的同時,顯著優化了推理效率。
      • 支持中英文等多國語言,拓展應用邊界。
    • 場景深化:持續優化在搜索、問答、內容創作、代碼生成等核心場景的表現,更貼合實際業務需求。
    • 生態開放:積極擁抱開源社區和產業合作,推動大模型技術的普惠應用。繼開源 7B Dense 模型 和 MoE 模型 Hunyuan Large 之后,此次更開源了高性能的 Hunyuan-A13B 大模型,進一步豐富了開放生態。

    TensorRT-LLM 加速大模型推理

    NVIDIA TensorRT-LLM 提供了最新極致優化的計算 kernel、高性能 Attention 實現、多機多卡通信分布式支持、豐富的并行和量化策略等,向來是 NVIDIA GPU 上大語言模型 (LLM) 推理的性能標桿。此外,TensorRT-LLM 最近引入了 PyTorch backend,利用 PyTorch op 即可搭建、運行模型,極大簡化了新模型的開發和調試;同時,它為模型的推理和配置提供了直觀、簡潔的 LLM API,方便模型的部署和運行。

    針對 Hunyuan-A13B 的經典 GQA+MoE 結構,TensorRT-LLM 已經包含了模型基礎組件的運行條件。然而,該模型的結構也有獨特之處:其位置編碼選用 Dynamic NTK Alpha scaling,而且 QK normalization 位于位置編碼之后。利用 PyTorch backend 的編程靈活性,Hunyuan-A13B 模型得以在 TensorRT-LLM 上快速地開發并完善地運行,并提供 Tensor Parallel (TP) / Expert Parallel (EP) / FP8 量化等多種加速策略,實現了高性能推理。

    基于 TensorRT-LLM 運行混元模型

    以下將使用 PyTorch backend 進行模型性能基準測試以及服務化部署展示。

    1. 性能基礎測試示例
    a. 準備 benchmarking 測試數據集和 extra-llm-api-config.yml 配置文件:

    python3 /path/to/TensorRT-LLM/benchmarks/cpp/prepare_dataset.py \
        --tokenizer=/path/to/Hunyuan-A13B \
        --stdout token-norm-dist --num-requests=32768 \
        --input-mean=1024 --output-mean=1024 \
        --input-stdev=0 --output-stdev=0 > /path/to/dataset.txt
    
    
    cat >/path/to/extra-llm-api-config.yml <<EOF
    use_cuda_graph: true
    cuda_graph_padding_enabled: true
    cuda_graph_batch_sizes:
    - 1
    - 2
    - 4
    - 8
    - 16
    - 32
    - 64
    - 128
    - 256
    print_iter_log: true
    EOF
    

    b. 使用 trtllm-bench 指令獲取 benchmarking 數據

    trtllm-bench \
          --model path/Hunyuan-A13B \
          --model_path /path/to/Hunyuan-A13B \
          throughput \
          --backend pytorch \
          --max_batch_size 128 \
          --max_num_tokens 16384 \
          --tp_size 2 \
          --dataset /path/to/dataset.txt \
          --extra_llm_api_options /path/to/extra-llm-api-config.yml \
          --streaming
    

    2. 服務化部署示例

    a. 使用 trtllm-serve 指令結合配置文件以啟動服務

    trtllm-serve \
      /path/to/HunYuan-A13B \
      --host localhost \
      --port 8000 \
      --backend pytorch \
      --max_batch_size 128 \
      --max_num_tokens 16384 \
      --tp_size 2 \
      --kv_cache_free_gpu_memory_fraction 0.95 \
      --extra_llm_api_options /path/to/extra-llm-api-config.yml
    

    b. 使用 OpenAI API 進行模型推理調用

    curl -X POST "http://localhost:8000/v1/chat/completions" \
      -H "Content-Type: application/json" \
      --data '{
        "model": "HunYuan/HunYuan-A13B",
               "Max_tokens": 1024,
               "Temperature": 0,
        "messages": [
          {
            "role": "user",
            "content": "What is Tencent HunYuan?"
          }
        ]
      }'
    

    結語與展望:加速生成式 AI 未來

    未來,NVIDIA 技術專家團隊將繼續跟進混元模型的演進,探索更極致的推理加速技術(如新一代量化、更精細的算子融合、對 Blackwell 新特性的支持),不斷刷新性能天花板。同時還將持續推動 TensorRT-LLM 與騰訊云 TI 平臺、Hunyuan API 服務等生態的深度集成,提供更便捷的一站式混元模型部署與管理體驗。

    +2

    標簽

    人人超碰97caoporen国产