NVIDIA TensorRT-LLM 支持騰訊混元最新大語言模型 Hunyuan-A13B 推理加速

騰訊混元 (Hunyuan) 最新大語言模型 Hunyuan-A13B 今日發布，NVIDIA TensorRT-LLM 作為全球領先的 AI 推理加速引擎，現已提供全面高效的推理支持。開發者與企業用戶現可借助 TensorRT-LLM 的強大優化能力，無縫部署并極致發揮混元模型的卓越性能，開啟高效、穩定、低成本的大模型應用之旅。

騰訊混元：自研大模型的卓越力量

騰訊混元大模型 (Tencent Hunyuan) 是騰訊公司自主研發的全鏈路大語言模型及應用體系。基于強大的 Transformer 架構，該系列模型以其深厚的知識理解、精準的邏輯推理、流暢的文本生成（特別是卓越的中文創作能力）、復雜語境下的可靠任務執行能力著稱，并具備多模態潛力。混元模型深度服務于騰訊內部海量業務場景，并持續向開發者及企業客戶輸出領先的 AI 能力。

最新混元模型的亮點聚焦：

性能躍升與架構創新：
- Hunyuan-A13B 在復雜推理、長文本理解（支持 256K 上下文）、指令跟隨等方面取得顯著突破，綜合性能達到業界頂尖水平。
- 采用創新的模型架構：融合了 Grouped Query Attention (GQA) 和 Mixture of Experts (MoE) 結構，在保持甚至提升強大能力的同時，顯著優化了推理效率。
- 支持中英文等多國語言，拓展應用邊界。

場景深化：持續優化在搜索、問答、內容創作、代碼生成等核心場景的表現，更貼合實際業務需求。

生態開放：積極擁抱開源社區和產業合作，推動大模型技術的普惠應用。繼開源 7B Dense 模型和 MoE 模型 Hunyuan Large 之后，此次更開源了高性能的 Hunyuan-A13B 大模型，進一步豐富了開放生態。

TensorRT-LLM 加速大模型推理

NVIDIA TensorRT-LLM 提供了最新極致優化的計算 kernel、高性能 Attention 實現、多機多卡通信分布式支持、豐富的并行和量化策略等，向來是 NVIDIA GPU 上大語言模型 (LLM) 推理的性能標桿。此外，TensorRT-LLM 最近引入了 PyTorch backend，利用 PyTorch op 即可搭建、運行模型，極大簡化了新模型的開發和調試；同時，它為模型的推理和配置提供了直觀、簡潔的 LLM API，方便模型的部署和運行。

針對 Hunyuan-A13B 的經典 GQA+MoE 結構，TensorRT-LLM 已經包含了模型基礎組件的運行條件。然而，該模型的結構也有獨特之處：其位置編碼選用 Dynamic NTK Alpha scaling，而且 QK normalization 位于位置編碼之后。利用 PyTorch backend 的編程靈活性，Hunyuan-A13B 模型得以在 TensorRT-LLM 上快速地開發并完善地運行，并提供 Tensor Parallel (TP) / Expert Parallel (EP) / FP8 量化等多種加速策略，實現了高性能推理。

基于 TensorRT-LLM 運行混元模型

以下將使用 PyTorch backend 進行模型性能基準測試以及服務化部署展示。

1. 性能基礎測試示例
a. 準備 benchmarking 測試數據集和 extra-llm-api-config.yml 配置文件：

python3 /path/to/TensorRT-LLM/benchmarks/cpp/prepare_dataset.py \
    --tokenizer=/path/to/Hunyuan-A13B \
    --stdout token-norm-dist --num-requests=32768 \
    --input-mean=1024 --output-mean=1024 \
    --input-stdev=0 --output-stdev=0 > /path/to/dataset.txt


cat >/path/to/extra-llm-api-config.yml <<EOF
use_cuda_graph: true
cuda_graph_padding_enabled: true
cuda_graph_batch_sizes:
- 1
- 2
- 4
- 8
- 16
- 32
- 64
- 128
- 256
print_iter_log: true
EOF

b. 使用 trtllm-bench 指令獲取 benchmarking 數據

trtllm-bench \
      --model path/Hunyuan-A13B \
      --model_path /path/to/Hunyuan-A13B \
      throughput \
      --backend pytorch \
      --max_batch_size 128 \
      --max_num_tokens 16384 \
      --tp_size 2 \
      --dataset /path/to/dataset.txt \
      --extra_llm_api_options /path/to/extra-llm-api-config.yml \
      --streaming

2. 服務化部署示例

a. 使用 trtllm-serve 指令結合配置文件以啟動服務

trtllm-serve \
  /path/to/HunYuan-A13B \
  --host localhost \
  --port 8000 \
  --backend pytorch \
  --max_batch_size 128 \
  --max_num_tokens 16384 \
  --tp_size 2 \
  --kv_cache_free_gpu_memory_fraction 0.95 \
  --extra_llm_api_options /path/to/extra-llm-api-config.yml

b. 使用 OpenAI API 進行模型推理調用

curl -X POST "http://localhost:8000/v1/chat/completions" \
  -H "Content-Type: application/json" \
  --data '{
    "model": "HunYuan/HunYuan-A13B",
           "Max_tokens": 1024,
           "Temperature": 0,
    "messages": [
      {
        "role": "user",
        "content": "What is Tencent HunYuan?"
      }
    ]
  }'

結語與展望：加速生成式 AI 未來

未來，NVIDIA 技術專家團隊將繼續跟進混元模型的演進，探索更極致的推理加速技術（如新一代量化、更精細的算子融合、對 Blackwell 新特性的支持），不斷刷新性能天花板。同時還將持續推動 TensorRT-LLM 與騰訊云 TI 平臺、Hunyuan API 服務等生態的深度集成，提供更便捷的一站式混元模型部署與管理體驗。