騰訊混元 (Hunyuan) 最新大語言模型 Hunyuan-A13B 今日發布,NVIDIA TensorRT-LLM 作為全球領先的 AI 推理加速引擎,現已提供全面高效的推理支持。開發者與企業用戶現可借助 TensorRT-LLM 的強大優化能力,無縫部署并極致發揮混元模型的卓越性能,開啟高效、穩定、低成本的大模型應用之旅。
騰訊混元:自研大模型的卓越力量
騰訊混元大模型 (Tencent Hunyuan) 是騰訊公司自主研發的全鏈路大語言模型及應用體系。基于強大的 Transformer 架構,該系列模型以其深厚的知識理解、精準的邏輯推理、流暢的文本生成(特別是卓越的中文創作能力)、復雜語境下的可靠任務執行能力著稱,并具備多模態潛力。混元模型深度服務于騰訊內部海量業務場景,并持續向開發者及企業客戶輸出領先的 AI 能力。
最新混元模型的亮點聚焦:
- 性能躍升與架構創新:
- Hunyuan-A13B 在復雜推理、長文本理解(支持 256K 上下文)、指令跟隨等方面取得顯著突破,綜合性能達到業界頂尖水平。
- 采用創新的模型架構:融合了 Grouped Query Attention (GQA) 和 Mixture of Experts (MoE) 結構,在保持甚至提升強大能力的同時,顯著優化了推理效率。
- 支持中英文等多國語言,拓展應用邊界。
- 場景深化:持續優化在搜索、問答、內容創作、代碼生成等核心場景的表現,更貼合實際業務需求。
- 生態開放:積極擁抱開源社區和產業合作,推動大模型技術的普惠應用。繼開源 7B Dense 模型 和 MoE 模型 Hunyuan Large 之后,此次更開源了高性能的 Hunyuan-A13B 大模型,進一步豐富了開放生態。
TensorRT-LLM 加速大模型推理
NVIDIA TensorRT-LLM 提供了最新極致優化的計算 kernel、高性能 Attention 實現、多機多卡通信分布式支持、豐富的并行和量化策略等,向來是 NVIDIA GPU 上大語言模型 (LLM) 推理的性能標桿。此外,TensorRT-LLM 最近引入了 PyTorch backend,利用 PyTorch op 即可搭建、運行模型,極大簡化了新模型的開發和調試;同時,它為模型的推理和配置提供了直觀、簡潔的 LLM API,方便模型的部署和運行。
針對 Hunyuan-A13B 的經典 GQA+MoE 結構,TensorRT-LLM 已經包含了模型基礎組件的運行條件。然而,該模型的結構也有獨特之處:其位置編碼選用 Dynamic NTK Alpha scaling,而且 QK normalization 位于位置編碼之后。利用 PyTorch backend 的編程靈活性,Hunyuan-A13B 模型得以在 TensorRT-LLM 上快速地開發并完善地運行,并提供 Tensor Parallel (TP) / Expert Parallel (EP) / FP8 量化等多種加速策略,實現了高性能推理。
基于 TensorRT-LLM 運行混元模型
以下將使用 PyTorch backend 進行模型性能基準測試以及服務化部署展示。
1. 性能基礎測試示例
a. 準備 benchmarking 測試數據集和 extra-llm-api-config.yml 配置文件:
python3 /path/to/TensorRT-LLM/benchmarks/cpp/prepare_dataset.py \
--tokenizer=/path/to/Hunyuan-A13B \
--stdout token-norm-dist --num-requests=32768 \
--input-mean=1024 --output-mean=1024 \
--input-stdev=0 --output-stdev=0 > /path/to/dataset.txt
cat >/path/to/extra-llm-api-config.yml <<EOF
use_cuda_graph: true
cuda_graph_padding_enabled: true
cuda_graph_batch_sizes:
- 1
- 2
- 4
- 8
- 16
- 32
- 64
- 128
- 256
print_iter_log: true
EOF
b. 使用 trtllm-bench 指令獲取 benchmarking 數據
trtllm-bench \
--model path/Hunyuan-A13B \
--model_path /path/to/Hunyuan-A13B \
throughput \
--backend pytorch \
--max_batch_size 128 \
--max_num_tokens 16384 \
--tp_size 2 \
--dataset /path/to/dataset.txt \
--extra_llm_api_options /path/to/extra-llm-api-config.yml \
--streaming
2. 服務化部署示例
a. 使用 trtllm-serve 指令結合配置文件以啟動服務
trtllm-serve \
/path/to/HunYuan-A13B \
--host localhost \
--port 8000 \
--backend pytorch \
--max_batch_size 128 \
--max_num_tokens 16384 \
--tp_size 2 \
--kv_cache_free_gpu_memory_fraction 0.95 \
--extra_llm_api_options /path/to/extra-llm-api-config.yml
b. 使用 OpenAI API 進行模型推理調用
curl -X POST "http://localhost:8000/v1/chat/completions" \
-H "Content-Type: application/json" \
--data '{
"model": "HunYuan/HunYuan-A13B",
"Max_tokens": 1024,
"Temperature": 0,
"messages": [
{
"role": "user",
"content": "What is Tencent HunYuan?"
}
]
}'
結語與展望:加速生成式 AI 未來
未來,NVIDIA 技術專家團隊將繼續跟進混元模型的演進,探索更極致的推理加速技術(如新一代量化、更精細的算子融合、對 Blackwell 新特性的支持),不斷刷新性能天花板。同時還將持續推動 TensorRT-LLM 與騰訊云 TI 平臺、Hunyuan API 服務等生態的深度集成,提供更便捷的一站式混元模型部署與管理體驗。