• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 模型/庫/框架

    在魔搭社區使用 NVIDIA TensorRT-LLM PyTorch 新架構優化 Qwen3 系列模型推理

    摘要:?TensorRT-LLM 采用 PyTorch 全新架構進一步優化模型部署流程,提升開發者使用體驗。

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優化的開源庫,可幫助開發者快速利用最新 LLM 完成應用原型驗證與產品部署。TensorRT-LLM 提供了一個全面的開源 SDK,用于加速和優化 LLM 推理,包含了最新極致優化的計算 Kernel、高性能 Attention 實現、多機多卡通信分布式支持、豐富的并行和量化策略等,從而在 NVIDIA GPU 上實現突破性的 LLM 推理性能。此外,TensorRT-LLM 采用了 PyTorch 的全新架構,提供了直觀簡潔的模型定義 API,便于定義和構建新模型,顯著減少了代碼量,同時大幅降低了 debugging難度,進一步優化了模型部署流程,提升了開發者的使用體驗。

    本文將介紹如何在魔搭社區使用 TensorRT-LLM 加速優化 Qwen3 系列模型推理部署。

    Qwen3 模型

    通義千問 Qwen3 是阿里巴巴開發并開源的混合推理大語言模型(LLM), Qwen3 開源模型系列包含兩款混合專家模型 (MoE) 235B-A22B(總參數 2,350 億,激活參數 220 億)和 30B-A3B,以及六款稠密(Dense)模型 0.6B、1.7B、4B、8B、14B、32B。作為中國首個混合推理模型,Qwen3 在 AIME、LiveCodeBench、ArenaHard、BFCL 等權威評測集上均獲得出色的表現(信息來源于阿里巴巴官方微信公眾號),在推理、指令遵循、Agent 能力、多語言支持等方面均大幅增強,是全球領先的開源模型。

    Qwen 系列開源模型因其突出的模型能力、豐富的模型尺寸和持續更新的生態,在開源社區直接使用、二次開發和落地應用上都有著極其深刻的影響力。

    近期 Qwen3 還進一步補齊了開源序列中的 Embedding 和 Rerank 模型,強大的模型矩陣全面覆蓋從復雜推理、Agent 任務到輕量級部署的需求,進一步鞏固和加強了整個 Qwen 開源生態。

    ModelScope 魔搭社區

    ModelScope 魔搭作為中國最大最活躍的開源模型社區,旨在打造下一代開源的模型即服務共享平臺,為泛 AI 開發者提供靈活、易用、低成本的一站式模型服務產品,讓模型應用更簡單。

    超過 1,600 萬開發者可以在 ModelScope 輕松下載和部署模型,快速體驗模型效果,并通過云端 AI 環境實現在線推理與訓練,無需復雜的本地配置。同時,ModelScope 支持多種靈活的部署方式,包括云端、本地及設備端部署,助力開發者以更低的成本和更高的效率推動 AI 技術的應用落地。

    除了模型和數據集的托管和靈活調用部署,ModelScope 還提供特色功能社區。比如在ModelScope MCP 廣場中上線將近 4,000 多個 MCP server,能夠幫助廣大開發者更好的通過標準化工具接口,實現模型智能邊界的外拓,讓魔搭的開源模型生態能更好的與 MCP 生態產生更多的碰撞與化學效應。(介紹來源于魔搭社區)

    利用 TensorRT-LLM 加速優化 Qwen3 模型推理部署

    在 Qwen3 開源發布的同時,TensorRT-LLM 便已實現支持相關系列模型的推理加速優化部署。針對 Qwen3 推理加速優化,TensorRT-LLM 支持的重要特性包括:

    模型并行:支持 TP(Tensor Parallelism ),EP(Expert Parallelism )和 Attention DP(Data Parallelism )等多機多卡并行方式,滿足大尺寸模型的并行切分以及高服務級別目標的需求。

    量化:除了原生 BF16 數據類型之外,現已支持 per-tensor FP8 量化與 blockwise FP8 ?量化的支持。通過低精度量化顯著降低顯存和算力需求,在保證模型整體精度的同時進一步提升推理部署的延遲和整體吞吐。其中,BF16 模型和 FP8 blockwise 量化模型的 checkpoint 可直接通過 ModelScope 相關頁面進行訪問和下載(例如:Qwen3-235B-A22B-FP8),FP8 per-tensor 量化模型 checkpoint 可通過?NVIDIA TensorRT-Model-Optimizer?工具進行量化處理得到。

    Prefill-Decode 分離式部署:通過將 LLM的prefill 和 decode 階段解耦在不同的 executors 執行,可以自由調整 PD 比例、并行方式乃至異構 GPU 型號,以進一步提升推理系統整體的靈活性和性比價,并綜合調整 TTFT 及 TPOT 等 SLO 級別。

    下面將快速介紹如果通過 TensorRT-LLM 快速部署并拉起由 ModelScope 托管的 Qwen3 模型推理服務(以 Qwen3-235B-A22B 在單機 8 卡 GPU 上推理為例)。

    1. 安裝 TensorRT-LLM

    當前可通過多種方式來進行 TensorRT-LLM 的安裝。

    • pip 安裝
    (Optional) pip3 install torch==2.7.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128
    sudo apt-get -y install libopenmpi-dev && pip3 install --upgrade pip setuptools && pip3 install tensorrt_llm
    1. 使用預編譯好的?NGC 容器鏡像
    2. 源碼編譯容器鏡像:下載 TensorRT-LLM github 源代碼后,在代碼主目錄運行編譯命令
    make -C docker release_build
    1. 從 ModelScope 下載模型 checkpoint
    # Using modelscope cmd tool to download
    pip install modelscope
    modelscope download --model Qwen/Qwen3-235B-A22B
    # or using git clone
    git lfs install
    git clone https://www.modelscope.cn/Qwen/Qwen3-235B-A22B.git
    1. 使用 trtllm-serve 命令進行推理服務部署
    # Setup LLM API configuration file
    cat >./extra-llm-api-config.yml <<EOF
    use_cuda_graph:?true
    cuda_graph_padding_enabled:?true
    cuda_graph_batch_sizes: [1, 2, 4, 8, 16, 32, 64, 128, 256, 384]
    print_iter_log:?true
    enable_attention_dp:?true
    EOF
    # Launch inference service
    trtllm-serve \
    ? Qwen3-235B-A22B/ \
    ? --host localhost \
    ? --port 8000 \
    ? --backend pytorch \
    ? --max_batch_size 161 \
    ? --max_num_tokens 1160 \
    ? --tp_size 8 \
    ? --ep_size 8 \
    ? --pp_size 1 \
    ? --kv_cache_free_gpu_memory_fraction 0.8 \
    ? --extra_llm_api_options ./extra-llm-api-config.yml
    1. 請求服務測試:部署完成后便可通過標準 OpenAI API 進行推理服務請求發送,例如如下 curl 命令
    curl http://localhost:8000/v1/completions \
      -H "Content-Type: application/json" \
      -d '{
          "model": "Qwen3-235B-A22B/",
          "prompt": "Please describe what is Qwen.",
          "max_tokens": 128,
          "temperature": 0
      }'

    在上述已實現的各項優化特性之外,針對 Qwen3 系列模型,TensorRT-LLM 還在不斷研發和探索新的優化方法,包括 kernel 層面的持續優化、算子融合、基于 sparse attention 的超長文本支持、基于 Eagle-3 的投機性采樣、MoE 模型的 expert 負載均衡、新的量化精度(W4AFP8/NVFP4)等等,期待您緊密關注?TensorRT-LLM?最新進展。

    總結

    除了 Qwen3 系列模型,TensorRT-LLM 現已支持 ModelScope 社區主流的生成式AI大模型,模型列表請參考?TensorRT-LLM Support Matrix?和?ModelScope 社區 TensorRT-LLM?專題頁

    通過雙方在生成式 AI 模型軟件加速庫層面的技術合作,使用性能強大、敏捷靈活的軟件棧,能夠大大簡化開發者快速進行大模型的原型驗證與產品研發部署的工作流并獲得極致推理部署性能,進一步加快大模型的廣泛落地和應用生態。

    0

    標簽

    人人超碰97caoporen国产