借助 NVIDIA 在生產應用中集成和部署 Tongyi Qwen3 模型

Fri, 02 May 2025 01:00:00 +0000

阿里巴巴近期發布了其開源的混合推理大語言模型（LLM）通義千問 Qwen3，此次 Qwen3 開源模型系列包含兩款混合專家模型 (MoE) 235B-A22B（總參數 2,350 億，激活參數 220 億）和 30B-A3B，以及六款稠密（Dense）模型 0.6B、1.7B、4B、8B、14B、32B。現在，開發者能夠基于 NVIDIA GPU，使用 NVIDIA TensorRT-LLM、Ollama、SGLang、vLLM 等推理框架高效集成和部署 Qwen3 模型，從而實現極快的詞元 (token) 生成，以及生產級別的應用研發。本文提供使用 Qwen3 系列模型的最佳實踐，我們會展示如何使用上述框架來部署模型實現高效推理。開發者可以根據他們的應用場景需求來選擇合適的框架，例如高吞吐量、低延遲、或是 GPU 內存占用（GPU footprint）。

Source

]]>

Daisy Gao – NVIDIA 技術博客

借助 NVIDIA 在生產應用中集成和部署 Tongyi Qwen3 模型