Daisy Gao – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 14 May 2025 08:30:55 +0000 zh-CN hourly 1 196178272 借助 NVIDIA 在生產應用中集成和部署 Tongyi Qwen3 模型 http://www.open-lab.net/zh-cn/blog/integrate-and-deploy-tongyi-qwen3-models-into-production-applications-with-nvidia/ Fri, 02 May 2025 01:00:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=13688 Continued]]> 阿里巴巴近期發布了其開源的混合推理大語言模型(LLM)通義千問 Qwen3,此次 Qwen3 開源模型系列包含兩款混合專家模型 (MoE) 235B-A22B(總參數 2,350 億,激活參數 220 億)和 30B-A3B,以及六款稠密(Dense)模型 0.6B、1.7B、4B、8B、14B、32B。 現在,開發者能夠基于 NVIDIA GPU,使用 NVIDIA TensorRT-LLM、Ollama、SGLang、vLLM 等推理框架高效集成和部署 Qwen3 模型,從而實現極快的詞元 (token) 生成,以及生產級別的應用研發。 本文提供使用 Qwen3 系列模型的最佳實踐,我們會展示如何使用上述框架來部署模型實現高效推理。開發者可以根據他們的應用場景需求來選擇合適的框架,例如高吞吐量、低延遲、或是 GPU 內存占用(GPU footprint)。

Source

]]>
13688
人人超碰97caoporen国产