鄧順子 – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Mon, 04 Dec 2023 06:23:35 +0000
zh-CN
hourly
1
196178272 -
如何在 NVIDIA TensorRT-LLM 中支持 Qwen 模型
http://www.open-lab.net/zh-cn/blog/qwen-model-support-nvidia-tensorrt-llm/
Mon, 04 Dec 2023 04:32:23 +0000
http://www.open-lab.net/zh-cn/blog/?p=8380
Continued]]>
大型語言模型正以其驚人的新能力推動人工智能的發展,擴大其應用范圍。然而,由于這類模型具有龐大的參數規模,部署和推理的難度和成本極高,這一挑戰一直困擾著 AI 領域。此外,當前存在大量支持模型部署和推理的框架和工具,如 ModelScope 的 Model Pipelines API,和 HuggingFace 的 Text Generation Inference 等,各自都有其獨特的特點和優勢。然而,這些工具往往未能充分發揮 GPU 的性能。 為了解決這些問題,NVIDIA 推出了一種全新的解決方案——TensorRT-LLM。這是一款高度優化的開源計算框架,它將 NVIDIA TensorRT 的深度學習編譯器、FasterTransformer 的優化內核、預處理和后處理,以及多 GPU / 多節點通信等功能封裝在一個簡單的開源 Python/C++ API 中,
Source
]]>
8380
人人超碰97caoporen国产