Chenjie Luo – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 18 Sep 2024 08:50:29 +0000 zh-CN hourly 1 196178272 使用 NVIDIA NeMo 和 NVIDIA TensorRT 模型優化器對 LLM 進行訓練后量化 http://www.open-lab.net/zh-cn/blog/post-training-quantization-of-llms-with-nvidia-nemo-and-nvidia-tensorrt-model-optimizer/ Tue, 10 Sep 2024 08:47:34 +0000 http://www.open-lab.net/zh-cn/blog/?p=11299 Continued]]> 隨著大語言模型(LLMs)的規模不斷擴大,提供易于使用且高效的部署路徑變得越來越重要,因為為此類 LLMs 提供服務的成本越來越高。一種降低這一成本的方法是應用訓練后量化(PTQ),其中包括減少為經過訓練的模型提供服務所需的計算和內存需求的技術。 在本文中,我們概述了如何在 NVIDIA NeMo 中實施 PTQ。這是通過使用 NVIDIA TensorRT Model Optimizer 庫實現的,該庫可量化和壓縮深度學習模型,以在 GPU 上優化推理。它還使用 NVIDIA TensorRT-LLM,這是一個開源庫,用于優化大語言模型(LLM)推理。我們展示了量化模型的準確性和性能結果。在整個示例中,我們使用了 Llama 3 模型。 PTQ 是 NeMo LLM 構建和自定義功能的自然擴展,使用 NVIDIA TensorRT 模型優化器和 NVIDIA TensorRT…

Source

]]>
11299
NVIDIA TensorRT 模型優化器加速生成人工智能推理性能,現已公開 http://www.open-lab.net/zh-cn/blog/accelerate-generative-ai-inference-performance-with-nvidia-tensorrt-model-optimizer-now-publicly-available/ Wed, 08 May 2024 04:49:34 +0000 http://www.open-lab.net/zh-cn/blog/?p=9822 Continued]]> 在快速發展的環境中,生成人工智能的發展對加速推理速度的需求仍然是一個緊迫的問題。隨著模型規模和復雜性的指數級增長,對快速生成結果以同時服務于眾多用戶的需求也在持續增長。NVIDIA 平臺站在這一努力的前沿,通過芯片、系統、軟件和算法等全技術堆棧的創新,實現永久的性能飛躍。 NVIDIA 正在擴展其推理產品 NVIDIA TensorRT 模型優化器,一個集成了最先進的后期訓練和環中訓練模型優化技術的綜合庫。這些技術包括量化和稀疏性,旨在降低模型復雜性,以實現更高效的下游推理庫,如 NVIDIA TensorRT LLM,從而更有效地優化深度學習模型的推理速度。 作為 NVIDIA TensorRT 生態系統的一部分,NVIDIA TensorRT 模型優化器(簡稱模型優化器)可用于多種流行的體系結構,包括 NVIDIA Hopper、NVIDIA Ampere 和 NVIDIA…

Source

]]>
9822
人人超碰97caoporen国产