利用 NVIDIA Triton 和 NVIDIA TensorRT-LLM 及 Kubernetes 實現 LLM 擴展

Tue, 22 Oct 2024 03:19:54 +0000

大語言模型 (LLMs) 已廣泛應用于聊天機器人、內容生成、摘要、分類、翻譯等領域。State-of-the-art LLMs 和基礎模型如 Llama , Gemma , GPT 和 Nemotron ，已經展示了類似人類的理解能力和生成能力。借助這些模型，AI 開發者無需從頭開始經歷昂貴且耗時的訓練過程。可應用檢索增強生成（RAG）、prompt running 和 fine-tuning 等技術來定制基礎模型，并在更短的時間內針對特定任務實現更高的準確性，定制化模型可在生產環境中快速部署，滿足各種用例的推理請求。本文分步介紹了如何使用 NVIDIA TensorRT-LLM 優化 Large Language Models、如何使用 NVIDIA Triton Inference Server 部署優化模型，

Source

]]>

Wenhan Tan – NVIDIA 技術博客

利用 NVIDIA Triton 和 NVIDIA TensorRT-LLM 及 Kubernetes 實現 LLM 擴展