使用 NVIDIA Triton 推理服務器支持的 Amazon SageMaker 多模型端點在同一 GPU 上運行多個 AI 模型

去年 11 月，AWS 在 Amazon SageMaker 中集成了開源推理服務軟件 NVIDIA Triton Inference Server。機器學習 (ML) 團隊可以使用 Amazon SageMaker 作為一項完全托管的服務來大規模構建和部署 ML 模型。

通過這種集成，數據科學家和 ML 工程師可以輕松地使用 NVIDIA Triton 多框架、高性能推理，與 Amazon SageMaker 完全管理的模型部署一起使用。

多模型端點在 GPU 上以低成本實現更高的性能

今天， AWS 在 Amazon 上宣布了 Amazon GPU 多模型端點（ MME ）。 MME 提供在 GPU 上運行多個深度學習或 ML 模型的能力，同時使用 Triton 推理服務器。有關詳細信息，請參見 Run Multiple Deep Learning Models on GPU with Amazon SageMaker Multi-Model Endpoints 。

MME 支持跨多個模型共享端點后的 GPU 實例，并基于傳入流量動態加載和卸載模型。有了這一點，您可以輕松實現最佳性價比。

GPU 上 MME 的縮放推斷

為了利用 GPU 的巨大處理能力， MME 使用 Triton 推理服務器并發模型執行功能，該功能在同一 AWS GPU 實例上并行運行多個模型。該功能通過運行許多模型來幫助 ML 團隊擴展 AI ，這些模型服務于許多推理請求并具有嚴格的延遲要求。您的 ML 團隊將看到 GPU 利用率和推理成本的提高。

在 Amazon SageMaker 可用的所有地區都可以獲得支持， Triton 推理服務器容器無需額外費用。