• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 數據科學

    使用 NVIDIA Triton 推理服務器支持的 Amazon SageMaker 多模型端點在同一 GPU 上運行多個 AI 模型

    ?

    去年 11 月,AWS 在 Amazon SageMaker 中集成了開源推理服務軟件 NVIDIA Triton Inference Server機器學習 (ML) 團隊可以使用 Amazon SageMaker 作為一項完全托管的服務來大規模構建和部署 ML 模型。

    通過這種集成,數據科學家和 ML 工程師可以輕松地使用 NVIDIA Triton 多框架、高性能推理,與 Amazon SageMaker 完全管理的模型部署一起使用。

    多模型端點在 GPU 上以低成本實現更高的性能

    今天, AWS 在 Amazon 上宣布了 Amazon GPU 多模型端點( MME )。 MME 提供在 GPU 上運行多個深度學習或 ML 模型的能力,同時使用 Triton 推理服務器。有關詳細信息,請參見 Run Multiple Deep Learning Models on GPU with Amazon SageMaker Multi-Model Endpoints

    MME 支持跨多個模型共享端點后的 GPU 實例,并基于傳入流量動態加載和卸載模型。有了這一點,您可以輕松實現最佳性價比。

    GPU 上 MME 的縮放推斷

    為了利用 GPU 的巨大處理能力, MME 使用 Triton 推理服務器并發模型執行功能,該功能在同一 AWS GPU 實例上并行運行多個模型。該功能通過運行許多模型來幫助 ML 團隊擴展 AI ,這些模型服務于許多推理請求并具有嚴格的延遲要求。您的 ML 團隊將看到 GPU 利用率和推理成本的提高。

    在 Amazon SageMaker 可用的所有地區都可以獲得支持, Triton 推理服務器容器無需額外費用。

    立即在 GPU 上使用 Amazon SageMaker multi-model endpoint

    ?
    ?
    加入 NVIDIA Triton 和 NVIDIA TensorRT 社區?,了解最新產品。

    ?

    0

    標簽

    人人超碰97caoporen国产