NVIDIA Dynamo 新增對 AWS 服務的支持，可大規模提供經濟高效的推理

Amazon Web Services (AWS) 開發者和解決方案架構師現在可以在基于 NVIDIA GPU 的 Amazon EC2 上利用 NVIDIA Dynamo，包括由 NVIDIA Blackwell 加速的 Amazon EC2 P6，并添加了對 Amazon Simple Storage (S3) 的支持，此外還有與 Amazon Elastic Kubernetes Services (EKS) 和 AWS Elastic Fabric Adapter (EFA) 的現有集成。此次更新將大規模服務大語言模型 (LLM) 的性能、可擴展性和成本效益提升到了新的水平。

NVIDIA Dynamo 可擴展生成式 AI 并為其提供服務

NVIDIA Dynamo 是專為大規模分布式環境打造的開源推理服務框架。它支持所有主要的推理框架，例如 PyTorch、SGLang、TensorRT-LLM 和 vLLM，并包含高級優化功能，例如：

分解服務：在不同的 GPU 上分離預填充和解碼推理階段，以提高吞吐量。
LLM 感知路由：路由請求以更大限度地提高 KV 緩存命中率，并避免重新計算成本。
KV 緩存卸載：在經濟高效的內存層次結構中卸載 KV 緩存，以降低推理成本。

這些功能使 NVIDIA Dynamo 能夠為大規模多節點 LLM 部署提供出色的推理性能和成本效益。

與 AWS 服務無縫集成

對于在 AWS 云上服務 LLM 的 AWS 開發者和解決方案架構師，Dynamo 將無縫集成到您現有的推理架構中：

Amazon S3：Dynamo NIXL 現在支持 Amazon S3，這是一種對象存儲服務，可提供幾乎無限的可擴展性、高性能和低成本。計算 KV 緩存需要大量資源且成本高昂。通常會重復使用緩存值而不是重新計算它們。但是，隨著 AI 工作負載的增長，重用所需的 KV 緩存量可能會迅速超過 GPU 甚至主機內存。通過將 KV 緩存卸載到 S3，開發者可以釋放寶貴的 GPU 顯存來處理新請求。這種集成減輕了開發者構建自定義插件的負擔，使他們能夠將 KV 緩存無縫卸載到 S3，并降低總體推理成本。
Amazon EKS：Dynamo 在 Amazon EKS 上運行，這是一種完全托管的 Kubernetes 服務，使開發者能夠運行和擴展容器化應用程序，而無需管理 Kubernetes 基礎設施。隨著 LLM 的規模和復雜性不斷增加，生產推理部署現在需要高級組件，例如可感知 LLM 的請求路由、分解服務和 KV 緩存卸載。這些緊密集成的組件增加了在 Kubernetes 環境中部署的復雜性。借助這種支持，開發者可以將 Dynamo 無縫部署到由 EKS 管理的 Kubernetes 集群中，使他們能夠按需快速啟動新的 Dynamo 副本，以處理推理工作負載高峰。

Dynamo on AWS architecture showing Availability Zone, Virtual Private Cloud, EKS Control Plane and CPU and GPU nodes. — 圖 1：使用 Amazon EKS 的 AWS 部署架構上的 Dynamo

AWS Elastic Fabric Adapter (EFA) ：Dynamo 的 NIXL 數據傳輸庫支持 Amazon 的 EFA，這是一個在 Amazon EC2 實例之間提供低延遲節點間通信的網絡接口。隨著 LLM 規模的擴大并采用稀疏多專家模型架構，跨多個 GPU 進行分片可在保持低延遲的同時提高吞吐量。在這些設置中，針對在 AWS 上運行的工作負載，使用 EFA 跨 GPU 節點傳輸推理數據。借助 Dynamo 的 EFA 支持，開發者可以通過 NIXL 的前端 API 使用簡單的 get、push 和 delete 命令，在節點之間輕松移動 KV 緩存。這樣一來，無需自定義插件即可訪問 Dynamo 的高級功能 (如解服務) ，從而縮短 AI 應用的生產時間。

在 Blackwell 驅動的 Amazon P6 實例上使用 Dynamo 優化推理

Dynamo 與任何 NVIDIA GPU 加速的 AWS 實例兼容，但與由 Blackwell 提供支持的 Amazon EC2 P6 實例搭配使用時，在部署 DeepSeek R1 和最新 Llama 4 等高級推理模型時，可顯著提升性能。Dynamo 通過管理預填充和解碼自動縮放以及速率匹配等關鍵任務，簡化并自動處理分解 MoE 模型的復雜性。

同時，Amazon P6-B200 實例具有第五代 Tensor Core、FP4 加速和 2 倍于上一代的 NVIDIA NVLink 帶寬，而由 NVIDIA GB200 NVL72 提供支持的 P6e-GB200 Ultra 服務器具有獨特的縱向擴展架構，可提供 130 TBps 的聚合多對多帶寬，旨在加速密集型通信模式Dynamo 和 P6 驅動的 Blackwell 實例相結合，可提高 GPU 利用率，提高每美元的請求吞吐量，并推動生產規模 AI 工作負載的可持續利潤增長。

開始使用 NVIDIA Dynamo

深化 Dynamo 與 AWS 的集成可幫助開發者無縫擴展其推理工作負載。

NVIDIA Dynamo 可在任何 NVIDIA GPU 加速的 AWS 實例上運行。通過使用 NVIDIA Dynamo 進行部署，立即開始優化推理堆棧。

NVIDIA Dynamo 新增對 AWS 服務的支持，可大規模提供經濟高效的推理

NVIDIA Dynamo 可擴展生成式 AI 并為其提供服務

與 AWS 服務無縫集成

在 Blackwell 驅動的 Amazon P6 實例上使用 Dynamo 優化推理

開始使用 NVIDIA Dynamo

相關資源

標簽

關于作者

NVIDIA Dynamo 新增對 AWS 服務的支持，可大規模提供經濟高效的推理

NVIDIA Dynamo 可擴展生成式 AI 并為其提供服務

與 AWS 服務無縫集成

在 Blackwell 驅動的 Amazon P6 實例上使用 Dynamo 優化推理

開始使用 NVIDIA Dynamo

相關資源

標簽

關于作者

相關文章

NVIDIA Dynamo 加速 llm-d 社區計劃，推動大規模分布式推理

隆重推出 NVIDIA Dynamo：用于擴展推理AI模型的低延遲分布式推理框架

相關文章

黑客松獲獎者借助 NVIDIA NeMo Agent Toolkit 讓代理式 AI 如生

借助 NVIDIA Isaac 在醫療健康領域推動 AI 機器人開發

借助 AWS 上的 NVIDIA Run:ai 加速 AI 模型編排

從 TB 級到一站式解決方案：AI 驅動的氣候模型走向主流

NVIDIA cuQuantum 增加了動態梯度、DMRG 和模擬加速