Amazon Web Services (AWS) 開發者和解決方案架構師現在可以在基于 NVIDIA GPU 的 Amazon EC2 上利用 NVIDIA Dynamo,包括由 NVIDIA Blackwell 加速的 Amazon EC2 P6,并添加了對 Amazon Simple Storage (S3) 的支持,此外還有與 Amazon Elastic Kubernetes Services (EKS) 和 AWS Elastic Fabric Adapter (EFA) 的現有集成。此次更新將大規模服務大語言模型 (LLM) 的性能、可擴展性和成本效益提升到了新的水平。
NVIDIA Dynamo 可擴展生成式 AI 并為其提供服務
NVIDIA Dynamo 是專為大規模分布式環境打造的開源推理服務框架。它支持所有主要的推理框架,例如 PyTorch、SGLang、TensorRT-LLM 和 vLLM,并包含高級優化功能,例如:
- 分解服務:在不同的 GPU 上分離預填充和解碼推理階段,以提高吞吐量。
- LLM 感知路由:路由請求以更大限度地提高 KV 緩存命中率,并避免重新計算成本。
- KV 緩存卸載:在經濟高效的內存層次結構中卸載 KV 緩存,以降低推理成本。
這些功能使 NVIDIA Dynamo 能夠為大規模多節點 LLM 部署提供出色的推理性能和成本效益。
與 AWS 服務無縫集成
對于在 AWS 云上服務 LLM 的 AWS 開發者和解決方案架構師,Dynamo 將無縫集成到您現有的推理架構中:
- Amazon S3:Dynamo NIXL 現在支持 Amazon S3,這是一種對象存儲服務,可提供幾乎無限的可擴展性、高性能和低成本。計算 KV 緩存需要大量資源且成本高昂。通常會重復使用緩存值而不是重新計算它們。但是,隨著 AI 工作負載的增長,重用所需的 KV 緩存量可能會迅速超過 GPU 甚至主機內存。通過將 KV 緩存卸載到 S3,開發者可以釋放寶貴的 GPU 顯存來處理新請求。這種集成減輕了開發者構建自定義插件的負擔,使他們能夠將 KV 緩存無縫卸載到 S3,并降低總體推理成本。
- Amazon EKS:Dynamo 在 Amazon EKS 上運行,這是一種完全托管的 Kubernetes 服務,使開發者能夠運行和擴展容器化應用程序,而無需管理 Kubernetes 基礎設施。隨著 LLM 的規模和復雜性不斷增加,生產推理部署現在需要高級組件,例如可感知 LLM 的請求路由、分解服務和 KV 緩存卸載。這些緊密集成的組件增加了在 Kubernetes 環境中部署的復雜性。借助這種支持,開發者可以將 Dynamo 無縫部署到由 EKS 管理的 Kubernetes 集群中,使他們能夠按需快速啟動新的 Dynamo 副本,以處理推理工作負載高峰。

- AWS Elastic Fabric Adapter (EFA) :Dynamo 的 NIXL 數據傳輸庫支持 Amazon 的 EFA,這是一個在 Amazon EC2 實例之間提供低延遲節點間通信的網絡接口。隨著 LLM 規模的擴大并采用稀疏多專家模型架構,跨多個 GPU 進行分片可在保持低延遲的同時提高吞吐量。在這些設置中,針對在 AWS 上運行的工作負載,使用 EFA 跨 GPU 節點傳輸推理數據。借助 Dynamo 的 EFA 支持,開發者可以通過 NIXL 的前端 API 使用簡單的 get、push 和 delete 命令,在節點之間輕松移動 KV 緩存。這樣一來,無需自定義插件即可訪問 Dynamo 的高級功能 (如解服務) ,從而縮短 AI 應用的生產時間。
在 Blackwell 驅動的 Amazon P6 實例上使用 Dynamo 優化推理
Dynamo 與任何 NVIDIA GPU 加速的 AWS 實例兼容,但與由 Blackwell 提供支持的 Amazon EC2 P6 實例搭配使用時,在部署 DeepSeek R1 和最新 Llama 4 等高級推理模型時,可顯著提升性能。Dynamo 通過管理預填充和解碼自動縮放以及速率匹配等關鍵任務,簡化并自動處理分解 MoE 模型的復雜性。
同時,Amazon P6-B200 實例具有第五代 Tensor Core、FP4 加速和 2 倍于上一代的 NVIDIA NVLink 帶寬,而由 NVIDIA GB200 NVL72 提供支持的 P6e-GB200 Ultra 服務器具有獨特的縱向擴展架構,可提供 130 TBps 的聚合多對多帶寬,旨在加速密集型通信模式Dynamo 和 P6 驅動的 Blackwell 實例相結合,可提高 GPU 利用率,提高每美元的請求吞吐量,并推動生產規模 AI 工作負載的可持續利潤增長。
開始使用 NVIDIA Dynamo
深化 Dynamo 與 AWS 的集成可幫助開發者無縫擴展其推理工作負載。
NVIDIA Dynamo 可在任何 NVIDIA GPU 加速的 AWS 實例上運行。通過使用 NVIDIA Dynamo 進行部署,立即開始優化推理堆棧。
?
?