NVIDIA Dynamo 新增 GPU 自動縮放、Kubernetes 自動化和網絡優化功能

Tue, 20 May 2025 05:09:19 +0000

在 NVIDIA GTC 2025 上，我們宣布推出 NVIDIA Dynamo ，這是一種高吞吐量、低延遲的開源推理服務框架，用于在大規模分布式環境中部署生成式 AI 和推理模型。 Dynamo 的最新 v0.2 版本包括：在本文中，我們將介紹這些功能，以及它們如何幫助您從 GPU 投資中獲得更多收益。 21 世紀初，云計算迅速采用的關鍵驅動因素之一是 autoscaling，即根據實時需求自動調整計算能力的能力。通過消除提前為峰值負載配置基礎設施的需求，autoscaling 可實現成本效益和運營靈活性。雖然這一概念已得到充分確認，但將其有效應用于 LLM 推理工作負載仍然是一項重大挑戰。傳統的自動縮放依賴于簡單的指標，例如每秒查詢次數 (QPS) 。然而，在現代 LLM 服務環境中，并非所有推理請求都是相同的 (尤其是那些使用解服務等技術的環境) ，

Source

]]>

隆重推出 NVIDIA Dynamo：用于擴展推理AI模型的低延遲分布式推理框架

Tue, 18 Mar 2025 05:47:45 +0000

NVIDIA 今天在 GTC 2025 宣布發布 NVIDIA Dynamo 。NVIDIA Dynamo 是一個高吞吐量、低延遲的開源推理服務框架，用于在大規模分布式環境中部署生成式 AI 和推理模型。在 NVIDIA Blackwell 上運行開源 DeepSeek-R1 模型時，該框架最多可將請求數量提升 30 倍。NVIDIA Dynamo 與 PyTorch、SGLang 等開源工具兼容， NVIDIA TensorRT-LLM 和 vLLM，加入不斷擴大的推理工具社區，助力開發者和 AI 研究人員加速 AI。 NVIDIA Dynamo 引入了幾項關鍵創新，包括：從今天開始，NVIDIA Dynamo 可供開發者在 ai-dynamo/dynamo GitHub 存儲庫中使用。對于希望縮短生產時間并獲得企業級安全性、支持和穩定性的企業，

Source

]]>

Omri Kahalon – NVIDIA 技術博客

NVIDIA Dynamo 新增 GPU 自動縮放、Kubernetes 自動化和網絡優化功能

隆重推出 NVIDIA Dynamo：用于擴展推理AI模型的低延遲分布式推理框架