Omri Kahalon – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 22 May 2025 05:13:11 +0000 zh-CN hourly 1 196178272 NVIDIA Dynamo 新增 GPU 自動縮放、Kubernetes 自動化和網絡優化功能 http://www.open-lab.net/zh-cn/blog/nvidia-dynamo-adds-gpu-autoscaling-kubernetes-automation-and-networking-optimizations/ Tue, 20 May 2025 05:09:19 +0000 http://www.open-lab.net/zh-cn/blog/?p=13920 Continued]]> 在 NVIDIA GTC 2025 上,我們宣布推出 NVIDIA Dynamo ,這是一種高吞吐量、低延遲的開源推理服務框架,用于在大規模分布式環境中部署生成式 AI 和推理模型。 Dynamo 的最新 v0.2 版本包括: 在本文中,我們將介紹這些功能,以及它們如何幫助您從 GPU 投資中獲得更多收益。 21 世紀初,云計算迅速采用的關鍵驅動因素之一是 autoscaling,即根據實時需求自動調整計算能力的能力。通過消除提前為峰值負載配置基礎設施的需求,autoscaling 可實現成本效益和運營靈活性。雖然這一概念已得到充分確認,但將其有效應用于 LLM 推理工作負載仍然是一項重大挑戰。 傳統的自動縮放依賴于簡單的指標,例如每秒查詢次數 (QPS) 。然而,在現代 LLM 服務環境中,并非所有推理請求都是相同的 (尤其是那些使用解服務等技術的環境) ,

Source

]]>
13920
隆重推出 NVIDIA Dynamo:用于擴展推理AI模型的低延遲分布式推理框架 http://www.open-lab.net/zh-cn/blog/introducing-nvidia-dynamo-a-low-latency-distributed-inference-framework-for-scaling-reasoning-ai-models/ Tue, 18 Mar 2025 05:47:45 +0000 http://www.open-lab.net/zh-cn/blog/?p=13330 Continued]]> NVIDIA 今天在 GTC 2025 宣布發布 NVIDIA Dynamo 。NVIDIA Dynamo 是一個高吞吐量、低延遲的開源推理服務框架,用于在大規模分布式環境中部署生成式 AI 和推理模型。在 NVIDIA Blackwell 上運行開源 DeepSeek-R1 模型時,該框架最多可將請求數量提升 30 倍。NVIDIA Dynamo 與 PyTorch、SGLang 等開源工具兼容, NVIDIA TensorRT-LLM 和 vLLM,加入不斷擴大的推理工具社區,助力開發者和 AI 研究人員加速 AI。 NVIDIA Dynamo 引入了幾項關鍵創新,包括: 從今天開始,NVIDIA Dynamo 可供開發者在 ai-dynamo/dynamo GitHub 存儲庫中使用。對于希望縮短生產時間并獲得企業級安全性、支持和穩定性的企業,

Source

]]>
13330
人人超碰97caoporen国产