Dynamo – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Wed, 25 Jun 2025 05:22:11 +0000
zh-CN
hourly
1
196178272 -
NVIDIA GB200 NVL72 和 NVIDIA Dynamo 如何提升 MoE 模型的推理性能
http://www.open-lab.net/zh-cn/blog/how-nvidia-gb200-nvl72-and-nvidia-dynamo-boost-inference-performance-for-moe-models/
Fri, 06 Jun 2025 05:19:07 +0000
http://www.open-lab.net/zh-cn/blog/?p=14403
Continued]]>
最新一批開源大語言模型 (LLMs) 采用了 Mixture of Experts (MoE) 架構,如 DeepSeek R1、Llama 4 和 Qwen3。與傳統的密集模型不同,MoE 在推理期間僅激活專門參數的子集 (稱為專家參數) 。這種選擇性激活可減少計算開銷,從而縮短推理時間并降低部署成本。 當與 NVIDIA Dynamo 的推理優化技術 (例如分解服務) 和 NVIDIA GB200 NVL72 的縱向擴展架構的大域相結合時,MoE 模型可以從復合效應中受益,從而將推理效率提升到新的水平。這種協同作用可以顯著增加 AI 工廠的利潤,使它們能夠在不犧牲用戶體驗的情況下,為每個 GPU 提供更多的用戶請求。 本博客借鑒了我們最近的研究成果,其中我們使用高保真數據中心級GPU性能模擬器評估了不同硬件配置中的數十萬個設計點。我們分析了分解和寬模型并行對MoE吞吐量的影響。
Source
]]>
14403
-
NVIDIA Dynamo 加速 llm-d 社區計劃,推動大規模分布式推理
http://www.open-lab.net/zh-cn/blog/nvidia-dynamo-accelerates-llm-d-community-initiatives-for-advancing-large-scale-distributed-inference/
Wed, 21 May 2025 04:52:27 +0000
http://www.open-lab.net/zh-cn/blog/?p=13915
Continued]]>
在 Red Hat Summit 2025 上推出的 llm-d 社區標志著開源生態系統在加速生成式 AI 推理創新方面邁出了重要一步。llm-d 基于 vLLM 和 Inference Gateway 構建,通過 Kubernetes 原生架構擴展了 vLLM 的功能,從而實現大規模推理部署。 本文將介紹支持 llm-d 項目的關鍵 NVIDIA Dynamo 組件。 大規模分布式推理利用模型并行技術(例如 tensor、pipeline 和 expert parallelism),這些技術依賴于 internode 和 intranode、低延遲、高吞吐量的通信。它們還需要在 disaggregated serving 環境中,在預填充和解碼 GPU 工作者之間快速傳輸 KV 緩存。 為實現高吞吐量、低延遲的分布式和分解數據傳輸,llm-d 利用了 NVIDIA…
Source
]]>
13915
-
NVIDIA Dynamo 新增 GPU 自動縮放、Kubernetes 自動化和網絡優化功能
http://www.open-lab.net/zh-cn/blog/nvidia-dynamo-adds-gpu-autoscaling-kubernetes-automation-and-networking-optimizations/
Tue, 20 May 2025 05:09:19 +0000
http://www.open-lab.net/zh-cn/blog/?p=13920
Continued]]>
在 NVIDIA GTC 2025 上,我們宣布推出 NVIDIA Dynamo ,這是一種高吞吐量、低延遲的開源推理服務框架,用于在大規模分布式環境中部署生成式 AI 和推理模型。 Dynamo 的最新 v0.2 版本包括: 在本文中,我們將介紹這些功能,以及它們如何幫助您從 GPU 投資中獲得更多收益。 21 世紀初,云計算迅速采用的關鍵驅動因素之一是 autoscaling,即根據實時需求自動調整計算能力的能力。通過消除提前為峰值負載配置基礎設施的需求,autoscaling 可實現成本效益和運營靈活性。雖然這一概念已得到充分確認,但將其有效應用于 LLM 推理工作負載仍然是一項重大挑戰。 傳統的自動縮放依賴于簡單的指標,例如每秒查詢次數 (QPS) 。然而,在現代 LLM 服務環境中,并非所有推理請求都是相同的 (尤其是那些使用解服務等技術的環境) ,
Source
]]>
13920
-
LLM 基準測試:基本概念
http://www.open-lab.net/zh-cn/blog/llm-benchmarking-fundamental-concepts/
Wed, 02 Apr 2025 08:02:10 +0000
http://www.open-lab.net/zh-cn/blog/?p=13428
Continued]]>
在過去幾年中,作為廣泛的 AI 革命的一部分, 生成式 AI 和 大語言模型 (LLMs) 越來越受歡迎。隨著基于 LLMs 的應用在各個企業中的推廣,我們需要確定不同 AI 服務解決方案的成本效益。部署 LLM 應用的成本取決于它每秒可以處理的查詢數量,同時響應最終用戶并支持可接受的響應準確度。本文特別關注 LLMs 吞吐量和延遲測量,以評估 LLM 應用成本。 NVIDIA 為開發者提供涵蓋芯片、系統和軟件的全棧創新。NVIDIA 推理軟件堆棧包括 NVIDIA Dynamo 、 NVIDIA TensorRT-LLM 和 NVIDIA NIM 微服務。為支持開發者實現基準測試推理性能,NVIDIA 還提供了開源生成式 AI 基準測試工具 GenAI-Perf 。詳細了解如何 使用 GenAI-Perf 進行基準測試 。 可以使用各種工具來評估 LLMs 的性能。
Source
]]>
13428
-
隆重推出 NVIDIA Dynamo:用于擴展推理AI模型的低延遲分布式推理框架
http://www.open-lab.net/zh-cn/blog/introducing-nvidia-dynamo-a-low-latency-distributed-inference-framework-for-scaling-reasoning-ai-models/
Tue, 18 Mar 2025 05:47:45 +0000
http://www.open-lab.net/zh-cn/blog/?p=13330
Continued]]>
NVIDIA 今天在 GTC 2025 宣布發布 NVIDIA Dynamo 。NVIDIA Dynamo 是一個高吞吐量、低延遲的開源推理服務框架,用于在大規模分布式環境中部署生成式 AI 和推理模型。在 NVIDIA Blackwell 上運行開源 DeepSeek-R1 模型時,該框架最多可將請求數量提升 30 倍。NVIDIA Dynamo 與 PyTorch、SGLang 等開源工具兼容, NVIDIA TensorRT-LLM 和 vLLM,加入不斷擴大的推理工具社區,助力開發者和 AI 研究人員加速 AI。 NVIDIA Dynamo 引入了幾項關鍵創新,包括: 從今天開始,NVIDIA Dynamo 可供開發者在 ai-dynamo/dynamo GitHub 存儲庫中使用。對于希望縮短生產時間并獲得企業級安全性、支持和穩定性的企業,
Source
]]>
13330
人人超碰97caoporen国产