在 Red Hat Summit 2025 上推出的 llm-d 社區標志著開源生態系統在加速生成式 AI 推理創新方面邁出了重要一步。llm-d 基于 vLLM 和 Inference Gateway 構建,通過 Kubernetes 原生架構擴展了 vLLM 的功能,從而實現大規模推理部署。
本文將介紹支持 llm-d 項目的關鍵 NVIDIA Dynamo 組件。
加速推理數據傳輸
大規模分布式推理利用模型并行技術(例如 tensor、pipeline 和 expert parallelism),這些技術依賴于 internode 和 intranode、低延遲、高吞吐量的通信。它們還需要在 disaggregated serving 環境中,在預填充和解碼 GPU 工作者之間快速傳輸 KV 緩存。
為實現高吞吐量、低延遲的分布式和分解數據傳輸,llm-d 利用了 NVIDIA NIXL。作為 NVIDIA Dynamo 的一部分,NIXL 是一個高吞吐量、低延遲的點到點通信庫,可提供一致的數據移動 API,以使用相同的語義在不同的內存和存儲層之間快速異步地移動數據。它專門針對推理數據移動進行了優化,支持在各種類型的內存和存儲之間進行無阻塞和非連續的數據傳輸。llm-d 依靠 NIXL 來加速解服務設置中預填充和解碼之間的 KV 緩存數據傳輸。
預填充和解碼分解
傳統的大語言模型 (LLM) 部署在同一 GPU 上同時運行計算密集型預填充階段和內存密集型解碼階段。這會導致資源使用效率低下和性能優化受限。分解服務通過將兩個階段分離到不同的 GPU 或節點來解決這一問題,從而實現獨立優化和更好的硬件利用率。
解服務需要仔細調度預填充和解碼節點之間的請求。為加速解服務在開源社區的采用,NVIDIA 已在 vLLM 項目中為預填充和解碼請求調度算法的設計和實施提供支持。
展望未來,NVIDIA 很高興能繼續與 llm-d 社區合作,為社區做出更多貢獻,詳情請參閱以下章節。
動態 GPU 資源規劃
傳統的 autoscaling 方法依賴于每秒查詢次數 (QPS) 等指標,對于現代 LLM 服務系統來說是不夠的,尤其是那些使用 disaggregated serving 的系統。這是因為推理工作負載在輸入序列長度 (ISL) 和輸出序列長度 (OSL) 方面存在顯著差異。雖然長 ISL 對預填充 GPU 的要求更高,但長 OSL 會對 decode GPU 進行壓力。
“具有不同 ISL 和 OSL 的動態工作負載使 QPS 等簡單指標無法可靠地預測資源需求或平衡解服務設置中的 GPU 負載。為了應對這種復雜性,NVIDIA 將與 llm-d 社區合作,將 NVIDIA Dynamo Planner 的優勢引入 llm-d Variant Autoscaler 組件。Dynamo Planner 是一款專業規劃引擎,能夠理解 LLM 推理的獨特需求,并能在合適的時間智能地擴展合適類型的 GPU。
KV cache offloading
管理在 GPU 顯存中存儲大量 KV 緩存的高昂成本已成為 AI 推理團隊面臨的一項重大挑戰。為應對這一挑戰,NVIDIA 將與社區合作,將 NVIDIA Dynamo KV Cache Manager 的優勢引入 llm-d KV Cache 子系統。
NVIDIA Dynamo KV Cache Manager 可將訪問頻率較低的 KV 緩存卸載到更具成本效益的存儲解決方案,例如 CPU 主機內存、SSD 或網絡存儲。該策略使組織能夠以遠低于成本的成本存儲大量 KV 緩存,同時釋放寶貴的 GPU 資源用于其他任務。Dynamo KV Cache Manager 利用 NIXL 與不同的存儲提供程序交互,為 llm-d 實現無縫的 KV 緩存分層。
借助 NVIDIA NIM 提供經過優化的 AI 推理
對于尋求開源創新的敏捷性以及許可商業產品的可靠性、安全性和支持的企業,NVIDIA NIM 集成了 NVIDIA 和社區的領先推理技術。其中包括 SGLang、NVIDIA TensorRT-LLM 和 vLLM,即將支持 Dynamo 組件。NVIDIA NIM 是一套易于使用的微服務,旨在跨云、數據中心和工作站安全可靠地部署高性能 AI 模型推理,并通過 Red Hat OpenShift AI 上的 NVIDIA AI Enterprise 商業許可證提供支持。
NVIDIA 和 Red Hat 長期以來一直合作,在 NVIDIA 加速計算上支持 Red Hat OpenShift 和 Red Hat OpenShift AI。為簡化 AI 訓練和推理工作負載的部署、管理和擴展,NVIDIA GPU Operator、NVIDIA Network Operator 和 NVIDIA NIM Operator 已在 Red Hat OpenShift 上獲得認證,并與 Red Hat OpenShift AI 兼容。
Red Hat 還將 NVIDIA NIM 集成到 Red Hat OpenShift AI 應用目錄中。Red Hat 支持 Red Hat OpenShift 和 Red Hat OpenShift AI 在任何 NVIDIA 認證系統上運行,目前正在與 NVIDIA 合作驗證對 NVIDIA GB200 NVL72 系統的支持。
開始推進開源推理
如需詳細了解 NVIDIA 如何支持 llm-d 項目,請觀看 2025 年 Red Hat 峰會主題演講,了解 llm-d 項目的概述,并聆聽由 Google、Neural Magic、NVIDIA 和 Red Hat 的領導者主持的專家小組討論。
開源軟件是 NVIDIA 云原生技術的基礎。NVIDIA 為開源項目和社區做出貢獻,包括容器運行時、Kubernetes 運算符和擴展以及監控工具。
我們鼓勵 AI 開發者和研究人員在 GitHub 上參與 llm-d 和 NVIDIA Dynamo 項目的開發,為塑造開源推理的未來做出貢獻。