• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • AI 平臺/部署

    NVIDIA Dynamo 加速 llm-d 社區計劃,推動大規模分布式推理

    在 Red Hat Summit 2025 上推出的 llm-d 社區標志著開源生態系統在加速生成式 AI 推理創新方面邁出了重要一步。llm-d 基于 vLLM 和 Inference Gateway 構建,通過 Kubernetes 原生架構擴展了 vLLM 的功能,從而實現大規模推理部署。

    本文將介紹支持 llm-d 項目的關鍵 NVIDIA Dynamo 組件。

    加速推理數據傳輸

    大規模分布式推理利用模型并行技術(例如 tensor、pipeline 和 expert parallelism),這些技術依賴于 internode 和 intranode、低延遲、高吞吐量的通信。它們還需要在 disaggregated serving 環境中,在預填充和解碼 GPU 工作者之間快速傳輸 KV 緩存。

    為實現高吞吐量、低延遲的分布式和分解數據傳輸,llm-d 利用了 NVIDIA NIXL。作為 NVIDIA Dynamo 的一部分,NIXL 是一個高吞吐量、低延遲的點到點通信庫,可提供一致的數據移動 API,以使用相同的語義在不同的內存和存儲層之間快速異步地移動數據。它專門針對推理數據移動進行了優化,支持在各種類型的內存和存儲之間進行無阻塞和非連續的數據傳輸。llm-d 依靠 NIXL 來加速解服務設置中預填充和解碼之間的 KV 緩存數據傳輸。

    預填充和解碼分解

    傳統的大語言模型 (LLM) 部署在同一 GPU 上同時運行計算密集型預填充階段和內存密集型解碼階段。這會導致資源使用效率低下和性能優化受限。分解服務通過將兩個階段分離到不同的 GPU 或節點來解決這一問題,從而實現獨立優化和更好的硬件利用率。

    解服務需要仔細調度預填充和解碼節點之間的請求。為加速解服務在開源社區的采用,NVIDIA 已在 vLLM 項目中為預填充和解碼請求調度算法的設計和實施提供支持。

    展望未來,NVIDIA 很高興能繼續與 llm-d 社區合作,為社區做出更多貢獻,詳情請參閱以下章節。

    動態 GPU 資源規劃

    傳統的 autoscaling 方法依賴于每秒查詢次數 (QPS) 等指標,對于現代 LLM 服務系統來說是不夠的,尤其是那些使用 disaggregated serving 的系統。這是因為推理工作負載在輸入序列長度 (ISL) 和輸出序列長度 (OSL) 方面存在顯著差異。雖然長 ISL 對預填充 GPU 的要求更高,但長 OSL 會對 decode GPU 進行壓力。

    “具有不同 ISL 和 OSL 的動態工作負載使 QPS 等簡單指標無法可靠地預測資源需求或平衡解服務設置中的 GPU 負載。為了應對這種復雜性,NVIDIA 將與 llm-d 社區合作,將 NVIDIA Dynamo Planner 的優勢引入 llm-d Variant Autoscaler 組件。Dynamo Planner 是一款專業規劃引擎,能夠理解 LLM 推理的獨特需求,并能在合適的時間智能地擴展合適類型的 GPU。

    KV cache offloading

    管理在 GPU 顯存中存儲大量 KV 緩存的高昂成本已成為 AI 推理團隊面臨的一項重大挑戰。為應對這一挑戰,NVIDIA 將與社區合作,將 NVIDIA Dynamo KV Cache Manager 的優勢引入 llm-d KV Cache 子系統。

    NVIDIA Dynamo KV Cache Manager 可將訪問頻率較低的 KV 緩存卸載到更具成本效益的存儲解決方案,例如 CPU 主機內存、SSD 或網絡存儲。該策略使組織能夠以遠低于成本的成本存儲大量 KV 緩存,同時釋放寶貴的 GPU 資源用于其他任務。Dynamo KV Cache Manager 利用 NIXL 與不同的存儲提供程序交互,為 llm-d 實現無縫的 KV 緩存分層。

    借助 NVIDIA NIM 提供經過優化的 AI 推理

    對于尋求開源創新的敏捷性以及許可商業產品的可靠性、安全性和支持的企業,NVIDIA NIM 集成了 NVIDIA 和社區的領先推理技術。其中包括 SGLang、NVIDIA TensorRT-LLM 和 vLLM,即將支持 Dynamo 組件。NVIDIA NIM 是一套易于使用的微服務,旨在跨云、數據中心和工作站安全可靠地部署高性能 AI 模型推理,并通過 Red Hat OpenShift AI 上的 NVIDIA AI Enterprise 商業許可證提供支持。

    NVIDIA 和 Red Hat 長期以來一直合作,在 NVIDIA 加速計算上支持 Red Hat OpenShift 和 Red Hat OpenShift AI。為簡化 AI 訓練和推理工作負載的部署、管理和擴展,NVIDIA GPU OperatorNVIDIA Network OperatorNVIDIA NIM Operator 已在 Red Hat OpenShift 上獲得認證,并與 Red Hat OpenShift AI 兼容。

    Red Hat 還將 NVIDIA NIM 集成到 Red Hat OpenShift AI 應用目錄中。Red Hat 支持 Red Hat OpenShift 和 Red Hat OpenShift AI 在任何 NVIDIA 認證系統上運行,目前正在與 NVIDIA 合作驗證對 NVIDIA GB200 NVL72 系統的支持。

    開始推進開源推理

    如需詳細了解 NVIDIA 如何支持 llm-d 項目,請觀看 2025 年 Red Hat 峰會主題演講,了解 llm-d 項目的概述,并聆聽由 Google、Neural Magic、NVIDIA 和 Red Hat 的領導者主持的專家小組討論

    開源軟件是 NVIDIA 云原生技術的基礎。NVIDIA 為開源項目和社區做出貢獻,包括容器運行時、Kubernetes 運算符和擴展以及監控工具。

    我們鼓勵 AI 開發者和研究人員在 GitHub 上參與 llm-d 和 NVIDIA Dynamo 項目的開發,為塑造開源推理的未來做出貢獻。

    0

    標簽

    人人超碰97caoporen国产