Matheen Raza – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 22 May 2025 04:57:40 +0000 zh-CN hourly 1 196178272 NVIDIA Dynamo 加速 llm-d 社區計劃,推動大規模分布式推理 http://www.open-lab.net/zh-cn/blog/nvidia-dynamo-accelerates-llm-d-community-initiatives-for-advancing-large-scale-distributed-inference/ Wed, 21 May 2025 04:52:27 +0000 http://www.open-lab.net/zh-cn/blog/?p=13915 Continued]]> 在 Red Hat Summit 2025 上推出的 llm-d 社區標志著開源生態系統在加速生成式 AI 推理創新方面邁出了重要一步。llm-d 基于 vLLM 和 Inference Gateway 構建,通過 Kubernetes 原生架構擴展了 vLLM 的功能,從而實現大規模推理部署。 本文將介紹支持 llm-d 項目的關鍵 NVIDIA Dynamo 組件。 大規模分布式推理利用模型并行技術(例如 tensor、pipeline 和 expert parallelism),這些技術依賴于 internode 和 intranode、低延遲、高吞吐量的通信。它們還需要在 disaggregated serving 環境中,在預填充和解碼 GPU 工作者之間快速傳輸 KV 緩存。 為實現高吞吐量、低延遲的分布式和分解數據傳輸,llm-d 利用了 NVIDIA…

Source

]]>
13915
借助 Rafay 為企業 AI 工作負載提供 NVIDIA 加速計算 http://www.open-lab.net/zh-cn/blog/delivering-nvidia-accelerated-computing-for-enterprise-ai-workloads-with-rafay/ Wed, 09 Apr 2025 06:11:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=13506 Continued]]> 生成式 AI 在全球的應用推動了全球對加速計算硬件的巨大需求。在企業中,這加快了加速私有云基礎設施的部署。在地區層面,對計算基礎設施的需求催生了一類新的云提供商,他們為 AI 工作負載提供加速計算 (GPU) 能力,也稱為 GPU 云提供商或 AI 云。其中包括可能符合 NVIDIA 云合作伙伴 (NCP) 要求的云提供商。 這些云提供商提供 GPU 加速的硬件和專為其區域客戶群定制的更高級別的 AI 服務。對于企業私有云和云提供商來說,任務很明確:讓 AI 基礎設施更易于使用,同時提供精心制作的解決方案,以滿足其服務的企業和地區的特定需求。 在本文中,我們將討論構建自助 GPU 云的關鍵技術要求和挑戰,以及 NVIDIA 合作伙伴 Rafay 的平臺即服務 (PaaS) 模型如何應對這些挑戰。

Source

]]>
13506
使用 NVIDIA NIM Operator 在 Kubernetes 上管理 AI 推理流程 http://www.open-lab.net/zh-cn/blog/managing-ai-inference-pipelines-on-kubernetes-with-nvidia-nim-operator/ Mon, 30 Sep 2024 09:15:08 +0000 http://www.open-lab.net/zh-cn/blog/?p=11495 Continued]]> NVIDIA NIM 微服務 是一套易于使用的云原生微服務,可縮短產品上市時間,并簡化生成式 AI 模型在云、數據中心、云和 NVIDIA GPU 加速工作站的部署,開發者對這些微服務表現出極大興趣。 為滿足不同用例的需求,NVIDIA 正在推出各種打包的 AI 模型作為 NVIDIA NIM 微服務,以在 生成式 AI 推理工作流 中啟用關鍵功能。 典型的生成式 AI 應用集成了多個不同的 NIM 微服務。例如,在 RAG 工作流中,多回合對話式 AI 使用 LLM、嵌入和重新排序 NIM 微服務。這些微服務的部署和生命周期管理及其對生產環境中的生成式 AI 工作流的依賴項可能會給 MLOps 和 LLMOps 工程師以及 Kubernetes 集群管理員帶來額外的工作量。 因此,NVIDIA 宣布推出 NVIDIA NIM Operator ,

Source

]]>
11495
人人超碰97caoporen国产