kubernetes – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 30 Apr 2025 08:55:00 +0000 zh-CN hourly 1 196178272 NVIDIA NIM Operator 2.0 借助 NVIDIA NeMo 微服務支持提高 AI 部署效率 http://www.open-lab.net/zh-cn/blog/nvidia-nim-operator-2-0-boosts-ai-deployment-with-nvidia-nemo-microservices-support/ Tue, 29 Apr 2025 08:49:35 +0000 http://www.open-lab.net/zh-cn/blog/?p=13672 Continued]]> NVIDIA 的首個版本 NIM 運算符 簡化了推理工作流的部署和生命周期管理 NVIDIA NIM 微服務,減少 MLOps、LLMOps 工程師和 Kubernetes 管理員的工作負載。它支持在 Kubernetes 集群上輕松快速地部署、自動擴展和升級 NIM。 詳細了解首個版本 。 我們的客戶和合作伙伴一直在使用 NIM Operator 來高效管理其應用的推理流程,例如聊天機器人、代理式 RAG 和虛擬藥物研發。我們 Cisco Compute Solutions 團隊的合作伙伴正在使用 NIM Operator 部署適用于 RAG 的 NVIDIA AI Blueprint ,作為 Cisco Validated Design 的一部分。 “ 我們戰略性地將 NVIDIA NIM Operator 與 思科驗證設計 (CVD) 集成到我們的 AI…

Source

]]>
13672
NVIDIA 開源 Run:ai 調度程序以推動社區協作 http://www.open-lab.net/zh-cn/blog/nvidia-open-sources-runai-scheduler-to-foster-community-collaboration/ Tue, 01 Apr 2025 08:12:55 +0000 http://www.open-lab.net/zh-cn/blog/?p=13437 Continued]]> 今天,NVIDIA 宣布推出 KAI Scheduler 的開源版本,這是一種 Kubernetes-native GPU 調度解決方案,現已在 Apache 2.0 許可證下提供。KAI Scheduler 最初在 Run:ai 平臺中開發,現在可供社區使用,同時繼續作為 NVIDIA Run:ai 平臺 的一部分打包和交付。該計劃強調了 NVIDIA 致力于推動開源和企業 AI 基礎設施的發展,打造積極協作的社區,鼓勵貢獻、反饋和創新。 在本文中,我們概述了 KAI Scheduler 的技術細節,強調了其對 IT 和 ML 團隊的價值,并解釋了調度周期和操作。 管理 GPU 和 CPU 上的 AI 工作負載帶來了傳統資源調度器通常無法解決的一系列挑戰。調度程序專為解決以下問題而開發: AI 工作負載可能會迅速變化。例如,

Source

]]>
13437
Volcano 調度程序中防止 GPU 碎片的實用技巧 http://www.open-lab.net/zh-cn/blog/practical-tips-for-preventing-gpu-fragmentation-for-volcano-scheduler/ Mon, 31 Mar 2025 08:16:55 +0000 http://www.open-lab.net/zh-cn/blog/?p=13440 Continued]]> 在 NVIDIA,我們以精準和創新解決復雜的基礎設施挑戰為豪。當 Volcano 在其 NVIDIA DGX 云調配的 Kubernetes 集群中面臨 GPU 利用率不足時,我們介入提供了一個不僅達到而且超過預期的解決方案。 通過將先進的調度技術與對分布式工作負載的深入理解相結合,我們實現了約 90% 的 GPU 占用率,遠高于 80% 的合同目標。下面詳細介紹了問題、我們的方法和結果。 DGX 云 Kubernetes 集群由數千個 GPU 組成,每個 GPU 均配備多個 NVIDIA L40S GPU。該集群支持多種工作負載: 盡管有可靠的硬件,但該集群仍存在 GPU 碎片化問題,導致節點被部分占用,無法用于大型作業。這種效率低下的情況又因 Volcano 調度程序 它使用了一個分組調度算法。 如果不進行干預,我們可能會違反合同協議,維持至少 80%

Source

]]>
13440
借助 NVIDIA Mission Control 實現 AI 工廠自動化 http://www.open-lab.net/zh-cn/blog/automating-ai-factory-operations-with-nvidia-mission-control/ Tue, 25 Mar 2025 08:51:04 +0000 http://www.open-lab.net/zh-cn/blog/?p=13363 Continued]]> DeepSeek-R1 等先進的 AI 模型證明,企業現在可以構建專用于自己的數據和專業知識的尖端 AI 模型。這些模型可以根據獨特的用例進行定制,以前所未有的方式應對各種挑戰。 基于早期 AI 采用者的成功,許多組織正在將重點轉移到全面生產的 AI 工廠 。然而,創建高效 AI 工廠的過程復雜且耗時,并且不同于構建特定于垂直行業的 AI 的目標。 它涉及到樓宇自動化,用于調配和管理復雜的基礎設施,在最新平臺上維護具有專業技能的站點可靠性工程師(SRE)團隊,以及大規模開發流程以實現超大規模的效率。此外,開發者需要一種方法來利用 AI 基礎設施的強大功能,同時具備超大規模數據中心的敏捷性、效率和規模,同時避免成本、復雜性和專業知識等方面的負擔。 本文將介紹 NVIDIA Mission Control (一個為使用 NVIDIA 參考架構構建的 AI…

Source

]]>
13363
借助 NVIDIA NIM 和 NVIDIA Holoscan for Media 增強直播媒體工作流程效率 http://www.open-lab.net/zh-cn/blog/supercharging-live-media-workflows-with-nvidia-nim-and-nvidia-holoscan-for-media/ Wed, 05 Mar 2025 05:44:44 +0000 http://www.open-lab.net/zh-cn/blog/?p=13134 Continued]]> NVIDIA Holoscan for Media 是一個 NVIDIA 加速平臺,專為多供應商實時制作和 AI 而設計。它將在 GTC 上展示,重點介紹可增強實時制作工作流的 NVIDIA NIM、AI SDK 和微服務。 容器編排平臺基于 Kubernetes 構建,通過 NVIDIA 組件 (例如 GPU 和網絡運算符)、ST 2110 的性能調優和監控堆棧簡化了媒體計時、同步和管理。參考應用使用 NVIDIA Rivermax、NVIDIA NMOS 和 NVIDIA DeepStream SDK,使您能夠從一開始就運行真實的直播媒體工作流。 Holoscan for Media 通過將新一代模型與未壓縮的直播媒體管線連接起來,提供創新的觀眾體驗和制作流程,從而加速行業對 AI 的采用。 NIM 作為通過 Helm 圖表部署在 Kubernetes…

Source

]]>
13134
在 Kubernetes 上實現 NVIDIA NIM 微服務的水平自動縮放 http://www.open-lab.net/zh-cn/blog/horizontal-autoscaling-of-nvidia-nim-microservices-on-kubernetes/ Wed, 22 Jan 2025 05:51:06 +0000 http://www.open-lab.net/zh-cn/blog/?p=12926 Continued]]> NVIDIA NIM 微服務是可部署在 Kubernetes 上的模型推理容器。在生產環境中,了解這些微服務的計算和內存配置對于制定成功的自動擴展計劃至關重要。 在本文中,我們將介紹如何通過適用于 LLMs 的 NVIDIA NIM 模型設置和使用 Kubernetes 橫向 Pod 自動擴展(HPA),以便根據特定的自定義指標自動擴展和縮小微服務。 要遵循本教程,您需要以下預備知識列表: 本教程中的第一步是使用適當的組件設置 Kubernetes 集群,以啟用指標丟棄和 Kubernetes HPA 服務的可用性。這需要以下組件: Metrics Server 負責從 Kubelets 中抓取資源指標,并通過 Metrics API 在 Kubernetes API Server 中公開這些指標。

Source

]]>
12926
借助 NVIDIA DOCA 平臺框架,助力新一代 DPU 加速云基礎設施 http://www.open-lab.net/zh-cn/blog/powering-the-next-wave-of-dpu-accelerated-cloud-infrastructures-with-nvidia-doca-platform-framework/ Mon, 13 Jan 2025 08:06:11 +0000 http://www.open-lab.net/zh-cn/blog/?p=12623 Continued]]> 越來越多的企業組織開始采用加速計算來滿足生成式 AI、5G 電信和主權云的需求。NVIDIA 發布了 DOCA 平臺框架 (DPF),該框架提供了基礎構建塊來釋放 NVIDIA BlueField DPU 的強大功能,并優化 GPU 加速的計算平臺。作為一種編排框架和實施藍圖,DPF 使開發者、服務提供商和企業能夠無縫創建 BlueField 加速的云原生軟件平臺。 通過簡化 DPU 調配、生命周期管理和服務編排,DPF 使 BlueField DPU 可在 Kubernetes 環境中廣泛使用,以加速 AI 和其他現代工作負載。此外,DPF 還強化了由 BlueField 加速的應用和服務組成的生態系統,推動可擴展云平臺的發展。 NVIDIA 對 CPU-GPU-DPU 三功能的承諾眾所周知,隨著 DPF 的推出,NVIDIA 正在此架構的 DPU 方面實現大膽的飛躍。

Source

]]>
12623
聚焦:Perplexity AI 利用 NVIDIA 推理棧每月服務 4 億個搜索請求 http://www.open-lab.net/zh-cn/blog/spotlight-perplexity-ai-serves-400-million-search-queries-a-month-using-nvidia-inference-stack/ Thu, 05 Dec 2024 07:26:26 +0000 http://www.open-lab.net/zh-cn/blog/?p=12401 Continued]]> 對 AI 賦能服務的需求持續快速增長,這給 IT 和基礎設施團隊帶來了越來越大的壓力。這些團隊的任務是配置必要的硬件和軟件來滿足這一需求,同時平衡成本效益和最佳用戶體驗。Perplexity AI 的推理團隊面臨著這一挑戰。Perplexity AI 是一款由 AI 驅動的搜索引擎,每月可處理超過 435 million 個查詢。每個查詢代表多個 AI 推理請求。 為了滿足這一需求,Perplexity 推理團隊轉而使用 NVIDIA H100 Tensor Core GPUs 、 NVIDIA Triton Inference Server 和 NVIDIA TensorRT-LLM 來進行經濟高效的 大語言模型(LLM) 部署。本文根據他們的實操經驗,詳細介紹了一些部署最佳實踐和節省的 TCO。 為了支持其廣泛的用戶群并滿足搜索、總結和問答等方面的各種請求,

Source

]]>
12401
利用 NVIDIA Triton 和 NVIDIA TensorRT-LLM 及 Kubernetes 實現 LLM 擴展 http://www.open-lab.net/zh-cn/blog/scaling-llms-with-nvidia-triton-and-nvidia-tensorrt-llm-using-kubernetes/ Tue, 22 Oct 2024 03:19:54 +0000 http://www.open-lab.net/zh-cn/blog/?p=11626 Continued]]> 大語言模型 (LLMs) 已廣泛應用于聊天機器人、內容生成、摘要、分類、翻譯等領域。State-of-the-art LLMs 和基礎模型如 Llama , Gemma , GPT 和 Nemotron ,已經展示了類似人類的理解能力和生成能力。借助這些模型,AI 開發者無需從頭開始經歷昂貴且耗時的訓練過程。 可應用 檢索增強生成(RAG)、prompt running 和 fine-tuning 等技術來定制基礎模型,并在更短的時間內針對特定任務實現更高的準確性,定制化模型可在生產環境中快速部署,滿足各種用例的推理請求。 本文分步介紹了如何使用 NVIDIA TensorRT-LLM 優化 Large Language Models、如何使用 NVIDIA Triton Inference Server 部署優化模型,

Source

]]>
11626
借助 NVIDIA 云原生堆棧實現 AI 應用開發簡化 http://www.open-lab.net/zh-cn/blog/simplify-ai-application-development-with-nvidia-cloud-native-stack/ Wed, 16 Oct 2024 06:55:42 +0000 http://www.open-lab.net/zh-cn/blog/?p=11727 Continued]]> 在快速發展的 AI 和數據科學領域,對可擴展、高效且靈活的基礎設施的需求從未如此高。傳統基礎設施通常難以滿足現代 AI 工作負載的需求,從而導致開發和部署流程中的瓶頸。隨著組織努力大規模部署 AI 模型和數據密集型應用,云原生技術已成為游戲規則的變革性變革。 為了幫助組織完成其人工智能應用程序開發流程, NVIDIA 開發并驗證了 NVIDIA 云原生堆棧(CNS),這是一種開源參考架構,NVIDIA 用于測試和認證所有支持的人工智能軟件。 借助 CNS,您可以運行和測試由 Kubernetes 編排的容器化 GPU 加速應用程序,并在支持這些功能的平臺上輕松訪問諸如 Multi-Instance GPU(MIG)和 GPUDirect RDMA 等功能。CNS 用于開發和測試目的,但在 CNS 上開發的應用程序隨后可以在基于企業 Kubernetes 的平臺上在生產環境中運行。

Source

]]>
11727
借助 Google Kubernetes Engine 和 NVIDIA NIM 實現高性能 AI 推理擴展 http://www.open-lab.net/zh-cn/blog/scale-high-performance-ai-inference-with-google-kubernetes-engine-and-nvidia-nim/ Wed, 16 Oct 2024 06:50:10 +0000 http://www.open-lab.net/zh-cn/blog/?p=11724 Continued]]> AI 模型的快速演進推動了對更高效、更可擴展的推理解決方案的需求。在企業組織努力利用 AI 的強大功能時,他們在部署、管理和擴展 AI 推理工作負載方面面臨挑戰。 NVIDIA NIM 和 Google Kubernetes Engine (GKE) 共同提供了應對這些挑戰的強大解決方案。NVIDIA 與 Google Cloud 合作,在 GKE 上引入 NVIDIA NIM,以加速 AI 推理,通過 Google Cloud Marketplace 提供的簡化部署,在大規模提供安全、可靠和高性能的推理。 NVIDIA NIM 是 NVIDIA AI Enterprise 軟件平臺的一部分,現已在 Google Cloud Marketplace 上提供。它是一套易于使用的微服務,旨在安全、可靠地部署高性能 AI 模型推理。NIM 現已與 GKE 集成,

Source

]]>
11724
使用 NVIDIA NIM Operator 在 Kubernetes 上管理 AI 推理流程 http://www.open-lab.net/zh-cn/blog/managing-ai-inference-pipelines-on-kubernetes-with-nvidia-nim-operator/ Mon, 30 Sep 2024 09:15:08 +0000 http://www.open-lab.net/zh-cn/blog/?p=11495 Continued]]> NVIDIA NIM 微服務 是一套易于使用的云原生微服務,可縮短產品上市時間,并簡化生成式 AI 模型在云、數據中心、云和 NVIDIA GPU 加速工作站的部署,開發者對這些微服務表現出極大興趣。 為滿足不同用例的需求,NVIDIA 正在推出各種打包的 AI 模型作為 NVIDIA NIM 微服務,以在 生成式 AI 推理工作流 中啟用關鍵功能。 典型的生成式 AI 應用集成了多個不同的 NIM 微服務。例如,在 RAG 工作流中,多回合對話式 AI 使用 LLM、嵌入和重新排序 NIM 微服務。這些微服務的部署和生命周期管理及其對生產環境中的生成式 AI 工作流的依賴項可能會給 MLOps 和 LLMOps 工程師以及 Kubernetes 集群管理員帶來額外的工作量。 因此,NVIDIA 宣布推出 NVIDIA NIM Operator ,

Source

]]>
11495
使用 NVIDIA NIM 在阿里云容器服務(ACK)中加速 LLM 推理 http://www.open-lab.net/zh-cn/blog/nim-aliyun-accelerates-llm-inference/ Mon, 02 Sep 2024 07:41:24 +0000 http://www.open-lab.net/zh-cn/blog/?p=11124 Continued]]> 大語言模型(LLM)是近年來發展迅猛并且激動人心的熱點話題,引入了許多新場景,滿足了各行各業的需求。隨著開源模型能力的不斷增強,越來越多的企業開始嘗試在生產環境中部署開源模型,將AI模型接入到現有的基礎設施,優化系統延遲和吞吐量,完善監控和安全等方面。然而要在生產環境中部署這一套模型推理服務過程復雜且耗時。為了簡化流程,幫助企業客戶加速部署生成式 AI 模型,本文結合 NVIDIA NIM (一套專為安全、可靠地部署高性能 AI 模型推理而設計的微服務,是一套易于使用的預構建容器化工具)和阿里云容器服務 ACK 等產品,提供了一套開箱即用,可以快速構建一個高性能、可觀測、靈活彈性的 LLM 模型推理服務的操作指南。 阿里云容器服務 Kubernetes 版 ACK(Container Service for…

Source

]]>
11124
借助 NVIDIA NeMo 定制器輕松微調和對齊 LLM http://www.open-lab.net/zh-cn/blog/fine-tune-and-align-llms-easily-with-nvidia-nemo-customizer/ Wed, 27 Mar 2024 08:27:24 +0000 http://www.open-lab.net/zh-cn/blog/?p=9466 Continued]]> 隨著 大型語言模型(LLM) 在企業 AI 應用中獲得更多吸引力,定制化模型 理解和集成特定行業術語、領域專業知識和獨特的組織要求變得越來越重要。 為滿足對自定義 LLM 的日益增長的需求,NVIDIA NeMo 團隊宣布 NeMo Customizer 搶先體驗計劃。這是一種高性能、可擴展的微服務,可簡化 LLM 的微調和對齊。 企業可以利用 NVIDIA NeMo 來開發自定制的生成式 AI 平臺,包括訓練、微調、檢索增強生成 (RAG)、guardrailing 和數據管護等功能。NeMo 提供從框架到更高級別的 API 端點,以簡化開發過程。它提供了預訓練模型和技術堆棧,以幫助企業快速開發和部署具有特定功能的生成式 AI 模型。 NeMo Customizer 微服務是一組基于 NeMo 框架的 API 端點,旨在為企業提供快速、

Source

]]>
9466
如何通過四個步驟將 RAG 應用程序從試點階段轉變為生產階段 http://www.open-lab.net/zh-cn/blog/how-to-take-a-rag-application-from-pilot-to-production-in-four-steps/ Mon, 18 Mar 2024 07:06:29 +0000 http://www.open-lab.net/zh-cn/blog/?p=9399 Continued]]> 生成式 AI 具有改變各個行業的巨大潛力。人類工作者已經開始使用 大型語言模型(LLM) 來解釋、推理和解決復雜的認知任務。檢索增強生成(RAG) 將 LLM 與數據連接起來,通過允許 LLM 訪問準確和最新的信息,擴展了 LLM 的功能。 許多企業已經開始探索 RAG 如何幫助他們實現業務流程自動化和挖掘數據以獲取見解。盡管大多數企業已經啟動了多個與生成式 AI 用例一致的試點,據估計,其中 90%的模型在不久的將來不會超出評估階段。將引人入勝的 RAG 演示轉化為可提供真正商業價值的生產服務仍然具有挑戰性。 在這篇博客中,我們將介紹 NVIDIA AI 如何通過四個步驟幫助您將 RAG 應用從試點階段遷移到生產階段。 開發和部署生產就緒型企業 RAG 工作流會遇到許多障礙。 IT 管理員面臨著與 LLM 安全性、可用性、可移植性和數據治理相關的挑戰。

Source

]]>
9399
人人超碰97caoporen国产