]]>13440借助 NVIDIA Mission Control 實現 AI 工廠自動化
http://www.open-lab.net/zh-cn/blog/automating-ai-factory-operations-with-nvidia-mission-control/
Tue, 25 Mar 2025 08:51:04 +0000http://www.open-lab.net/zh-cn/blog/?p=13363Continued]]>DeepSeek-R1 等先進的 AI 模型證明,企業現在可以構建專用于自己的數據和專業知識的尖端 AI 模型。這些模型可以根據獨特的用例進行定制,以前所未有的方式應對各種挑戰。 基于早期 AI 采用者的成功,許多組織正在將重點轉移到全面生產的 AI 工廠 。然而,創建高效 AI 工廠的過程復雜且耗時,并且不同于構建特定于垂直行業的 AI 的目標。 它涉及到樓宇自動化,用于調配和管理復雜的基礎設施,在最新平臺上維護具有專業技能的站點可靠性工程師(SRE)團隊,以及大規模開發流程以實現超大規模的效率。此外,開發者需要一種方法來利用 AI 基礎設施的強大功能,同時具備超大規模數據中心的敏捷性、效率和規模,同時避免成本、復雜性和專業知識等方面的負擔。 本文將介紹 NVIDIA Mission Control (一個為使用 NVIDIA 參考架構構建的 AI…
]]>12623聚焦:Perplexity AI 利用 NVIDIA 推理棧每月服務 4 億個搜索請求
http://www.open-lab.net/zh-cn/blog/spotlight-perplexity-ai-serves-400-million-search-queries-a-month-using-nvidia-inference-stack/
Thu, 05 Dec 2024 07:26:26 +0000http://www.open-lab.net/zh-cn/blog/?p=12401Continued]]>對 AI 賦能服務的需求持續快速增長,這給 IT 和基礎設施團隊帶來了越來越大的壓力。這些團隊的任務是配置必要的硬件和軟件來滿足這一需求,同時平衡成本效益和最佳用戶體驗。Perplexity AI 的推理團隊面臨著這一挑戰。Perplexity AI 是一款由 AI 驅動的搜索引擎,每月可處理超過 435 million 個查詢。每個查詢代表多個 AI 推理請求。 為了滿足這一需求,Perplexity 推理團隊轉而使用 NVIDIA H100 Tensor Core GPUs 、 NVIDIA Triton Inference Server 和 NVIDIA TensorRT-LLM 來進行經濟高效的 大語言模型(LLM) 部署。本文根據他們的實操經驗,詳細介紹了一些部署最佳實踐和節省的 TCO。 為了支持其廣泛的用戶群并滿足搜索、總結和問答等方面的各種請求,
]]>11727借助 Google Kubernetes Engine 和 NVIDIA NIM 實現高性能 AI 推理擴展
http://www.open-lab.net/zh-cn/blog/scale-high-performance-ai-inference-with-google-kubernetes-engine-and-nvidia-nim/
Wed, 16 Oct 2024 06:50:10 +0000http://www.open-lab.net/zh-cn/blog/?p=11724Continued]]>AI 模型的快速演進推動了對更高效、更可擴展的推理解決方案的需求。在企業組織努力利用 AI 的強大功能時,他們在部署、管理和擴展 AI 推理工作負載方面面臨挑戰。 NVIDIA NIM 和 Google Kubernetes Engine (GKE) 共同提供了應對這些挑戰的強大解決方案。NVIDIA 與 Google Cloud 合作,在 GKE 上引入 NVIDIA NIM,以加速 AI 推理,通過 Google Cloud Marketplace 提供的簡化部署,在大規模提供安全、可靠和高性能的推理。 NVIDIA NIM 是 NVIDIA AI Enterprise 軟件平臺的一部分,現已在 Google Cloud Marketplace 上提供。它是一套易于使用的微服務,旨在安全、可靠地部署高性能 AI 模型推理。NIM 現已與 GKE 集成,
]]>11724使用 NVIDIA NIM Operator 在 Kubernetes 上管理 AI 推理流程
http://www.open-lab.net/zh-cn/blog/managing-ai-inference-pipelines-on-kubernetes-with-nvidia-nim-operator/
Mon, 30 Sep 2024 09:15:08 +0000http://www.open-lab.net/zh-cn/blog/?p=11495Continued]]>NVIDIA NIM 微服務 是一套易于使用的云原生微服務,可縮短產品上市時間,并簡化生成式 AI 模型在云、數據中心、云和 NVIDIA GPU 加速工作站的部署,開發者對這些微服務表現出極大興趣。 為滿足不同用例的需求,NVIDIA 正在推出各種打包的 AI 模型作為 NVIDIA NIM 微服務,以在 生成式 AI 推理工作流 中啟用關鍵功能。 典型的生成式 AI 應用集成了多個不同的 NIM 微服務。例如,在 RAG 工作流中,多回合對話式 AI 使用 LLM、嵌入和重新排序 NIM 微服務。這些微服務的部署和生命周期管理及其對生產環境中的生成式 AI 工作流的依賴項可能會給 MLOps 和 LLMOps 工程師以及 Kubernetes 集群管理員帶來額外的工作量。 因此,NVIDIA 宣布推出 NVIDIA NIM Operator ,