Iguazio (被麥肯錫收購) 與 NVIDIA 的合作使企業組織能夠構建生產級 AI 解決方案,這些解決方案不僅具有高性能和可擴展性,而且具有敏捷性,可用于現實世界的部署。
NVIDIA NIM 微服務對于這些功能至關重要,旨在加速任何云或數據中心的生成式 AI 部署。NIM 微服務支持各種 AI 模型,包括 NVIDIA AI 基礎、社區和自定義模型,支持使用行業標準 API 進行無縫、可擴展的 AI 推理。
在運行時,NIM 會為基礎模型、GPU 和系統的任意組合選擇最佳推理引擎。NIM 容器還提供標準的可觀察性數據源,并內置支持在 NVIDIA GPU 上使用 Kubernetes 進行自動擴展。
MLRun 是一個開源 AI 編排框架,可自動執行整個 AI 工作流,支持在生產環境中部署 NIM。這包括企業級生產就緒型應用所需的所有工作流元素,包括
- 批量和實時數據pipelines
- CI/CD 自動化
- 自動跟蹤數據沿襲
- 實驗跟蹤、自動記錄和模型注冊表
- 分布式數據處理
- 模型訓練和服務
- 模型監控
- 用于優化資源的 Auto-scaling 和 Serverless 架構
- 安全性
MLRun 和 NVIDIA NIM 共同提供了一個解決方案,用于部署具有優化性能和編排功能的 AI 應用。
什么是 MLRun?
MLRun 是一個開源 AI 編排框架,旨在管理 ML 和生成式 AI 應用的整個生命周期。Iguazio 現隸屬于 McKinsey & Company 的 AI 部門 QuantumBlack,負責構建和維護開源框架。
它可通過彈性資源實現 ML 模型、大語言模型 (LLM) 和實時 AI 應用的數據準備、模型調優、定制、驗證和優化等流程的自動化。MLRun 支持快速部署可擴展的實時服務和應用程序管道,提供內置的可觀察性和靈活的部署選項,支持多云、混合和本地環境。
企業使用 MLRun 實時大規模開發 AI 模型,在基礎設施中部署這些模型,降低與生成式 AI 相關的風險,并在任何環境 (多云、本地或混合) 中安全可靠地推動 AI 驅動的策略。
該框架用于許多用例,包括實時 agent copilots、呼叫中心分析、聊天機器人自動化、欺詐預測、實時推薦引擎和預測性維護。

使用 MLRun 和 NVIDIA NIM 部署多智能體金融聊天機器人
一家大型銀行最近使用 MLRun 構建了多智能體聊天機器人,該機器人采用意圖分類、實時監控和動態資源擴展。此用例展示了金融機構如何利用 NVIDIA NIM 推理效率和 MLRun 生產級監督來部署 AI 助手,以提高運營效率并遵守法規。在此演示中,我們展示了該解決方案如何利用 MLRun 實時監控 NVIDIA NIM。
完整的聊天機器人架構使用為銀行服務定制的三個不同的 AI 智能體。貸款代理負責處理與抵押貸款和貸款相關的查詢,例如解釋特定抵押貸款條款的利率。該投資代理提供個性化的投資組合建議,分析可再生能源股票投資等場景。一般代理管理常規的客戶服務任務,包括密碼重置或交易歷史請求,同時還將復雜的查詢轉交給相應的專家。這些智能體通過由 LLM 提供支持的查詢分類系統運行,該系統根據意圖路由請求,并通過會話日志記錄來確保合規性,以及用于獨立更新的模塊化設計,而不會中斷整個系統。
在質量控制方面,該實施使用 LLM-as-a-Judge 機制來實時監控交互。該評估器通過評估查詢代理相關性、響應準確性和監管合規性來驗證路由決策。它記錄對話以進行審核和微調,同時生成性能指標,例如錯誤分類率、響應質量分數和合規性違規計數。MLRun 通過自動評估流程、顯示實時指標的控制面板以及因監管漏洞等重大錯誤而觸發的警報系統來實施這種監控。
此解決方案的成功在于其能夠將先進的 AI 技術與操作簡便性相集成。通過利用 NVIDIA NIM 容器并將其與 MLRun 編排框架相結合,該平臺可確保 AI 模型兼具高性能和高效率。
以下是它的工作原理:
- 無服務器:MLRun 將實例包裝在無服務器函數中,并使用 NIM 容器鏡像配置函數,從而簡化 NIM 部署。這支持按需擴展彈性、監控、安全性和操作的其他方面。用戶只需單擊一下,即可將 LLM NIM 微服務部署為無服務器功能。
- LLM 網關:統一的界面使 LLM 之間的切換快速直觀。網關支持不同級別的監控:特定用例、特定模型、通用 LLM 提供商,以及用于延遲、吞吐量和內存等一般使用情況監控的更高級別的。所有操作均通過使用標簽完成。

- 高效的 GPU 利用率:確保 GPU 上的最佳模型效率,同時編排根據需求動態分配資源,以更大限度地提高效率。
- 可擴展性:通過支持彈性擴展,多個容器跨集群運行,從而實現水平擴展、并行,并根據需求調整資源分配。該系統可在本地 Kubernetes 集群、NVIDIA DGX 平臺以及 AWS、Azure 和 Google Cloud 等主要云提供商上無縫運行。
- 全面的 MLOps 集成:MLRun 可為 AI 工作流提供全棧監控,包括實驗跟蹤、版本控制和操作指標 (例如模型注冊表、自動化流程和實時遙測) ,從而實現從模型開發到生產的平穩過渡。NVIDIA NIM 支持以 OpenTelemetry 兼容的格式導出指標和追蹤。MLRun 平臺使用實時監控資源使用、計費計量、道德和負責任的實踐、模型性能、業務指標、審核和日志記錄來集成這些指標
- 使用特定于案例的優化:無論是部署聊天機器人、構建推薦引擎,還是提供預測分析服務,用戶都可以根據自己的特定需求定制 AI 工作流。該解決方案提供了藍圖和現成的組件來簡化流程。用戶可以按需為不同的用例配置不同的模型,從而降低成本并進行更好的性能調整
- 隱私保護:MLRun 為企業級本地模型托管的 NVIDIA NIM 部署提供便利。對于金融服務、電子商務、醫療健康和制造等高度監管的行業而言,這種關鍵能力需要生成式 AI 集成,同時保持嚴格的數據隱私、安全和合規性標準。
結論
MLRun 和 NVIDIA NIM 將優化的推理與強大的運營監督相結合,為企業 AI 部署帶來了強大的協同作用。NVIDIA NIM 提供 GPU 加速的容器化微服務,用于跨環境的高性能模型執行,而 MLRun 則提供自動編排、安全 API 管理、實時監控等。它們共同解決了關鍵的生產挑戰,使企業能夠部署具有先進功能和操作可靠性的可擴展 AI 助手。
如要繼續,請試用 MLRun 和 NIM,并詳細了解 MLRun 中的部署和模型監控功能。觀看 Iguazio 的 MLOps Live 系列MLOps Live 系列錄像,觀看現場演示和進一步的技術說明。
如需詳細了解 NVIDIA 如何支持 AI 初創公司,請訪問 Inception 程序網頁。
?