在開發和部署高級 AI 模型時,訪問可擴展的高效 GPU 基礎設施至關重要。但是,在云原生、容器化環境中管理此基礎設施可能既復雜又昂貴。這正是 NVIDIA Run:ai 可以提供幫助的地方。NVIDIA Run:ai 現已在 AWS Marketplace 上正式推出,使企業組織能夠更輕松地簡化其 AI 基礎設施管理。
NVIDIA Run:ai 專為 Kubernetes 原生環境而構建,充當 GPU 基礎設施的控制平面,消除復雜性,并使組織能夠快速、高效和適當地擴展 AI 工作負載。
本文將深入探討 NVIDIA Run:ai 如何跨 Amazon Web Services (AWS) 編排 AI 工作負載和 GPU。它與 NVIDIA GPU 加速的 Amazon EC2 實例、Amazon Elastic Kubernetes Service (EKS) 、Amazon SageMaker HyperPod、AWS Identity and Access Management (IAM) 、Amazon CloudWatch 和其他 AWS 原生服務無縫集成。
挑戰:大規模高效 GPU 編排
從大規模訓練到實時推理,現代 AI 工作負載都需要動態訪問功能強大的 GPU。但在 Kubernetes 環境中,對 GPU 的原生支持有限。常見挑戰包括:
- 由于靜態分配,GPU 利用率低
- 缺乏工作負載優先級和搶占性
- 對 GPU 消耗的可見性有限
- 難以跨團隊和跨工作負載實施治理
NVIDIA Run:ai 解決方案
NVIDIA Run:ai 通過專為 AI/ ML 工作負載設計的基于 Kubernetes 的 AI 編排平臺解決了這些挑戰。它引入了虛擬 GPU 池,可實現基于策略的動態 GPU 資源調度。
主要功能:
- 部分 GPU 分配:在多個推理作業或 Jupyter Notebook 之間共享單個 GPU。
- 動態調度:根據作業優先級、隊列和可用性分配完整或部分 GPU。
- 工作負載感知型編排:使用針對每個階段優化的策略,以不同方式處理訓練、調整和推理。
- 基于團隊的配額和隔離:使用公平分享或硬配額為團隊或項目保障資源。
- 多租戶治理:確保共享基礎設施環境中的成本可見性和合規性。

NVIDIA Run:ai 如何在 AWS 上運行
NVIDIA Run:ai 與 NVIDIA 驅動的 AWS 服務無縫集成,可優化性能并簡化操作:
1. Kubernetes 集群 ( NVIDIA A10G、A100、H100 等) 中的 Amazon EC2 GPU 加速實例
NVIDIA Run:ai 在 Kubernetes 集群上調度 AI 工作負載,這些集群使用 NVIDIA GPU 部署在 EC2 實例上。通過智能共享和垃圾桶打包,更大限度地提高 GPU 利用率。
- 支持多 GPU 和多節點訓練
- 支持交互式工作負載的時間片劃分和 GPU 過度使用
2. Amazon EKS ( Elastic Kubernetes Service)
NVIDIA Run:ai 與 Amazon EKS 原生集成,提供專為 AI 工作負載構建的強大調度和編排層。它可更大限度地提高 Kubernetes 集群中 GPU 資源的利用率。
- NVIDIA Run:ai Scheduler 與 EKS 的原生集成
- 針對 EKS 上的工作負載使用高級 GPU 資源管理來編排和優化 AI 工作負載
- 與 NVIDIA GPU Operator 兼容,后者可跨 EKS 節點自動調配 GPU 驅動程序、監控代理和庫
3. Amazon Sagemaker HyperPod
NVIDIA Run:ai 與 Amazon SageMaker HyperPod 集成,可在本地和公有/ 私有云環境中無縫擴展 AI 基礎設施。
- 與 NVIDIA Run:ai 的高級 AI 工作負載和 GPU 編排平臺相結合,可提高效率和靈活性
- 專為大規模分布式訓練和推理而打造
與 Amazon CloudWatch 集成
大規模監控 GPU 工作負載需要實時可觀測性。NVIDIA Run:ai 可以與 Amazon CloudWatch 集成,提供:
- 自定義指標:將 GPU 級使用指標 (例如內存利用率和時間片統計信息) 推送至 CloudWatch。
- 控制面板:可視化每個作業、團隊或項目的 GPU 消耗情況。
- 警報:根據利用率不足、作業失敗或違反配額的情況觸發警報。
通過將 NVIDIA Run:ai 豐富的工作負載遙測與 CloudWatch 的分析和警報相結合,用戶可以獲得有關資源消耗和效率的可行見解。
與 AWS IAM 集成
安全和治理是 AI 基礎設施的基礎。NVIDIA Run:ai 與 AWS IAM 集成,以:
- 管理對 AWS 資源的安全訪問
- 在 NVIDIA Run:ai 中的 API、資源和命名空間級別實施最低權限訪問控制
- 支持審核訪問日志和 API 交互,確保合規性和安全性
IAM 集成可確保只有經過授權的用戶和服務才能訪問或管理 AWS 環境中的 NVIDIA Run:ai 資源。
示例:EKS 上的多團隊 GPU 編排
想象一下,企業 AI 平臺包含三個團隊:自然語言處理 (NLP) 、計算機視覺和生成式 AI。每個團隊都需要有保證的 GPU 訪問來進行訓練,同時還需要在共享基礎設施上運行推理作業。
使用 NVIDIA Run:ai:
- 每個團隊都會獲得有保證的配額和命名空間,并制定自己的公平共享政策。
- 訓練作業會根據優先級和可用容量動態排隊和調度。
- 交互式作業使用分數 GPU,從而更大限度地提高稀缺 GPU 資源的回報。
- 所有使用情況均在 CloudWatch 中受到監控,并通過 IAM 角色控制訪問。
該模型使 AI 團隊能夠更快地開展工作,而無需跨過對方的腳步,也無需消耗未被充分利用的 GPU 的預算。

開始使用
隨著企業擴大其 AI 工作的規模,手動管理 GPU 基礎設施將變得難以為繼。NVIDIA Run:ai 與亞馬遜云科技上的 NVIDIA 技術相結合,提供強大的編排層,可簡化 GPU 管理、提高利用率并加速 AI 創新。
NVIDIA Run:ai 原生集成到 EKS、EC2、IAM、SageMaker HyperPod 和 CloudWatch,為云端 AI/ ML 工作負載提供統一的企業就緒型基礎。
如需了解詳情或在 AWS 環境中部署 NVIDIA Run:ai,請訪問 AWS Marketplace 上的 NVIDIA Run:ai 列表或查看 NVIDIA Run:ai 文檔。
?