• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • AI 平臺/部署

    NVIDIA Run:ai 和 Amazon SageMaker HyperPod 攜手簡化復雜 AI 訓練管理

    NVIDIA Run:ai?和 Amazon Web Services 引入了集成,使開發者能夠無縫擴展和管理復雜的 AI 訓練工作負載。將 AWS SageMaker HyperPod 與 Run:ai 的高級 AI 工作負載和 GPU 編排平臺相結合,可提高效率和靈活性。

    Amazon SageMaker HyperPod 提供完全彈性的持久性集群,專為大規模分布式訓練和推理而構建。它消除了管理 ML 基礎設施時涉及的無差別繁重工作,并優化了多個 GPU 的資源利用率,從而顯著縮短了模型訓練時間。此功能支持任何模型架構,支持團隊高效擴展訓練作業。

    Amazon SageMaker HyperPod 通過自動檢測和處理基礎設施故障,并確保訓練作業可以無縫恢復而不會出現重大停機,從而增強彈性。總體而言,它可提高工作效率并加速 ML 生命周期。

    NVIDIA Run:ai 平臺可通過一個界面簡化在本地和公有/ 私有云等混合環境中的 AI 工作負載和 GPU 編排。這種集中式方法使監督不同地理位置和團隊的 GPU 資源的 IT 管理員受益,可高效使用本地、AWS Cloud 和混合 GPU 資源,同時在需求增加時實現無縫云爆發。

    AWS 和 NVIDIA Run:ai 技術團隊均已成功測試并驗證 Amazon SageMaker HyperPod 與 NVIDIA Run:ai 之間的集成。此集成允許用戶利用 Amazon SageMaker HyperPod 功能的靈活性,同時受益于 NVIDIA Run:ai 的 GPU 優化、編排和資源管理功能。

    通過集成 NVIDIA Run:ai 和 Amazon SageMaker HyperPod,組織現在可以在本地和公有/ 私有云環境中無縫擴展其 AI 基礎設施。優勢包括:

    跨混合環境的統一 GPU 資源管理

    A single control plane managing both on-premise and SageMaker HyperPod clusters
    圖 1。NVIDIA Run:ai 控制通道用于管理混合集群

    NVIDIA Run:ai 提供單一控制面板,使企業能夠跨企業基礎設施和 Amazon SageMaker HyperPod 高效管理 GPU 資源。它還通過 GUI 或 CLI 為科學家提供了一種簡化的方式,讓他們可以將工作提交到本地節點或 HyperPod 節點。這種集中式方法簡化了工作負載的編排,使管理員能夠根據需求分配 GPU 資源,同時確保兩種環境的最佳利用率。無論是在本地還是在云端,工作負載都可以從單個界面進行優先級排序、排隊和監控。

    增強的可擴展性和靈活性

    借助 NVIDIA Run:ai,企業組織可以在需要額外 GPU 資源時,通過突發方式將工作負載擴展到 SageMaker HyperPod,從而輕松擴展其 AI 工作負載。這種混合云策略允許企業在不過度配置硬件的情況下動態擴展,在保持高性能的同時降低成本。SageMaker HyperPod 靈活的基礎架構進一步支持大規模模型訓練和推理。對于希望訓練或微調 Llama 或 Stable Diffusion 等基礎模型的企業來說,這是理想之選。

    彈性分布式訓練

    NVIDIA Run:ai 與 Amazon SageMaker HyperPod 集成,可跨集群高效管理分布式訓練作業。Amazon SageMaker HyperPod 持續監控 GPU、CPU 和網絡資源的運行狀況。它會自動替換出現故障的節點,以保持系統完整性。與此同時,NVIDIA Run:ai 通過從上次保存的檢查點自動恢復中斷的作業,減少了人工干預的需求并最大限度地減少了工程開銷,從而更大限度地減少了機時間。這種組合有助于企業 AI 計劃保持正常運行,即使在面臨硬件或網絡問題時也是如此。

    優化資源利用率

    A dashboard showing various metrics and graphs of GPU resource utilization
    圖 2:NVIDIA Run:ai 控制面板,具有資源利用率可見性

    NVIDIA Run:ai 的 AI 工作負載和 GPU 編排功能可確保高效利用 AI 基礎設施。無論是在 Amazon SageMaker HyperPod 集群上運行,還是在本地 GPU 上運行,NVIDIA Run:ai 的高級調度和 GPU 分功能都有助于優化資源分配。它允許組織在更少的 GPU 上運行更多工作負載。這種靈活性對于管理波動需求(例如隨時間或季節變化的計算需求)的企業來說尤其重要。NVIDIA Run:ai 能夠適應這些變化,在需求高峰期間優先考慮推理資源,同時平衡訓練需求。這最終減少了空閑時間,并更大限度地提高了 GPU 投資回報。

    作為驗證過程的一部分,NVIDIA Run:ai 測試了多個關鍵功能,例如混合和多集群管理、硬件故障后自動恢復作業、FSDP 彈性 PyTorch 搶占、推理服務和 Jupyter 集成,以及彈性測試。有關如何在您的環境中部署此集成(包括配置步驟、基礎架構設置和架構)的更多詳細信息,請訪問 SageMaker HyperPod 上的 NVIDIA Run:ai

    NVIDIA Run:ai 正在與 AWS 合作,使用 Amazon SageMaker HyperPod 更輕松地在混合環境中管理和擴展 AI 工作負載。要了解 NVIDIA Run:ai 和 AWS 如何加速您的 AI 計劃,請立即聯系 NVIDIA Run:ai。

    ?

    0

    標簽

    人人超碰97caoporen国产