AI 原生應用的時代已經到來。開發者正在構建先進的代理式 AI 和物理 AI 系統,但跨地區和 GPU 提供商進行擴展仍然是一項挑戰。
NVIDIA 構建 DGX Cloud Lepton 來提供幫助。這是一個統一的 AI 平臺和計算市場,將開發者與全球云提供商網絡中的數萬個 GPU 連接起來。現在,您可以搶先體驗。
DGX 云 Lepton 滿足了一項關鍵需求:通過在整個 NVIDIA 計算生態系統中提供對 GPU 容量和 AI 服務的統一訪問,提高 AI 開發者的工作效率。它與 NVIDIA 軟件堆棧(包括 NVIDIA NIM 和 NVIDIA NeMo)無縫集成,并將很快支持 NVIDIA Blueprints 和 NVIDIA Cloud Functions (NVCF)。它使開發者能夠快速、大規模地構建、訓練和部署 AI 應用。
開發者可以使用 build.nvidia.com 即時訪問 NVIDIA NIM 微服務和預構建工作流,從而開始 AI 開發。當需要跨地區和提供商擴展訓練、微調或推理時,NVIDIA DGX Cloud Lepton 可提供生產級計算基礎設施和編排。
包括 Amazon Web Services、Firebird、Fluidstack、Mistral AI、Nebius、Nscale、Scaleway 和 Together AI 在內的全球云提供商已在 DGX 云 Lepton 中提供 NVIDIA Blackwell 和其他 GPU。此外,Hugging Face 計劃將 DGX 云 Lepton 集成到其 Training Cluster as a Service 中,以擴展 AI 研究人員使用可擴展計算進行模型訓練的權限。這些公司加入了 CoreWeave、Crusoe、Firmus、Foxconn、GMI Cloud、Lambda 和 Yotta Data Services 等現有合作伙伴的行列。觀看更多內容。
開發者可以通過合作伙伴提供的自帶容量 (bring-your-own-capacity) 選項來訪問計算資源。這種靈活性支持主權 AI 計劃和戰略數據局部性要求。
本文介紹了 NVIDIA DGX 云 Lepton 如何助力開發者利用多個云提供商的計算能力無縫構建和擴展 AI 應用。

為開發者帶來的主要優勢
無論您是在訓練大語言模型,還是提供實時推理服務,DGX 云 Lepton 均可幫助您減少管理基礎架構所花費的時間,并將更多時間用于構建。
1. 簡化 GPU 發現:通過單個平臺在云提供商之間發現和分配 GPU 資源。根據區域、成本和性能確定最佳工作負載放置,同時使用熟悉的 AI 工具實現標準化。
2. 一致的開發環境:在標準化開發環境中工作,無需考慮底層基礎設施。
3. 簡化多云管理:DGX Cloud Lepton 減少了運營孤島和摩擦,實現跨多個云提供商的無縫管理和擴展。
4. 多區域和數據主權支持:訪問特定區域的 GPU 以滿足數據駐留要求。通過在靠近應用使用者的位置部署工作負載,提高性能并減少延遲。
5. 內置可靠性和彈性:DGX Cloud Lepton 利用 GPUd 實現持續的 GPU 運行狀況監控、智能工作負載調度和故障隔離,確保穩定且可預測的性能。
DGX Cloud Lepton 特性
核心功能
- 開發者 Pod:開發者 Pod 支持通過 Jupyter notebook、SSH 和 Visual Studio Code 進行交互式 AI/ML 開發。它們是原型設計、調試和迭代模型實驗的理想選擇。
- 批量作業:批量作業適用于運行大規模非交互式工作負載,例如跨多個節點的模型訓練和數據預處理。您可以指定 CPU、GPU 和內存要求;選擇節點組;并通過 GPU 利用率、內存消耗和 GPU 溫度等實時指標監控性能。每個作業都為每個副本提供詳細的狀態和主機級別的可見性。
- 推理端點:您可以部署和管理各種模型,包括基礎模型、微調模型和自定義模型。推理端點可以支持 NVIDIA NIM 或自帶容器,提供靈活的部署選項。該系統會根據需求自動擴展模型副本,以確保高可用性和性能。內置運行狀況監控和恢復功能可減少停機時間并確保可靠運行。

監控和可觀察性
- 運行狀況監控:通過高級診斷(包括 GPUd、NCCL 基準測試和主動警報)實時持續監控 GPU 和系統的運行狀況,以識別問題。所有節點都經過嚴格的驗證,例如 NCCL 測試和 GPU 燒入,確保它們符合性能和可靠性標準。該平臺可自動將不正常的節點與調度程序隔離開來,以防止中斷,同時實時遙測和可定制的自動恢復工作流程可保持操作穩定性和工作負載彈性。

- 自定義工作空間設置:輕松配置 quotas、訪問控制、secrets management、計費設置和 container registries,以滿足企業要求。
- 可觀察性工具:實時流式傳輸日志,管理作業生命周期,并按用戶安全地檢查 API 活動,以保持整個平臺的可見性和運營控制。

開始使用 DGX Cloud Lepton
無論您是進行原型設計還是在生產環境中部署,您都可以跨 Web 用戶界面、命令行界面和 SDK 獲得一致的體驗。入網后,每位客戶都將獲得一個工作空間,一個管理 GPU 資源和運行工作負載的安全環境
管理員配置用戶訪問控制、機密、容器注冊表和使用配額等設置。GPU 資源置于節點組中,作為計算工作負載的基礎。
然后,您可以:
- 啟動用于交互式開發的 dev pod
- 提交批處理作業以進行模型訓練或數據處理
- 為實時或批量模型服務部署 inference endpoints
DGX 云 Lepton 簡化了容器化 AI 和機器學習工作負載的部署。它允許您將自己的工作負載引入容器鏡像,并支持任何符合 OCI 的容器注冊表,包括 NVIDIA NGC 容器注冊表。

加入 DGX Cloud Lepton 搶先體驗計劃
探索搶先體驗版 (EA) 中的 DGX 云 Lepton,親身體驗它如何改進您的生成式 AI 開發流程。如果被選中,DGX 云 Lepton 產品團隊將與您互動,了解您的用例和計算要求。我們很高興看到您使用這些新功能構建的創新應用程序!
如需了解詳情,請參閱文檔。
?