AI Platform – NVIDIA 技術博客

借助 AWS 上的 NVIDIA Run:ai 加速 AI 模型編排

Tue, 15 Jul 2025 06:31:26 +0000

在開發和部署高級 AI 模型時，訪問可擴展的高效 GPU 基礎設施至關重要。但是，在云原生、容器化環境中管理此基礎設施可能既復雜又昂貴。這正是 NVIDIA Run:ai 可以提供幫助的地方。NVIDIA Run:ai 現已在 AWS Marketplace 上正式推出，使企業組織能夠更輕松地簡化其 AI 基礎設施管理。 NVIDIA Run:ai 專為 Kubernetes 原生環境而構建，充當 GPU 基礎設施的控制平面，消除復雜性，并使組織能夠快速、高效和適當地擴展 AI 工作負載。本文將深入探討 NVIDIA Run:ai 如何跨 Amazon Web Services (AWS) 編排 AI 工作負載和 GPU。它與 NVIDIA GPU 加速的 Amazon EC2 實例、Amazon Elastic Kubernetes Service (EKS) 、

Source

]]>

NVIDIA Run:ai 和 Amazon SageMaker HyperPod 攜手簡化復雜 AI 訓練管理

Tue, 24 Jun 2025 04:35:20 +0000

NVIDIA Run:ai 和 Amazon Web Services 引入了集成，使開發者能夠無縫擴展和管理復雜的 AI 訓練工作負載。將 AWS SageMaker HyperPod 與 Run:ai 的高級 AI 工作負載和 GPU 編排平臺相結合，可提高效率和靈活性。 Amazon SageMaker HyperPod 提供完全彈性的持久性集群，專為大規模分布式訓練和推理而構建。它消除了管理 ML 基礎設施時涉及的無差別繁重工作，并優化了多個 GPU 的資源利用率，從而顯著縮短了模型訓練時間。此功能支持任何模型架構，支持團隊高效擴展訓練作業。 Amazon SageMaker HyperPod 通過自動檢測和處理基礎設施故障，并確保訓練作業可以無縫恢復而不會出現重大停機，從而增強彈性。總體而言，它可提高工作效率并加速 ML 生命周期。 NVIDIA Run:ai…

Source

]]>

隆重推出 NVIDIA DGX 云 Lepton：面向開發者的統一 AI 平臺

Wed, 11 Jun 2025 09:04:28 +0000

AI 原生應用的時代已經到來。開發者正在構建先進的代理式 AI 和物理 AI 系統，但跨地區和 GPU 提供商進行擴展仍然是一項挑戰。 NVIDIA 構建 DGX Cloud Lepton 來提供幫助。這是一個統一的 AI 平臺和計算市場，將開發者與全球云提供商網絡中的數萬個 GPU 連接起來。現在，您可以搶先體驗。 DGX 云 Lepton 滿足了一項關鍵需求：通過在整個 NVIDIA 計算生態系統中提供對 GPU 容量和 AI 服務的統一訪問，提高 AI 開發者的工作效率。它與 NVIDIA 軟件堆棧（包括 NVIDIA NIM 和 NVIDIA NeMo）無縫集成，并將很快支持 NVIDIA Blueprints 和 NVIDIA Cloud Functions (NVCF)。它使開發者能夠快速、大規模地構建、訓練和部署 AI 應用。開發者可以使用 build.

Source

]]>

NVIDIA Base Command Manager 為 AI 集群管理提供免費的啟動程序

Tue, 03 Jun 2025 08:14:36 +0000

隨著 AI 和高性能計算 (HPC) 工作負載變得越來越常見和復雜，系統管理員和集群管理員是確保一切平穩運行的核心。他們的工作 (構建、調配和管理集群) 推動了各行各業的創新，但這并非沒有挑戰。在聆聽這些團隊的演講后，NVIDIA 傳達了一個明確的信息：訪問可靠的企業級管理工具可以在日常運營中產生真正的影響。全球數以千計的部署已經在利用 NVIDIA Base Command Manager 來優化其加速集群。正因如此，NVIDIA Base Command Manager 現已免費提供，并可在需要時提供企業支持選項。集群經理通常需要在功能豐富的企業就緒型商業工具和免費開源解決方案的靈活性之間做出權衡。免費提供 Base Command Manager 旨在消除障礙，為基礎架構團隊提供更多選擇，無論是評估新工作流程、新員工入職還是擴展生產集群。

Source

]]>

NVIDIA ConnectX-8 SuperNIC 通過 PCIe6.0總線升級 AI 平臺架構

Sun, 18 May 2025 06:34:44 +0000

從大語言模型 (LLM) 到代理式 AI 推理和物理 AI ，隨著 AI 工作負載的復雜性和規模不斷增加，人們對更快、擴展性更高的計算基礎設施的需求空前強烈。滿足這些需求就要從基礎開始重新思考系統架構。 NVIDIA 正在通過 NVIDIA ConnectX-8 SuperNIC 升級平臺架構。NVIDIA ConnectX-8 SuperNIC 是業內首款在單個設備中集成 PCIe6.0 交換機和超高速網絡的 SuperNIC。ConnectX-8 專為現代 AI 基礎架構設計，可提供更高的吞吐量，同時簡化系統設計，并提高能效和成本效益。在基于 PCIe 連接的平臺中，尤其是配備 8 個或更多 GPU 的平臺，PCIe 交換機對于最大化 GPU 間通信帶寬和實現可擴展的 GPU 拓撲至關重要。現有設計依賴于獨立的 PCIe 交換機，這通常會增加設計復雜性，

Source

]]>

借助 Dell AI Factory 和 NVIDIA 加速電影制作

Thu, 19 Dec 2024 09:11:05 +0000

電影制作是一個復雜而復雜的過程，涉及藝術家、作家、視覺效果專業人員、技術人員和無數其他專家組成的多元化團隊。每位成員都將各自獨特的專業知識帶到桌面上，通過協作將簡單的想法轉化為引人入勝的電影體驗。從故事的初始火花到最終剪輯，每一步都需要創造力、技能和對細節的細致關注。然而，即使擁有如此優秀的團隊，電影業也一直在努力應對眾多挑戰，這些挑戰可能會阻礙生產力、增加預算和抑制創造力。這些挑戰包括管理不斷上漲的生產成本和適應迅速變化的技術，如 PyTorch、pandas 和 LangChain 等，以及駕不斷變化的受眾偏好和分銷平臺。同時努力在競爭日益激烈的市場中平衡藝術視覺與商業可行性，例如如何利用 NVIDIA 的 GPU 和 cuOpt 等技術來提高效率，或者如何使用 Stable Diffusion 和 Llama 等模型來創作新的內容。另外，Google 的 Jetson 和…

Source

]]>

DataStax 推出 NVIDIA AI 構建的新一代 AI 開發平臺

Tue, 15 Oct 2024 04:41:51 +0000

隨著企業越來越多地采用 AI 技術，他們面臨著高效開發、保護和持續改進 AI 應用以利用其數據資產的復雜挑戰。他們需要一個統一的端到端解決方案來簡化 AI 開發、增強安全性并實現持續優化，從而使組織能夠充分利用數據的全部潛力實現 AI 驅動的創新。這就是 DataStax 與 NVIDIA 合作創建 DataStax AI 平臺的原因，該平臺現已與 NVIDIA NeMo 和 NIM （ NVIDIA AI Enterprise 軟件的一部分）集成。該平臺提供統一的堆棧，使企業能夠更輕松地構建 AI 應用，利用其數據和必要的工具來不斷調整和提高應用性能和相關性，并將性能吞吐量提高 19 倍。該平臺基于 DataStax 現有的與 NVIDIA AI Enterprise 平臺的集成，這是在今年早些時候宣布的。在本博文中，

Source

]]>