mlops – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Wed, 14 May 2025 06:25:12 +0000
zh-CN
hourly
1
196178272 -
云端 Apache Spark 加速深度學習和大語言模型推理
http://www.open-lab.net/zh-cn/blog/accelerate-deep-learning-and-llm-inference-with-apache-spark-in-the-cloud/
Thu, 08 May 2025 06:18:25 +0000
http://www.open-lab.net/zh-cn/blog/?p=13821
Continued]]>
Apache Spark 是用于大數據處理和分析的行業領先平臺。隨著非結構化數據(documents、emails、multimedia content)的日益普及,深度學習 (DL) 和大語言模型 (LLMs) 已成為現代數據分析工作流的核心組成部分。這些模型支持各種下游任務,例如圖像描述、語義標記、文檔摘要等。 然而,將 GPU 密集型 DL 與 Spark 相結合一直是一項挑戰。 NVIDIA RAPIDS Accelerator for Apache Spark 和 Spark RAPIDS ML 庫可實現無縫 GPU 加速,但主要用于提取、轉換和加載 (ETL) 以及傳統機器學習 (ML) 工作負載。 最近用于分布式訓練和推理的 Spark API (如上一篇博客中所述) 在 DL 集成方面取得了重大進展。本文以這項工作為基礎,
Source
]]>
13821
-
Volcano 調度程序中防止 GPU 碎片的實用技巧
http://www.open-lab.net/zh-cn/blog/practical-tips-for-preventing-gpu-fragmentation-for-volcano-scheduler/
Mon, 31 Mar 2025 08:16:55 +0000
http://www.open-lab.net/zh-cn/blog/?p=13440
Continued]]>
在 NVIDIA,我們以精準和創新解決復雜的基礎設施挑戰為豪。當 Volcano 在其 NVIDIA DGX 云調配的 Kubernetes 集群中面臨 GPU 利用率不足時,我們介入提供了一個不僅達到而且超過預期的解決方案。 通過將先進的調度技術與對分布式工作負載的深入理解相結合,我們實現了約 90% 的 GPU 占用率,遠高于 80% 的合同目標。下面詳細介紹了問題、我們的方法和結果。 DGX 云 Kubernetes 集群由數千個 GPU 組成,每個 GPU 均配備多個 NVIDIA L40S GPU。該集群支持多種工作負載: 盡管有可靠的硬件,但該集群仍存在 GPU 碎片化問題,導致節點被部分占用,無法用于大型作業。這種效率低下的情況又因 Volcano 調度程序 它使用了一個分組調度算法。 如果不進行干預,我們可能會違反合同協議,維持至少 80%
Source
]]>
13440
-
在 NVIDIA DGX 云上使用 NVIDIA NeMo Curator 處理 PB 級視頻
http://www.open-lab.net/zh-cn/blog/petabyte-scale-video-processing-with-nvidia-nemo-curator-on-nvidia-dgx-cloud/
Tue, 18 Mar 2025 02:53:05 +0000
http://www.open-lab.net/zh-cn/blog/?p=13281
Continued]]>
隨著 物理 AI 的興起,視頻內容生成呈指數級增長。一輛配備攝像頭的自動駕駛汽車每天可生成超過 1 TB 的視頻,而機器人驅動的制造廠每天可生成 1 PB 的數據。 要利用這些數據來訓練和微調 世界基礎模型 (WFMs) ,您必須首先高效地處理這些數據。 傳統的固定容量批量處理流水線難以應對這種規模,通常未充分利用 GPU,并且無法匹配所需的吞吐量。這些效率低下的情況減緩了 AI 模型的開發,并增加了成本。 為了應對這一挑戰, NVIDIA NeMo Curator 團隊 開發了一個靈活的 GPU 加速流式傳輸管道,用于大規模視頻管護,現在可在 NVIDIA DGX Cloud 上使用 。在本文中,我們將探討在管道中進行的優化,包括 自動擴展和負載均衡技術,以確保在充分利用可用硬件的同時優化各管道階段的吞吐量。 結果如何?更高的吞吐量、
Source
]]>
13281
-
借助 NVIDIA DGX 云無服務器推理在云環境中無縫擴展人工智能
http://www.open-lab.net/zh-cn/blog/seamlessly-scale-ai-across-cloud-environments-with-nvidia-dgx-cloud-serverless-inference/
Tue, 18 Mar 2025 02:07:41 +0000
http://www.open-lab.net/zh-cn/blog/?p=13272
Continued]]>
NVIDIA DGX Cloud Serverless Inference 是一種自動擴展 AI 推理解決方案,可實現快速可靠的應用部署。 DGX Cloud Serverless Inference 由 NVIDIA Cloud Functions (NVCF) 提供支持,可在多云和本地環境中提取多集群基礎設施設置,以處理 GPU 加速的工作負載。 無論是管理 AI 工作負載、高性能計算 (HPC) 、AI 模擬,還是容器化應用程序,該平臺都能讓您在抽象底層基礎設施的同時進行全球擴展。一次部署,隨處擴展。 獨立軟件供應商 (ISV) 在部署和擴展 AI 應用時經常面臨挑戰。這些應用程序需要在全球范圍內或更接近客戶基礎設施所在的位置進行部署。這可能需要在多個云、數據中心和地理區域進行部署,從而導致復雜的基礎設施運營。Serverless AI 推理通過在云、
Source
]]>
13272
-
在 NVIDIA GPU 上無需更改代碼即可加速 Apache Spark ML
http://www.open-lab.net/zh-cn/blog/accelerate-apache-spark-ml-on-nvidia-gpus-with-zero-code-change/
Thu, 06 Mar 2025 05:26:23 +0000
http://www.open-lab.net/zh-cn/blog/?p=13128
Continued]]>
適用于 Apache Spark 軟件插件的 NVIDIA RAPIDS 加速器 開創了零代碼更改用戶體驗 (UX),可用于 GPU 加速數據處理。無需更改查詢或源代碼,即可將 NVIDIA GPU 上基于 Apache Spark SQL 和 DataFrame 的現有應用程序加速 9 倍以上。 這催生了新的 Spark RAPIDS ML Python 庫,可將應用程序的速度提高 100 多倍,同時還調用了 Apache Spark 的可擴展機器學習庫 MLlib 。 直到最近,Spark RAPIDS ML 的 MLlib 加速仍需要稍作修改,才能讓 Python 使用加速實現。具體來說,您需要在希望加速的 ML 類的 Python 導入語句中,將 替換為 。例如,要使用加速的 KMeans 而不是基準 KMeans,
Source
]]>
13128
-
掌握 LLM 技術:LLMOps
http://www.open-lab.net/zh-cn/blog/mastering-llm-techniques-llmops/
Wed, 15 Nov 2023 06:39:19 +0000
http://www.open-lab.net/zh-cn/blog/?p=8242
Continued]]>
企業比以往更依賴數據和 AI 來創新、為客戶創造價值并保持競爭力。機器學習 (ML) 的采用催生了對工具、流程和組織原則的需求,這些需求是為了管理那些可靠、經濟高效且能夠大規模運行的代碼、數據和模型。這通常被稱為 機器學習操作(MLOps)。 世界正在迅速進入一個由基礎模型,尤其是大型語言模型 (LLM) 提供動力支持的新生成式 AI 時代。ChatGPT 的發布進一步加速了這一轉變。 生成式 AI 操作 (GenAIOps) 和大型語言模型操作 (LLMOps) 的新專業領域隨著 MLOps 的演變而出現,旨在解決在生產環境中開發和管理生成式 AI 和 LLM 驅動的應用所面臨的挑戰。 在本文中,我們概述了生成式 AI 應用開發之旅,定義了 GenAIOps 和 LLMOps 的概念,并將其與 MLOps 進行了比較。
Source
]]>
8242
-
使用 Spark RAPID ML 庫中的新算法降低 Apache Spark ML 計算成本
http://www.open-lab.net/zh-cn/blog/reduce-apache-spark-ml-compute-costs-with-new-algorithms-in-spark-rapids-ml-library/
Tue, 24 Oct 2023 05:47:26 +0000
http://www.open-lab.net/zh-cn/blog/?p=8047
Continued]]>
Spark RAPID ML 是一個開源 Python 包,它可以使 NVIDIA GPU 加速 PySpark MLlib。它提供了與 PySpark MLlib DataFrame API 兼容,并在使用支持的算法進行訓練時加速。想要了解更多信息,請查看 新的 GPU 庫降低 Apache Spark ML 的計算成本。 PySpark MLlib DataFrame API 的兼容性意味著它可以更容易地融入現有的 PySpark ML 應用程序,最多只需更改包導入。K-means 算法如下所示。更改包導入是使用此庫啟用 GPU 加速所需的唯一額外步驟。 在 GPU 加速的 Databricks 的 AWS 托管 Spark 服務上,在三節點 Spark 集群中運行的基準測試套件中使用支持的算法進行培訓,
Source
]]>
8047
-
使用 NVIDIA 和 Run:ai 訓練您的 AI 模型一次并部署在任何云上
http://www.open-lab.net/zh-cn/blog/train-your-ai-model-once-and-deploy-on-any-cloud-with-nvidia-and-runai/
Fri, 07 Jul 2023 03:50:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=7370
Continued]]>
組織越來越多地采用混合和多云策略來訪問最新的計算資源,始終如一地支持全球客戶,并優化成本。然而,工程團隊面臨的一個主要挑戰是,隨著堆棧的變化,在不同平臺上操作人工智能應用程序。這要求 MLOps 團隊熟悉不同的環境,并要求開發人員自定義應用程序以跨目標平臺運行。 NVIDIA 提供了一個一致的、完整的堆棧,可以在 GPU 供電的本地或云實例上進行開發。然后,您可以在任何 GPU 驅動的平臺上部署該 AI 應用程序,而無需更改代碼。 NVIDIA Cloud Native Stack 虛擬機映像( VMI )是 GPU 加速的。它預裝了 Cloud Native Stack ,這是一個參考體系結構,包括上游 Kubernetes 和 NVIDIA GPU 運營商。 NVIDIA Cloud Native Stack VMI 使您能夠構建、
Source
]]>
7370
-
利用 NVIDIA AI 企業在 Azure 機器學習上的力量
http://www.open-lab.net/zh-cn/blog/harnessing-the-power-of-nvidia-ai-enterprise-on-azure-machine-learning/
Fri, 02 Jun 2023 07:08:18 +0000
http://www.open-lab.net/zh-cn/blog/?p=7171
Continued]]>
人工智能正在改變行業,實現流程自動化,并在快速發展的技術格局中為創新開辟新的機會。隨著越來越多的企業認識到將人工智能融入運營的價值,他們面臨著高效、有效和可靠地實施這些技術的挑戰 NVIDIA AI Enterprise 是一個綜合軟件套件,旨在幫助組織大規模實施企業級 AI 、機器學習( ML )和數據分析,并提供安全性、可靠性、 API 穩定性和企業級支持。 部署人工智能解決方案可能很復雜,需要專門的硬件和軟件,以及開發和維護這些系統的專業知識。 NVIDIA AI Enterprise 通過提供針對企業環境量身定制的工具、庫、框架和支持服務的完整生態系統來應對這些挑戰 憑借 GPU – 加速計算能力, NVIDIA AI Enterprise 使企業能夠更高效、更經濟高效地大規模運行人工智能工作負載。 NVIDIA AI Enterprise 建立在…
Source
]]>
7171
-
揭開企業 MLOps 的神秘面紗
http://www.open-lab.net/zh-cn/blog/demystifying-enterprise-mlops/
Wed, 08 Mar 2023 04:20:53 +0000
http://www.open-lab.net/zh-cn/blog/?p=6401
Continued]]>
在過去幾年中,人工智能和機器學習( ML )在主流企業中的角色發生了變化。一旦研究或高級開發活動,它們現在為生產系統提供了重要的基礎。 隨著越來越多的企業尋求用人工智能和 ML 改造業務,越來越多的人在談論 MLOps 。如果你一直在聽這些對話,你可能會發現幾乎所有參與的人都同意你需要一個 MLOps 戰略來將 ML 投入生產。 本文簡要概述了企業 MLOps 。要了解更多信息,請與我一起參加 NVIDIA GTC 2023 的 Enterprise MLOps 101 ,這是對企業 MLOps 環境的介紹。我將與我的同事邁克爾·巴林特一起介紹會議。 MLOps 對話令人困惑,主要原因如下。 MLOps 是一個寬泛的術語,描述了使組織能夠設計、開發和維持生產 ML 系統的技術、流程和文化。幾乎任何與常規軟件開發、數據管理或與生產 ML 系統相關的商業智能 could…
Source
]]>
6401
-
通過 MLOps 和 NVIDIA 合作伙伴生態系統擴展 AI
http://www.open-lab.net/zh-cn/blog/scaling-ai-with-mlops-and-the-nvidia-partner-ecosystem/
Wed, 08 Mar 2023 04:18:53 +0000
http://www.open-lab.net/zh-cn/blog/?p=6398
Continued]]>
人工智能正在影響著每一個行業,從改善客戶服務和簡化供應鏈到加速癌癥研究。當企業投資人工智能以保持領先于競爭時,他們往往難以找到成功的戰略和基礎設施。許多人工智能項目正在快速發展,這使得大規模生產尤其具有挑戰性。 我們相信開發規模化的產品級 AI 。 MLOps 是人工智能賦能工具和一套最佳實踐的組合,用于從培訓到部署的自動化、精簡、擴展和監控 ML 模型。 理想的 MLOps 平臺是一個全面的解決方案,它支持整個機器學習生命周期,從數據準備和模型開發到模型部署和監控。它應該提供工具和技術的無縫集成,使組織能夠輕松地構建、部署和管理機器學習模型。 開發大規模人工智能開發和部署的 MLOps 平臺涉及幾個關鍵步驟: 明確定義您希望通過 MLOps 平臺實現的目標。這可能包括改進模型開發工作流、確保模型質量、自動化模型部署和管理,或者這些的組合。
Source
]]>
6398
-
使用 NVIDIA TAO 工具包和權重和偏差加速 AI 開發
http://www.open-lab.net/zh-cn/blog/accelerating-ai-development-with-nvidia-tao-toolkit-and-weights-biases/
Tue, 31 Jan 2023 07:34:43 +0000
http://www.open-lab.net/zh-cn/blog/?p=6125
Continued]]>
利用圖像分類、對象檢測、 自動語音識別 ( ASR )和其他形式的人工智能可以推動公司和商業部門的大規模變革。然而,從頭開始構建人工智能和深度學習模型是一項艱巨的任務。 構建這些模型的一個共同前提是擁有大量高質量的訓練數據和正確的專業知識,以準備數據、構建神經網絡,并不斷微調模型以優化性能。對于開始機器學習( ML )之旅的組織來說,這通常是一個挑戰。盡管人工智能可以提供明確和可衡量的好處,但進入壁壘很高,往往會阻礙各種規模的企業采用人工智能。 這篇文章討論了 NVIDIA TAO Toolkit 和 Weights & Biases MLOps 平臺的結合如何有助于開啟組織利用人工智能和加速常見人工智能任務的旅程。開發人員現在可以使用 NVIDIA TAO (訓練適應優化)工具包和權重和偏差( W & B )可視化和比較多個訓練運行。此外,我們將介紹構建對象檢測模型的示例工作流。
Source
]]>
6125
-
使用 NVIDIA Triton 解決人工智能推斷挑戰
http://www.open-lab.net/zh-cn/blog/solving-ai-inference-challenges-with-nvidia-triton/
Wed, 21 Sep 2022 08:33:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5193
Continued]]>
在生產中部署 AI 模型以滿足 AI 驅動應用程序的性能和可擴展性要求,同時保持低基礎設施成本是一項艱巨的任務。 加入 NVIDIA Triton 和 NVIDIA TensorRT 社區 ,了解最新的產品更新、錯誤修復、內容、最佳實踐等。 這篇文章為您提供了在生產中部署模型時常見的 AI 推理挑戰的高層次概述,以及目前如何跨行業使用 NVIDIA Triton 推理服務器 來解決這些問題。 我們還研究了 Triton 中最近添加的一些功能、工具和服務,它們簡化了生產中 AI 模型的部署,具有最佳性能和成本效益。 人工智能推理是運行人工智能模型進行預測的生產階段。推斷很復雜,但了解影響應用程序速度和性能的因素將有助于您在生產中交付快速、可擴展的 AI 。 這些因素的結合使得在生產中部署 AI 推理具有一定的挑戰性,
Source
]]>
5193
-
通過新的 NVIDIA AI 企業集成擴展虛擬化數據中心中的混合云支持
http://www.open-lab.net/zh-cn/blog/expanding-hybrid-cloud-support-in-virtualized-data-centers-with-new-nvidia-ai-enterprise-integrations/
Mon, 14 Mar 2022 10:15:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=3314
Continued]]>
新的一年已經有了一個很好的開端, NVIDIA AI Enterprise 1.1 使用 VMware vSphere 與 Tanzu 7.0 Update 3c 為容器編排和 Kubernetes 群集管理提供生產支持,為 VMs 、容器或 Kubernetes 中的每個企業提供 AI / ML 工作負載。 可在 NVIDIA LaunchPad 上獲得針對 IT 管理員和 MLOP 的新 NVIDIA AI 企業實驗室: 通過免費的 LaunchPad 計劃,企業可以快速開始在 VMware vSphere 上與 Tanzu 一起運行 NVIDIA 人工智能企業 ,該計劃提供對運行在私有加速計算基礎設施上的 NVIDIA AI 的即時、短期訪問。 一個新添加的 Calabor 實驗室提供了使用 VMware Tanguu KubNeNETGrand 服務的經驗,
Source
]]>
3314
-
通過 NVIDIA DLI 的入門課程開始學習 NVIDIA Triton
http://www.open-lab.net/zh-cn/blog/getting-started-on-nvidia-triton-with-an-introductory-course-from-nvidia-dli/
Wed, 05 Jan 2022 04:24:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=2716
Continued]]>
很多人喜歡構建機器學習模型。挑戰包括確定要預測的變量、尋找最佳模型體系結構的實驗,以及對正確的訓練數據進行采樣。但是,如果您無法訪問該模型,它又有什么好處呢? 進入 NVIDIA Triton 推理服務器 . NVIDIA Triton 幫助數據科學家和系統管理員將用于訓練模型的機器轉變為用于模型預測的 web 服務器。雖然不需要 GPU ,但 NVIDIA Triton 推理服務器可以利用多個安裝的 GPU 快速處理大批量請求。 為了獲得實時服務器的實踐, NVIDIA 深度學習培訓中心(DLI) 提供了一個名為大規模推理部署模型的 4 學時在線自主培訓課程。 NVIDIA Triton 是在考慮到 機器學習操作 或 MLOps 的情況下創建的。 MLOps 是從開發人員操作( DevOps )演變而來的一個相對較新的領域,其重點是在生產環境中擴展和維護機器學習模型。
Source
]]>
2716
人人超碰97caoporen国产