DGX 云 – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Wed, 25 Jun 2025 04:45:31 +0000
zh-CN
hourly
1
196178272 -
搶先體驗 NVIDIA GB200 系統如何幫助 LMarena 構建評估 LLM 的模型
http://www.open-lab.net/zh-cn/blog/how-early-access-to-nvidia-gb200-systems-helped-lmarena-build-a-model-to-evaluate-llms/
Wed, 18 Jun 2025 04:42:15 +0000
http://www.open-lab.net/zh-cn/blog/?p=14375
Continued]]>
在 NVIDIA 和 Nebius 的幫助下,加州大學伯克利分校的 LMArena 可以更輕松地了解哪些大語言模型在特定任務中表現出色。該公司的排名由 Prompt-to-Leaderboard (P2L) 模型提供支持,可從人類那里收集 AI 在數學、編碼或創意寫作等領域的最佳表現方面的投票。 LMarena 聯合創始人、加州大學伯克利分校博士生 Wei-Lin Chiang 表示:“我們捕捉用戶在任務中的偏好,并應用 Bradley-Terry 系數來確定哪個模型在每個領域表現最好。過去兩年,LMArena (以前稱為 LMSys) 一直在開發 P2L。 LMArena 正在使用 NVIDIA DGX 云和 Nebius AI Cloud 大規模部署 P2L。此次合作以及 LMArena 對 NVIDIA GB200 NVL72 的使用,
Source
]]>
14375
-
隆重推出 NVIDIA DGX 云 Lepton:面向開發者的統一 AI 平臺
http://www.open-lab.net/zh-cn/blog/introducing-nvidia-dgx-cloud-lepton-a-unified-ai-platform-built-for-developers/
Wed, 11 Jun 2025 09:04:28 +0000
http://www.open-lab.net/zh-cn/blog/?p=14303
Continued]]>
AI 原生應用的時代已經到來。開發者正在構建先進的代理式 AI 和物理 AI 系統,但跨地區和 GPU 提供商進行擴展仍然是一項挑戰。 NVIDIA 構建 DGX Cloud Lepton 來提供幫助。這是一個統一的 AI 平臺和計算市場,將開發者與全球云提供商網絡中的數萬個 GPU 連接起來。現在,您可以搶先體驗。 DGX 云 Lepton 滿足了一項關鍵需求:通過在整個 NVIDIA 計算生態系統中提供對 GPU 容量和 AI 服務的統一訪問,提高 AI 開發者的工作效率。它與 NVIDIA 軟件堆棧(包括 NVIDIA NIM 和 NVIDIA NeMo)無縫集成,并將很快支持 NVIDIA Blueprints 和 NVIDIA Cloud Functions (NVCF)。它使開發者能夠快速、大規模地構建、訓練和部署 AI 應用。 開發者可以使用 build.
Source
]]>
14303
-
宣布推出適用于基準測試 AI 云基礎設施的 NVIDIA 示例云
http://www.open-lab.net/zh-cn/blog/announcing-nvidia-exemplar-clouds-for-benchmarking-ai-cloud-infrastructure/
Sun, 18 May 2025 05:57:39 +0000
http://www.open-lab.net/zh-cn/blog/?p=13935
Continued]]>
長期以來,在云端訓練 大語言模型 (LLMs) 和部署 AI 工作負載的開發者和企業一直面臨著一項根本性挑戰:幾乎不可能提前知道云平臺是否能夠提供其應用所需的性能、可靠性和成本效益。在這種情況下,理論峰值性能與實際現實結果之間的差異通常是進度與挫折之間的差異。 由于缺乏透明的 基準測試實踐 、云提供商之間的結果和性能不一致,以及沒有明確的標準,團隊往往無法在關鍵的基礎設施決策中做出決策。“良好”性能的真正含義是什么?如何比較各種云?您如何知道自己得到了回報?是否應該考慮可靠性? 今天,NVIDIA 正通過推出 NVIDIA Exemplar Clouds 來應對這些挑戰。這項新計劃旨在從 NVIDIA 云合作伙伴 (NCP) 生態系統開始,為 AI 云基礎設施領域帶來透明度、嚴謹性和再現性。 NCP 是專門的云提供商,他們圍繞最新的 NVIDIA GPU 架構、
Source
]]>
13935
-
應用具有推理能力的專用大語言模型(LLM)加速電池研究
http://www.open-lab.net/zh-cn/blog/applying-specialized-llms-with-reasoning-capabilities-to-accelerate-battery-research/
Fri, 09 May 2025 05:42:15 +0000
http://www.open-lab.net/zh-cn/blog/?p=13808
Continued]]>
人工評估材料通常會拖慢電池創新等復雜領域的科學研究,限制了每天只有數十個候選材料的進展。在這篇博客文章中,我們探討了通過推理能力增強的領域適應型大語言模型 (LLM) 如何改變科學研究,尤其是在電池創新等高風險、復雜領域。我們深入探討了 SES AI 的 Molecular Universe LLM,這是一個具有 70B 參數的科學 LLM,展示了這種方法的實際應用。 您將了解使用 NVIDIA NeMo Curator 、 NVIDIA NeMo Framework 、 NVIDIA DGX Cloud 和 NVIDIA NIM 構建的訓練和推理工作流,以及如何結合領域自適應、指令調整和推理對齊等技術來加速科學發現,同時提高專家工作效率。 LLM 在推進科學研究方面展現出巨大潛力,助力完成論文總結、綜合復雜見解和生成新穎假設等任務。然而,
Source
]]>
13808
-
概念驅動的 AI 教學助手引導學生獲得更深入的見解
http://www.open-lab.net/zh-cn/blog/concept%e2%80%91driven-ai-teaching-assistant-guides-students-to-deeper-insights/
Wed, 07 May 2025 06:26:11 +0000
http://www.open-lab.net/zh-cn/blog/?p=13824
Continued]]>
在當今的教育環境中,生成式 AI 工具既帶來了福音,也帶來了挑戰。雖然這些工具提供了前所未有的信息獲取途徑,但也引發了對學術誠信的新擔憂。越來越多的學生依靠 AI 直接回答家庭作業問題,而這通常以犧牲培養批判性思維技能和掌握核心概念為代價。 大學和教育工作者面臨著越來越多的兩難境地:如何利用 AI 的強大功能作為教學工具,同時確保它補充而不是縮短學習過程。關鍵在于開發引導學生進行理解的系統,而不是簡單地傳遞答案。 除了學術誠信問題外,許多大學還在努力解決助教 (TA) 短缺問題。在克萊姆森大學和全國各地的機構中,計算機科學和其他 STEM 領域的注冊人數增長超過了助教支持的速度。在某些課程中,學生與助教的比率為 20:1。在中期和項目截止日期等繁忙時期,這種不平衡通常會導致學生無法及時獲得所需的幫助。 為了應對這一挑戰,我們的 Clemson Capstone 團隊著手使用…
Source
]]>
13824
-
NVIDIA NV-Tesseract 新一代時間序列模型助力數據集處理和異常檢測的突破性進展
http://www.open-lab.net/zh-cn/blog/new-nvidia-nv-tesseract-time-series-models-advance-dataset-processing-and-anomaly-detection/
Tue, 06 May 2025 06:51:35 +0000
http://www.open-lab.net/zh-cn/blog/?p=13835
Continued]]>
時間序列數據已從簡單的歷史記錄演變為跨行業關鍵決策的實時引擎。無論是簡化物流、預測市場,還是預測機器故障,企業組織都需要比傳統方法更復雜的工具。 NVIDIA GPU 加速的深度學習使各行各業能夠獲得實時分析。首席執行官 Jensen Huang 將 GPU 描述為 時間機器 ,使企業能夠預測趨勢并迅速采取行動。 隆重推出 NV-Tesseract,這是一款通過 NVIDIA DGX 云計劃開發的尖端模型系列,旨在推進時間序列分析中的深度學習。 該模型系列可以快速處理大量時間序列數據集、發現隱藏的模式、檢測異常情況,并快速準確地預測市場變化。其影響遍及多個行業,包括: 時間序列 AI 需要專門的解決方案,沒有一個模型能夠有效處理所有預測任務。該架構擁抱這一現實,提供針對不同功能定制的專用模型。 它可確保企業組織獲得高性能、特定領域的解決方案,
Source
]]>
13835
-
NVIDIA 借助 NVIDIA DGX SuperPOD 加快 AI 工廠建設速度
http://www.open-lab.net/zh-cn/blog/nvidia-helps-build-ai-factories-faster-than-ever-with-nvidia-dgx-superpod/
Fri, 11 Apr 2025 05:49:56 +0000
http://www.open-lab.net/zh-cn/blog/?p=13581
Continued]]>
在日本一個秘密地點的洞穴狀房間里,一場數字革命正在展開。服務器機架像巨人一樣立著,它們的光滑框架由數千條電纜連接,充滿了潛力。 直到去年,這個龐大的 AI 工廠還不存在。現在,它將鞏固 SoftBank Corporation 的 AI 驅動創新愿景,這一愿景植根于創建一個與 AI 共存的社會,使用先進的基礎設施推動進步。 對于 SoftBank 而言,每天縮短部署時間,不僅僅是一場技術上的勝利。相反,它具有各種競爭優勢。在 AI 超級計算飛速發展的世界中,速度就是一切。 日本領先的科技巨頭之一軟銀集團與 NVIDIA 合作打造了這一系統。他們共同構建了兩個世界上最先進的計算集群 —— 集群能夠以創紀錄的速度處理大量數據,并加速由軟銀子公司 SB Intuitions 開發的大語言模型(LLM)的開發。 但是,創建 AI 工廠不僅僅是插入硬件。這是一項精心設計的工作,
Source
]]>
13581
-
利用 AI 更好地了解海洋
http://www.open-lab.net/zh-cn/blog/using-ai-to-better-understand-the-ocean/
Tue, 08 Apr 2025 06:27:46 +0000
http://www.open-lab.net/zh-cn/blog/?p=13518
Continued]]>
人類對深空的了解比我們對地球最深的海洋的了解更多。但科學家計劃在 AI 的幫助下改變這種狀況。 美國政府資助的非營利研究組織 MITRE 的 BlueTech 首席戰略師 Nick Rotker 說:“我們擁有的火星地圖比我們專屬經濟區的地圖要好。”“地球上大約 70% 的區域都被水覆蓋著,我們幾乎沒有探索過。” 在 GTC 大會上,Rotker 和兩位同事在一個擠滿了人的宴會廳發言,其中包括著名海洋學家兼泰坦尼克號發現者 Robert Ballard,他概述了繪制詳細的地球海洋地圖的計劃,并勾勒出了一項涉及科學、學術和企業社區的合作戰略。 有關更多信息,請參閱 探索地球海洋:使用數字孿生推動 NVIDIA On-Demand 上的數字海洋協作 。 Rotker 解釋了 MITRE 的努力如何 (至少部分) 建立在實施三臺計算機的策略上,
Source
]]>
13518
-
Volcano 調度程序中防止 GPU 碎片的實用技巧
http://www.open-lab.net/zh-cn/blog/practical-tips-for-preventing-gpu-fragmentation-for-volcano-scheduler/
Mon, 31 Mar 2025 08:16:55 +0000
http://www.open-lab.net/zh-cn/blog/?p=13440
Continued]]>
在 NVIDIA,我們以精準和創新解決復雜的基礎設施挑戰為豪。當 Volcano 在其 NVIDIA DGX 云調配的 Kubernetes 集群中面臨 GPU 利用率不足時,我們介入提供了一個不僅達到而且超過預期的解決方案。 通過將先進的調度技術與對分布式工作負載的深入理解相結合,我們實現了約 90% 的 GPU 占用率,遠高于 80% 的合同目標。下面詳細介紹了問題、我們的方法和結果。 DGX 云 Kubernetes 集群由數千個 GPU 組成,每個 GPU 均配備多個 NVIDIA L40S GPU。該集群支持多種工作負載: 盡管有可靠的硬件,但該集群仍存在 GPU 碎片化問題,導致節點被部分占用,無法用于大型作業。這種效率低下的情況又因 Volcano 調度程序 它使用了一個分組調度算法。 如果不進行干預,我們可能會違反合同協議,維持至少 80%
Source
]]>
13440
-
借助 SES AI 的 NVIDIA 驅動的電動汽車創新技術,加速運輸業的未來發展
http://www.open-lab.net/zh-cn/blog/accelerating-the-future-of-transportation-with-ses-ais-nvidia-powered-innovation-for-electric-vehicles/
Tue, 25 Mar 2025 09:04:47 +0000
http://www.open-lab.net/zh-cn/blog/?p=13369
Continued]]>
電動汽車 (EV) 正在改變交通運輸方式,但成本、使用壽命和續航里程等挑戰仍然是廣泛采用電動汽車的障礙。這些挑戰的核心在于電池技術,尤其是電解質,這是實現能源存儲和輸送的關鍵組件。電解質的特性直接影響電池的充電速度、功率輸出、穩定性和安全性。 為了克服這些障礙,研究人員開始采用 AI 驅動的方法來加速新型電池材料的發現。 作為電池創新領域的領導者,SES AI 正在利用先進的 NVIDIA 硬件和軟件生態系統來革新材料發現。SES AI 將適用于特定領域的 LLM 與 AI 模型和 GPU 加速的模擬相結合,將數十年的研究壓縮為幾個月,并在電動汽車電池性能方面取得突破性進展。 SES AI 的開創性工作分為以下關鍵步驟: SES AI 正在創建全面的分子字典,以繪制數百萬個小分子的物理和化學性質。
Source
]]>
13369
-
在 NVIDIA DGX 云上使用 NVIDIA NeMo Curator 處理 PB 級視頻
http://www.open-lab.net/zh-cn/blog/petabyte-scale-video-processing-with-nvidia-nemo-curator-on-nvidia-dgx-cloud/
Tue, 18 Mar 2025 02:53:05 +0000
http://www.open-lab.net/zh-cn/blog/?p=13281
Continued]]>
隨著 物理 AI 的興起,視頻內容生成呈指數級增長。一輛配備攝像頭的自動駕駛汽車每天可生成超過 1 TB 的視頻,而機器人驅動的制造廠每天可生成 1 PB 的數據。 要利用這些數據來訓練和微調 世界基礎模型 (WFMs) ,您必須首先高效地處理這些數據。 傳統的固定容量批量處理流水線難以應對這種規模,通常未充分利用 GPU,并且無法匹配所需的吞吐量。這些效率低下的情況減緩了 AI 模型的開發,并增加了成本。 為了應對這一挑戰, NVIDIA NeMo Curator 團隊 開發了一個靈活的 GPU 加速流式傳輸管道,用于大規模視頻管護,現在可在 NVIDIA DGX Cloud 上使用 。在本文中,我們將探討在管道中進行的優化,包括 自動擴展和負載均衡技術,以確保在充分利用可用硬件的同時優化各管道階段的吞吐量。 結果如何?更高的吞吐量、
Source
]]>
13281
-
借助 NVIDIA DGX 云基準測試衡量和提高 AI 工作負載性能
http://www.open-lab.net/zh-cn/blog/measure-and-improve-ai-workload-performance-with-nvidia-dgx-cloud-benchmarking/
Tue, 18 Mar 2025 02:35:56 +0000
http://www.open-lab.net/zh-cn/blog/?p=13275
Continued]]>
隨著 AI 功能的進步,了解硬件和軟件基礎架構選擇對工作負載性能的影響對于技術驗證和業務規劃都至關重要。組織需要一種更好的方法來評估現實世界中的端到端 AI 工作負載性能和總擁有成本,而不僅僅是比較原始 FLOPs 或每個 GPU 的每小時成本。實現出色的 AI 性能需要的不僅僅是強大的 GPU。它需要一個經過充分優化的平臺,包括基礎架構、軟件框架和應用級增強功能。 在評估 AI 性能時,請提出以下關鍵問題:您的實現是否正確,或者是否存在與參考架構相比減慢您速度的錯誤?集群的最佳規模是什么?選擇哪些軟件框架可以縮短上市時間?傳統的芯片級指標不足以完成這項任務,導致投資未得到充分利用,并且錯過了效率提升。衡量 AI 工作負載和基礎設施的性能至關重要。 本文將介紹 NVIDIA DGX 云基準測試,這是一套工具,用于評估跨 AI 工作負載和平臺的訓練和推理性能,其中包括基礎設施軟件、
Source
]]>
13275
-
借助 NVIDIA DGX 云無服務器推理在云環境中無縫擴展人工智能
http://www.open-lab.net/zh-cn/blog/seamlessly-scale-ai-across-cloud-environments-with-nvidia-dgx-cloud-serverless-inference/
Tue, 18 Mar 2025 02:07:41 +0000
http://www.open-lab.net/zh-cn/blog/?p=13272
Continued]]>
NVIDIA DGX Cloud Serverless Inference 是一種自動擴展 AI 推理解決方案,可實現快速可靠的應用部署。 DGX Cloud Serverless Inference 由 NVIDIA Cloud Functions (NVCF) 提供支持,可在多云和本地環境中提取多集群基礎設施設置,以處理 GPU 加速的工作負載。 無論是管理 AI 工作負載、高性能計算 (HPC) 、AI 模擬,還是容器化應用程序,該平臺都能讓您在抽象底層基礎設施的同時進行全球擴展。一次部署,隨處擴展。 獨立軟件供應商 (ISV) 在部署和擴展 AI 應用時經常面臨挑戰。這些應用程序需要在全球范圍內或更接近客戶基礎設施所在的位置進行部署。這可能需要在多個云、數據中心和地理區域進行部署,從而導致復雜的基礎設施運營。Serverless AI 推理通過在云、
Source
]]>
13272
-
NVIDIA DGX 云推出即用型模板,更好地評估 AI 平臺性能
http://www.open-lab.net/zh-cn/blog/nvidia-dgx-cloud-introduces-ready-to-use-templates-to-benchmark-ai-platform-performance/
Tue, 11 Feb 2025 03:20:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=12847
Continued]]>
在快速發展的 AI 系統和工作負載環境中,實現出色的模型訓練性能遠遠超出芯片速度。這需要對整個堆棧進行全面評估,從計算到網絡,再到模型框架。 了解復雜的 AI 系統性能可能比較困難。從精度到并行,您可以對許多應用程序進行更改,但目前需要付出大量努力和掌握專業知識才能有效實施這些更改。 NVIDIA DGX Cloud Benchmarking Recipes 為提高訓練性能提供了指導,通過分享每個工作負載的良好性能以及實現方法的最佳實踐。 如需了解更多信息,請參閱 NVIDIA DGX Cloud Benchmarking Recipes 。 DGX 云 Benchmarking Recipes 是一款端到端基準測試套件,既可以衡量真實環境中的性能,也可以識別 AI 訓練工作負載中的優化機會。這些基準測試方法經過精心設計,可評估真實 AI 應用的性能,
Source
]]>
12847
-
借助 iGenius 和 NVIDIA DGX 云,繼續為主權 AI 和受監管行業預訓練先進的 LLM
http://www.open-lab.net/zh-cn/blog/continued-pretraining-of-state-of-the-art-llms-for-sovereign-ai-and-regulated-industries-with-igenius-and-nvidia-dgx-cloud/
Thu, 16 Jan 2025 06:37:38 +0000
http://www.open-lab.net/zh-cn/blog/?p=12702
Continued]]>
近年來,大語言模型(LLMs)在推理、代碼生成、機器翻譯和摘要等領域取得了非凡的進步。然而,盡管基礎模型具有先進的功能,但在涉及特定領域的專業知識(例如金融或醫療健康)或捕捉英語以外的文化和語言細微差別時,它們存在局限性。 通過使用持續預訓練 (CPT)、指令微調和檢索增強型生成 (RAG) 進行進一步開發,可以克服這些限制。這需要高質量的特定領域的數據集、強大的 AI 平臺 (軟件和硬件堆棧) 以及先進的 AI 專業知識。 iGenius 是一家意大利技術公司,專門為金融服務和公共管理等高度監管行業的企業提供人工智能服務。iGenius 在歐洲和美國之間開展工作,致力于讓 AI 為人們和企業服務。該公司成立于 2016 年,其使命是實現數據人性化和業務知識普及。 iGenius 是 NVIDIA Inception 合作伙伴 ,
Source
]]>
12702
人人超碰97caoporen国产