DGX – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Wed, 25 Jun 2025 04:45:31 +0000
zh-CN
hourly
1
196178272 -
搶先體驗 NVIDIA GB200 系統如何幫助 LMarena 構建評估 LLM 的模型
http://www.open-lab.net/zh-cn/blog/how-early-access-to-nvidia-gb200-systems-helped-lmarena-build-a-model-to-evaluate-llms/
Wed, 18 Jun 2025 04:42:15 +0000
http://www.open-lab.net/zh-cn/blog/?p=14375
Continued]]>
在 NVIDIA 和 Nebius 的幫助下,加州大學伯克利分校的 LMArena 可以更輕松地了解哪些大語言模型在特定任務中表現出色。該公司的排名由 Prompt-to-Leaderboard (P2L) 模型提供支持,可從人類那里收集 AI 在數學、編碼或創意寫作等領域的最佳表現方面的投票。 LMarena 聯合創始人、加州大學伯克利分校博士生 Wei-Lin Chiang 表示:“我們捕捉用戶在任務中的偏好,并應用 Bradley-Terry 系數來確定哪個模型在每個領域表現最好。過去兩年,LMArena (以前稱為 LMSys) 一直在開發 P2L。 LMArena 正在使用 NVIDIA DGX 云和 Nebius AI Cloud 大規模部署 P2L。此次合作以及 LMArena 對 NVIDIA GB200 NVL72 的使用,
Source
]]>
14375
-
隆重推出 NVIDIA DGX 云 Lepton:面向開發者的統一 AI 平臺
http://www.open-lab.net/zh-cn/blog/introducing-nvidia-dgx-cloud-lepton-a-unified-ai-platform-built-for-developers/
Wed, 11 Jun 2025 09:04:28 +0000
http://www.open-lab.net/zh-cn/blog/?p=14303
Continued]]>
AI 原生應用的時代已經到來。開發者正在構建先進的代理式 AI 和物理 AI 系統,但跨地區和 GPU 提供商進行擴展仍然是一項挑戰。 NVIDIA 構建 DGX Cloud Lepton 來提供幫助。這是一個統一的 AI 平臺和計算市場,將開發者與全球云提供商網絡中的數萬個 GPU 連接起來。現在,您可以搶先體驗。 DGX 云 Lepton 滿足了一項關鍵需求:通過在整個 NVIDIA 計算生態系統中提供對 GPU 容量和 AI 服務的統一訪問,提高 AI 開發者的工作效率。它與 NVIDIA 軟件堆棧(包括 NVIDIA NIM 和 NVIDIA NeMo)無縫集成,并將很快支持 NVIDIA Blueprints 和 NVIDIA Cloud Functions (NVCF)。它使開發者能夠快速、大規模地構建、訓練和部署 AI 應用。 開發者可以使用 build.
Source
]]>
14303
-
NVIDIA Base Command Manager 為 AI 集群管理提供免費的啟動程序
http://www.open-lab.net/zh-cn/blog/nvidia-base-command-manager-offers-free-kickstart-for-ai-cluster-management/
Tue, 03 Jun 2025 08:14:36 +0000
http://www.open-lab.net/zh-cn/blog/?p=14135
Continued]]>
隨著 AI 和高性能計算 (HPC) 工作負載變得越來越常見和復雜,系統管理員和集群管理員是確保一切平穩運行的核心。他們的工作 (構建、調配和管理集群) 推動了各行各業的創新,但這并非沒有挑戰。 在聆聽這些團隊的演講后,NVIDIA 傳達了一個明確的信息:訪問可靠的企業級管理工具可以在日常運營中產生真正的影響。全球數以千計的部署已經在利用 NVIDIA Base Command Manager 來優化其加速集群。正因如此,NVIDIA Base Command Manager 現已免費提供,并可在需要時提供企業支持選項。 集群經理通常需要在功能豐富的企業就緒型商業工具和免費開源解決方案的靈活性之間做出權衡。免費提供 Base Command Manager 旨在消除障礙,為基礎架構團隊提供更多選擇,無論是評估新工作流程、新員工入職還是擴展生產集群。
Source
]]>
14135
-
Blackwell 借助 Meta 的 Llama 4 Maverick 突破 1000 TPS/ 用戶門檻
http://www.open-lab.net/zh-cn/blog/blackwell-breaks-the-1000-tps-user-barrier-with-metas-llama-4-maverick/
Thu, 22 May 2025 06:09:52 +0000
http://www.open-lab.net/zh-cn/blog/?p=14069
Continued]]>
NVIDIA 的大語言模型 (LLM) 推理速度創下了世界紀錄。在包含 400 億參數的 Llama 4 Maverick 模型 ( Llama 4 系列中可用的最大、最強大的模型) 上,配備 8 個 NVIDIA Blackwell GPU 的單個 NVIDIA DGX B200 節點可為每位用戶實現每秒 1,000 多個 token (TPS) 。這一速度由 AI 基準測試服務 Artificial Analysis 獨立衡量。 憑借這一記錄,Blackwell 在任何部署場景中都是 Llama 4 的理想硬件,無論是要更大限度地提高吞吐量,還是要更大限度地降低延遲。NVIDIA Blackwell 是第一個在此模型上突破 1,000 TPS/user 的里程碑的平臺,在我們的最高吞吐量配置下,它達到了 72,000 TPS/server。
Source
]]>
14069
-
斯坦福大學實驗室借助 NVIDIA DGX 云加速 RNA 折疊研究
http://www.open-lab.net/zh-cn/blog/stanford-das-lab-accelerates-rna-folding-research-with-nvidia-dgx-cloud/
Wed, 09 Apr 2025 06:19:40 +0000
http://www.open-lab.net/zh-cn/blog/?p=13512
Continued]]>
斯坦福大學的 Das Lab 正在通過一種利用社區參與和加速計算的獨特方法,徹底改變 RNA 折疊研究。在 NVIDIA DGX 云 通過 NAIRR Pilot 計劃 提供的支持下,該實驗室在三個月內獲得了 32 個 NVIDIA A100 DGX 云節點 (每個節點配備 8 個 GPU) 的訪問權限,使團隊能夠從小規模實驗過渡到大規模分布式訓練。這使得該團隊能夠使用大型模型和數據集進行訓練,迭代訓練技術,并推動 RNA 折疊研究領域的發展。 Rhiju Das 博士及其團隊處于 RNA 研究的前沿,為應對新冠肺炎 (Covid-19) 大流行,于 2020 年舉辦了 OpenVaccine Kaggle 競賽,并于 2024 年舉辦了 Ribonanza 競賽,以進一步研究 RNA 折疊。他們的目標是通過對 RNA 結構和功能進行準確建模,
Source
]]>
13512
-
NVIDIA Blackwell 在 MLPerf Inference v5.0 中實現巨大的性能飛躍
http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-massive-performance-leaps-in-mlperf-inference-v5-0/
Wed, 02 Apr 2025 05:32:46 +0000
http://www.open-lab.net/zh-cn/blog/?p=13408
Continued]]>
在不斷增長的模型大小、實時延遲要求以及最近的 AI 推理的推動下, 大語言模型 (LLM) 推理的計算需求正在快速增長。與此同時,隨著 AI 采用率的增長, AI 工廠 能否為盡可能多的用戶提供服務,同時保持良好的每位用戶體驗,是更大限度地提高其價值的關鍵。要在最新模型上實現高推理吞吐量和低推理延遲,需要在涵蓋芯片、網絡系統和軟件的整個技術堆棧中表現出色。 MLPerf Inference v5.0 是長期運行的基準套件中的最新版本,可測量一系列不同模型和用例的推理吞吐量。于 2019 年首次推出的 MLPerf Inference 不斷更新新的模型和場景,以確保它仍然是衡量 AI 計算平臺推理性能的有用工具。 本輪測試新增三個新的基準測試: 這些新基準測試加入了涵蓋各種模型和用例的眾多返回基準測試:ResNet-50、RetinaNet、3D U-Net、DLRMv2、
Source
]]>
13408
-
借助 NVIDIA Mission Control 實現 AI 工廠自動化
http://www.open-lab.net/zh-cn/blog/automating-ai-factory-operations-with-nvidia-mission-control/
Tue, 25 Mar 2025 08:51:04 +0000
http://www.open-lab.net/zh-cn/blog/?p=13363
Continued]]>
DeepSeek-R1 等先進的 AI 模型證明,企業現在可以構建專用于自己的數據和專業知識的尖端 AI 模型。這些模型可以根據獨特的用例進行定制,以前所未有的方式應對各種挑戰。 基于早期 AI 采用者的成功,許多組織正在將重點轉移到全面生產的 AI 工廠 。然而,創建高效 AI 工廠的過程復雜且耗時,并且不同于構建特定于垂直行業的 AI 的目標。 它涉及到樓宇自動化,用于調配和管理復雜的基礎設施,在最新平臺上維護具有專業技能的站點可靠性工程師(SRE)團隊,以及大規模開發流程以實現超大規模的效率。此外,開發者需要一種方法來利用 AI 基礎設施的強大功能,同時具備超大規模數據中心的敏捷性、效率和規模,同時避免成本、復雜性和專業知識等方面的負擔。 本文將介紹 NVIDIA Mission Control (一個為使用 NVIDIA 參考架構構建的 AI…
Source
]]>
13363
-
借助 NVIDIA DGX 云基準測試衡量和提高 AI 工作負載性能
http://www.open-lab.net/zh-cn/blog/measure-and-improve-ai-workload-performance-with-nvidia-dgx-cloud-benchmarking/
Tue, 18 Mar 2025 02:35:56 +0000
http://www.open-lab.net/zh-cn/blog/?p=13275
Continued]]>
隨著 AI 功能的進步,了解硬件和軟件基礎架構選擇對工作負載性能的影響對于技術驗證和業務規劃都至關重要。組織需要一種更好的方法來評估現實世界中的端到端 AI 工作負載性能和總擁有成本,而不僅僅是比較原始 FLOPs 或每個 GPU 的每小時成本。實現出色的 AI 性能需要的不僅僅是強大的 GPU。它需要一個經過充分優化的平臺,包括基礎架構、軟件框架和應用級增強功能。 在評估 AI 性能時,請提出以下關鍵問題:您的實現是否正確,或者是否存在與參考架構相比減慢您速度的錯誤?集群的最佳規模是什么?選擇哪些軟件框架可以縮短上市時間?傳統的芯片級指標不足以完成這項任務,導致投資未得到充分利用,并且錯過了效率提升。衡量 AI 工作負載和基礎設施的性能至關重要。 本文將介紹 NVIDIA DGX 云基準測試,這是一套工具,用于評估跨 AI 工作負載和平臺的訓練和推理性能,其中包括基礎設施軟件、
Source
]]>
13275
-
借助 NVIDIA DGX 云無服務器推理在云環境中無縫擴展人工智能
http://www.open-lab.net/zh-cn/blog/seamlessly-scale-ai-across-cloud-environments-with-nvidia-dgx-cloud-serverless-inference/
Tue, 18 Mar 2025 02:07:41 +0000
http://www.open-lab.net/zh-cn/blog/?p=13272
Continued]]>
NVIDIA DGX Cloud Serverless Inference 是一種自動擴展 AI 推理解決方案,可實現快速可靠的應用部署。 DGX Cloud Serverless Inference 由 NVIDIA Cloud Functions (NVCF) 提供支持,可在多云和本地環境中提取多集群基礎設施設置,以處理 GPU 加速的工作負載。 無論是管理 AI 工作負載、高性能計算 (HPC) 、AI 模擬,還是容器化應用程序,該平臺都能讓您在抽象底層基礎設施的同時進行全球擴展。一次部署,隨處擴展。 獨立軟件供應商 (ISV) 在部署和擴展 AI 應用時經常面臨挑戰。這些應用程序需要在全球范圍內或更接近客戶基礎設施所在的位置進行部署。這可能需要在多個云、數據中心和地理區域進行部署,從而導致復雜的基礎設施運營。Serverless AI 推理通過在云、
Source
]]>
13272
-
使用 NVIDIA TensorRT-LLM 前瞻性解碼優化 Qwen2.5-Coder 吞吐量
http://www.open-lab.net/zh-cn/blog/optimizing-qwen2-5-coder-throughput-with-nvidia-tensorrt-llm-lookahead-decoding/
Fri, 14 Feb 2025 04:58:05 +0000
http://www.open-lab.net/zh-cn/blog/?p=12977
Continued]]>
專注于編碼的 大語言模型(LLMs) 已穩步應用于開發者工作流程。從配對編程到自我改進的 AI 智能體 ,這些模型可幫助開發者完成各種任務,包括增強代碼、修復錯誤、生成測試和編寫文檔。 為促進開源 LLM 的開發,Qwen 團隊最近發布了 Qwen2.5-Coder,這是一系列先進的 LLM,用于跨熱門編程語言的代碼生成、推理和修復。本文將探討針對 NVIDIA TensorRT-LLM 支持 的 Qwen2.5-Coder 模型進行推理優化的優勢,以及借助 NVIDIA NIM 輕松部署以提升變革潛力和編碼效率的好處。 Qwen2.5-Coder 模型在熱門的學術基準測試中取得了出色的性能。 NVIDIA TensorRT-LLM 已對 Qwen2.5-Coder 系列的三種熱門模型 (1.5B、7B 和 32B 版本) 進行優化,以實現高吞吐量和低延遲。
Source
]]>
12977
-
2024 年 NVIDIA 6G 開發者日的 5 大關鍵收獲
http://www.open-lab.net/zh-cn/blog/five-takeaways-from-nvidia-6g-developer-day-2024/
Wed, 18 Dec 2024 09:30:38 +0000
http://www.open-lab.net/zh-cn/blog/?p=12495
Continued]]>
2024 年 NVIDIA 6G 開發者日讓 6G 研發社區成員共聚一堂 ,分享見解,并學習使用 NVIDIA 6G 研究工具的新方式。來自世界各地的 1,300 多名學術和行業研究人員參加了此次虛擬活動。會上,NVIDIA、ETH Zürich、Keysight、Northeastern University、Samsung、Softbank 和 University of Oulu 發表了演講。本文將探討本次活動的五個要點。 預計 6G 將駕 AI 浪潮,為消費者和企業釋放新的潛力,并改變電信基礎設施。這是 NVIDIA 高級副總裁 Ronnie Vasishta 發表的主題演講 的關鍵信息。隨著生成式 AI 和 AI 應用的采用率迅速增長,AI 增強型端點正在進行交互并在移動中做出決策,從而在電信網絡上產生大量語音、視頻、數據和 AI 流量。
Source
]]>
12495
-
聚焦:TCS 利用 NVIDIA 生成式 AI 將汽車軟件測試速度提高 2 倍
http://www.open-lab.net/zh-cn/blog/spotlight-tcs-increases-automotive-software-testing-speeds-by-2x-using-nvidia-generative-ai/
Fri, 22 Nov 2024 06:06:41 +0000
http://www.open-lab.net/zh-cn/blog/?p=12145
Continued]]>
生成式 AI 正在改變汽車行業的各個方面,包括軟件開發、測試、用戶體驗、個性化和安全性。隨著汽車行業從機械驅動轉向軟件驅動,生成式 AI 正在釋放出無限的可能性。 Tata 咨詢服務(TCS) 專注于在汽車行業中利用生成式人工智能的兩大領域: 生成式 AI 是實現全自動駕駛汽車(AV)的關鍵,它可以增強基于 AI 的算法,從而做出更好的決策。它可以生成和合成各種可能性的數據集,從有限的實時數據到訓練和測試數據。這種技術對于實現車輛個性化和用戶體驗至關重要。它包括一系列功能,例如高級搜索功能、語言翻譯、車載個人助理以及直觀的視頻和音頻娛樂推薦。 軟件定義車輛(Software-Defined Vehicle,SDV)的目標是提供更高的靈活性和豐富的用戶體驗,使客戶能夠根據自己的便利性升級和更新車輛功能。這增加了車輛的復雜性,導致產生數百萬行代碼。
Source
]]>
12145
-
使用 EMBark 加速大規模推薦系統嵌入式訓練優化
http://www.open-lab.net/zh-cn/blog/boost-large-scale-recommendation-system-training-embedding-using-embark/
Wed, 20 Nov 2024 08:27:41 +0000
http://www.open-lab.net/zh-cn/blog/?p=12179
Continued]]>
推薦系統是互聯網行業的核心,而高效地訓練這些系統對于各大公司來說是一個關鍵問題。大多數推薦系統是深度學習推薦模型(DLRMs),包含數十億甚至數百億個 ID 特征。圖 1 示出了一個典型的結構。 近年來, NVIDIA Merlin HugeCTR 和 TorchRec 等 GPU 解決方案通過在 GPU 上存儲大規模 ID 特征嵌入并對其進行并行處理,顯著加速了 DLRM 的訓練。與 CPU 解決方案相比,使用 GPU 內存帶寬可實現顯著改進。 與此同時,隨著訓練集群中使用的 GPU 數量增加(從 8 個 GPU 增加到 128 個 GPU),我們發現嵌入的通信開銷在總訓練開銷中占較大比例。在一些大規模訓練場景中(例如在 16 個節點上),它甚至超過了一半(51%)。 這主要有兩個原因: 1、隨著集群中 GPU 數量的增加,每個節點上的嵌入表數量逐漸減少,
Source
]]>
12179
-
多代理 AI 和 GPU 驅動的聲音轉文本技術創新
http://www.open-lab.net/zh-cn/blog/multi-agent-ai-and-gpu-powered-innovation-in-sound-to-text-technology/
Tue, 22 Oct 2024 03:29:45 +0000
http://www.open-lab.net/zh-cn/blog/?p=11629
Continued]]>
自動音頻字幕 (Automated Audio Captioning) 任務的核心是從音頻輸入中生成自然語言描述。鑒于輸入 (音頻) 和輸出 (文字) 之間的不同模式,AAC 系統通常依靠 audio encoder 從聲音中提取相關信息,表示為 feature vectors,然后 decoder 用于生成文本描述。 這一研究領域對于開發使機器能夠更好地解釋周圍聲學環境并與之交互的系統至關重要。意識到其重要性的 Detection and Classification of Acoustic Scenes and Events(DCASE)社區自 2020 年以來舉辦了年度 AAC 競賽,吸引了全球超過 26 個學術界和行業的團隊參加。 收聽 Audio Example of a Recording Environment in a Forest 的結果。
Source
]]>
11629
-
使用張量并行技術進行自動駕駛感知模型訓練
http://www.open-lab.net/zh-cn/blog/perception-model-training-for-autonomous-vehicles-with-tensor-parallelism/
Fri, 26 Apr 2024 05:16:35 +0000
http://www.open-lab.net/zh-cn/blog/?p=9745
Continued]]>
由于采用了多攝像頭輸入和深度卷積骨干網絡,用于訓練自動駕駛感知模型的 GPU 內存占用很大。當前減少內存占用的方法往往會導致額外的計算開銷或工作負載的失衡。 本文介紹了 NVIDIA 和智能電動汽車開發商蔚來的聯合研究。具體來說,文中探討了張量并行卷積神經網絡(CNN)訓練如何有助于減少 GPU 內存占用,并展示了蔚來如何提高自動駕駛汽車感知模型的訓練效率和 GPU 利用率。 自動駕駛的感知模型訓練 自動駕駛感知任務采用多攝像頭數據作為輸入,卷積神經網絡(CNN)作為骨干(backbone)來提取特征。由于 CNN 的前向激活值(activations)都是形狀為(N, C, H, W)的特征圖(feature maps)(其中 N、C、H、W 分別代表圖像數、通道數、高度和寬度)。這些激活值需要被保存下來用于反向傳播,
Source
]]>
9745
人人超碰97caoporen国产