Benchmark – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 05 Jun 2025 08:14:20 +0000
zh-CN
hourly
1
196178272 -
NVIDIA Blackwell 在 MLPerf Training v5.0 中實現高達 2.6 倍的性能提升
http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-up-to-2-6x-higher-performance-in-mlperf-training-v5-0/
Wed, 04 Jun 2025 06:53:24 +0000
http://www.open-lab.net/zh-cn/blog/?p=14119
Continued]]>
創建先進的大語言模型 (LLM) 的過程始于預訓練過程。預訓練最先進的模型具有很高的計算要求,因為熱門的開放權重模型具有數百億到數千億個參數,并使用數萬億個令牌進行訓練。模型智能隨著模型參數數量和訓練數據集大小的增加而增長,訓練模型所需的計算量也在增加,因此需要更高性能的訓練集群來解鎖更智能、更強大的模型,同時控制訓練時間。 預訓練模型后,可以對其進行后訓練,以進一步增強其功能。例如,企業可以使用自己的專有數據集定制預訓練模型,以提高該組織特定用例的知識水平和響應準確性。其他后訓練技術可用于增加支持的上下文長度,以及增強具有推理能力的模型。總體而言,雖然單個模型的后訓練計算密集程度可能比現在的預訓練模型低,但隨著研究人員尋找提高模型能力的新方法,以及許多組織可以自定義模型,后訓練模型的計算密集程度也在快速增長。 MLPerf Training v5.0…
Source
]]>
14119
-
重現 NVIDIA MLPerf v5.0 的 LLM 基準測試訓練成績
http://www.open-lab.net/zh-cn/blog/reproducing-nvidia-mlperf-v5-0-training-scores-for-llm-benchmarks/
Wed, 04 Jun 2025 05:35:26 +0000
http://www.open-lab.net/zh-cn/blog/?p=14084
Continued]]>
運行 NVIDIA 基準測試時,您的系統需要具備以下內容: 運行 NVIDIA MLPerf 訓練基準測試需要: NVIDIA 提交集群不支持使用 Docker 運行工作負載。這些集群由 NVIDIA Base Command Manager (BCM) 管理。按照官方說明正確設置 BCM SLURM 集群。 正確設置后,您應能登錄頭節點并訪問 SLURM 命令 ( sinFO、squeue、srun、sbatch) 以在計算節點上啟動作業。 開始對任何模型進行基準測試所需的步驟包括: 要運行 Llama 2 70B LoRA 的基準測試,請按照本節中的說明操作。 此基準測試使用了政府報告數據集和 Hugging Face 檢查點。NVIDIA NeMo 需要對數據集和檢查點進行預處理。
Source
]]>
14084
-
全新 NVIDIA Llama Nemotron Nano 視覺語言模型在 OCR 準確性基準測試中位居榜首
http://www.open-lab.net/zh-cn/blog/new-nvidia-llama-nemotron-nano-vision-language-model-tops-ocr-benchmark-for-accuracy/
Tue, 03 Jun 2025 07:21:11 +0000
http://www.open-lab.net/zh-cn/blog/?p=14132
Continued]]>
PDF、圖形、圖表和控制面板等文檔是豐富的數據源,在提取和整理時,可提供信息豐富的決策見解。從自動化財務報表處理到改進商業智能工作流程,智能文檔處理正在成為企業 AI 解決方案的核心組成部分。 企業組織可以使用 NVIDIA Llama Nemotron Nano VL 加速 AI 開發流程。這種多模態視覺語言模型能夠以高精度和高效率讀取、理解和分析多種文檔類型。 此生產就緒型模型為文檔理解設定了新的基準,專為可擴展的 AI 智能體而設計,能夠以無與倫比的速度從多模態文檔中讀取和提取見解,從而將視覺語言模型 (VLM) 引入企業數據處理的前沿。 Llama Nemotron Nano VL 是 NVIDIA Nemotron 系列的最新成員,是一種先進的 AI 模型,專為高級智能文檔處理和理解而設計。此模型可作為 NVIDIA NIM API 提供,
Source
]]>
14132
-
Blackwell 借助 Meta 的 Llama 4 Maverick 突破 1000 TPS/ 用戶門檻
http://www.open-lab.net/zh-cn/blog/blackwell-breaks-the-1000-tps-user-barrier-with-metas-llama-4-maverick/
Thu, 22 May 2025 06:09:52 +0000
http://www.open-lab.net/zh-cn/blog/?p=14069
Continued]]>
NVIDIA 的大語言模型 (LLM) 推理速度創下了世界紀錄。在包含 400 億參數的 Llama 4 Maverick 模型 ( Llama 4 系列中可用的最大、最強大的模型) 上,配備 8 個 NVIDIA Blackwell GPU 的單個 NVIDIA DGX B200 節點可為每位用戶實現每秒 1,000 多個 token (TPS) 。這一速度由 AI 基準測試服務 Artificial Analysis 獨立衡量。 憑借這一記錄,Blackwell 在任何部署場景中都是 Llama 4 的理想硬件,無論是要更大限度地提高吞吐量,還是要更大限度地降低延遲。NVIDIA Blackwell 是第一個在此模型上突破 1,000 TPS/user 的里程碑的平臺,在我們的最高吞吐量配置下,它達到了 72,000 TPS/server。
Source
]]>
14069
-
宣布推出適用于基準測試 AI 云基礎設施的 NVIDIA 示例云
http://www.open-lab.net/zh-cn/blog/announcing-nvidia-exemplar-clouds-for-benchmarking-ai-cloud-infrastructure/
Sun, 18 May 2025 05:57:39 +0000
http://www.open-lab.net/zh-cn/blog/?p=13935
Continued]]>
長期以來,在云端訓練 大語言模型 (LLMs) 和部署 AI 工作負載的開發者和企業一直面臨著一項根本性挑戰:幾乎不可能提前知道云平臺是否能夠提供其應用所需的性能、可靠性和成本效益。在這種情況下,理論峰值性能與實際現實結果之間的差異通常是進度與挫折之間的差異。 由于缺乏透明的 基準測試實踐 、云提供商之間的結果和性能不一致,以及沒有明確的標準,團隊往往無法在關鍵的基礎設施決策中做出決策。“良好”性能的真正含義是什么?如何比較各種云?您如何知道自己得到了回報?是否應該考慮可靠性? 今天,NVIDIA 正通過推出 NVIDIA Exemplar Clouds 來應對這些挑戰。這項新計劃旨在從 NVIDIA 云合作伙伴 (NCP) 生態系統開始,為 AI 云基礎設施領域帶來透明度、嚴謹性和再現性。 NCP 是專門的云提供商,他們圍繞最新的 NVIDIA GPU 架構、
Source
]]>
13935
-
LLM 推理基準測試指南:NVIDIA GenAI-Perf 和 NIM
http://www.open-lab.net/zh-cn/blog/llm-performance-benchmarking-measuring-nvidia-nim-performance-with-genai-perf/
Tue, 06 May 2025 06:45:58 +0000
http://www.open-lab.net/zh-cn/blog/?p=13833
Continued]]>
這是 LLM 基準測試系列 的第二篇文章,介紹了在使用 NVIDIA NIM 部署 Meta Llama 3 模型 時,如何使用 GenAI-Perf 對其進行基準測試。 在構建基于 LLM 的應用時,了解這些模型在給定硬件上的性能特征至關重要。這有多種用途: 作為以客戶端 LLM 為中心的基準測試工具, NVIDIA GenAI-Perf 提供了以下關鍵指標: GenAI-Perf 還支持任何符合 OpenAI API 規范 (業內廣泛接受的默認標準)的 LLM 推理服務。 在本基準測試指南中,我們使用了 NVIDIA NIM ,這是一系列推理微服務,可為基礎 LLM 和微調 LLM 提供高吞吐量和低延遲推理。NIM 具有易用性、企業級安全性和可管理性。 為優化您的 AI 應用,本文將介紹如何為 Llama 3 設置 NIM 推理微服務,
Source
]]>
13833
-
借助 NVIDIA cuBLAS 12.9 提高矩陣乘法速度和靈活性
http://www.open-lab.net/zh-cn/blog/boosting-matrix-multiplication-speed-and-flexibility-with-nvidia-cublas-12-9/
Thu, 01 May 2025 07:04:57 +0000
http://www.open-lab.net/zh-cn/blog/?p=13847
Continued]]>
NVIDIA CUDA-X 數學庫助力開發者為 AI、科學計算、數據處理等領域構建加速應用。 CUDA-X 庫的兩個最重要的應用是訓練和推理 LLM,無論是用于日常消費者應用,還是用于藥物研發等高度專業化的科學領域。要在 NVIDIA Blackwell 架構上高效訓練 LLM 和執行 具有突破性性能的推理任務 ,多個 CUDA-X 庫不可或缺。 cuBLAS 是一個 CUDA-X 庫,可提供高度優化的內核,用于執行最基本的線性代數任務,例如矩陣乘法 (matmuls) ,這些任務對于 LLM 訓練和推理至關重要。 NVIDIA CUDA 工具包 12.9 中新推出的 cuBLAS 支持進一步優化 cuBLAS matmul 性能的新功能。它還通過調整浮點精度和利用模擬的基礎模組,實現了更大的靈活性,以平衡準確性和能效等需求。 本文將介紹 cuBLAS 12.9…
Source
]]>
13847
-
使用 NVIDIA NIM 對游戲進行代理式 LLM 和 VLM 推理基準測試
http://www.open-lab.net/zh-cn/blog/benchmarking-agentic-llm-and-vlm-reasoning-for-gaming-with-nvidia-nim/
Thu, 24 Apr 2025 04:08:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=13726
Continued]]>
這是 LLM 基準測試系列的第一篇文章,介紹了在使用 NVIDIA NIM 部署 Meta Llama 3 模型時,如何使用 GenAI-Perf 進行基準測試。 來自倫敦大學學院 (UCL) 決策、行動和推理知識 (DARK) 實驗室的研究人員在其全新的基于游戲的基準測試套件 Benchmarking Agentic LLM 和 VLM Reasoning On Games (BALROG) 中利用了 NVIDIA NIM 微服務。BALROG 經過專門設計,可使用各種游戲環境評估模型在具有挑戰性的長距交互式任務中的代理能力。 來自 DARK Lab 的團隊利用 NVIDIA NIM 簡化了詳盡的基準測試流程。在 DeepSeek-R1 NIM 發布時 ( 2025 年 2 月底) ,他們能夠使用 DeepSeek-R1,這是一個包含 671 億個參數的大型模型。
Source
]]>
13726
-
NVIDIA Llama Nemotron 超開放模型實現突破性的推理準確性
http://www.open-lab.net/zh-cn/blog/nvidia-llama-nemotron-ultra-open-model-delivers-groundbreaking-reasoning-accuracy/
Tue, 15 Apr 2025 05:31:17 +0000
http://www.open-lab.net/zh-cn/blog/?p=13575
Continued]]>
AI 不再只是生成文本或圖像,而是要針對商業、金融、客戶和醫療健康服務中的現實應用進行深度推理、詳細解決問題并實現強大的適應性。 NVIDIA 最新推出的 Llama Nemotron Ultra 推理模型在智能和編碼基準測試中提供了領先的開源模型準確性,同時提高了計算效率。您可以在 Hugging Face 上找到模型、權重和訓練數據,以便將 AI 應用于從研究助理、編碼助手到自動化工作流的各種工作中。 Llama Nemotron Ultra 正在重新定義 AI 在科學推理、編碼和數學基準測試中可以實現的目標。該模型針對復雜推理、人類匹配聊天、 檢索增強生成 (RAG) 和工具使用進行了后訓練,專為滿足現實世界企業的需求 (從 copilot 和知識助手到自動化工作流程) 而構建,具有高影響力 AI 所需的深度和靈活性。 Llama Nemotron Ultra 基于…
Source
]]>
13575
-
LLM 基準測試:基本概念
http://www.open-lab.net/zh-cn/blog/llm-benchmarking-fundamental-concepts/
Wed, 02 Apr 2025 08:02:10 +0000
http://www.open-lab.net/zh-cn/blog/?p=13428
Continued]]>
在過去幾年中,作為廣泛的 AI 革命的一部分, 生成式 AI 和 大語言模型 (LLMs) 越來越受歡迎。隨著基于 LLMs 的應用在各個企業中的推廣,我們需要確定不同 AI 服務解決方案的成本效益。部署 LLM 應用的成本取決于它每秒可以處理的查詢數量,同時響應最終用戶并支持可接受的響應準確度。本文特別關注 LLMs 吞吐量和延遲測量,以評估 LLM 應用成本。 NVIDIA 為開發者提供涵蓋芯片、系統和軟件的全棧創新。NVIDIA 推理軟件堆棧包括 NVIDIA Dynamo 、 NVIDIA TensorRT-LLM 和 NVIDIA NIM 微服務。為支持開發者實現基準測試推理性能,NVIDIA 還提供了開源生成式 AI 基準測試工具 GenAI-Perf 。詳細了解如何 使用 GenAI-Perf 進行基準測試 。 可以使用各種工具來評估 LLMs 的性能。
Source
]]>
13428
-
借助 NVIDIA Parabricks 和 NVIDIA AI Blueprints,將基因組學和單細胞分析時間縮短至幾分鐘
http://www.open-lab.net/zh-cn/blog/shrink-genomics-and-single-cell-analysis-time-to-minutes-with-nvidia-parabricks-and-nvidia-blueprints/
Fri, 21 Mar 2025 09:13:19 +0000
http://www.open-lab.net/zh-cn/blog/?p=13269
Continued]]>
NVIDIA Parabricks 是一款可擴展的基因組學分析軟件套件,通過加速計算和深度學習解決 omics 挑戰,實現新的科學突破。 NVIDIA Parabricks v4.5 在 NVIDIA GTC 2025 上發布,通過支持最新的 NVIDIA GPU 架構,并通過結合使用 Giraffe 和 DeepVariant 來改進對齊和變體識別,從而支持不斷增長的數據量。該版本還包括改進的功能,并縮短了跨多個行業領先工具 (包括 STAR、FQ2BAM 和 Minimap2) 的分析時間。 Parabricks v4.5 隨附用于基因組學和單細胞分析的全新 NVIDIA AI Blueprints,使生物信息學家和基因組學平臺提供商能夠輕松部署和測試 NVIDIA Parabricks 和 NVIDIA RAPIDS,而無需本地 GPU 或自管理云配置。通過擴展可訪問性,
Source
]]>
13269
-
NVIDIA Blackwell 實現世界紀錄的 DeepSeek-R1 推理性能
http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-world-record-deepseek-r1-inference-performance/
Tue, 18 Mar 2025 05:30:54 +0000
http://www.open-lab.net/zh-cn/blog/?p=13327
Continued]]>
NVIDIA 在 NVIDIA GTC 2025 上宣布了創下世界紀錄的 DeepSeek-R1 推理性能 。 搭載 8 個 NVIDIA Blackwell GPU 的單個 NVIDIA DGX 系統 ,在具有 671 億個參數的先進大型 DeepSeek-R1 模型上,每個用戶每秒可實現超過 250 個 token,或每秒超過 30,000 個 token 的最大吞吐量。得益于 NVIDIA 開放生態系統的推理開發者工具的改進 (現已針對 NVIDIA Blackwell 架構進行優化) ,這些性能頻譜兩端的快速性能提升得以實現。 隨著 NVIDIA 平臺不斷突破最新 NVIDIA Blackwell Ultra GPU 和 NVIDIA Blackwell GPU 的推理極限,這些性能記錄將會得到改善。 單個 DGX B200 8-GPU 系統和單個 DGX…
Source
]]>
13327
-
NVIDIA NeMo 檢索器將準確的多模態 PDF 數據提取速度提高 15 倍
http://www.open-lab.net/zh-cn/blog/nvidia-nemo-retriever-delivers-accurate-multimodal-pdf-data-extraction-15x-faster/
Tue, 18 Mar 2025 04:11:37 +0000
http://www.open-lab.net/zh-cn/blog/?p=13287
Continued]]>
企業生成和存儲的多模態數據比以往任何時候都多,但傳統的檢索系統在很大程度上仍然以文本為重點。雖然他們可以從書面內容中獲得見解,但不會提取嵌入表格、圖表和信息圖(通常是文檔中信息最密集的元素)的關鍵信息。 如果沒有多模態檢索系統, 檢索增強型生成(RAG) 用戶可能會丟失隱藏在這些復雜數據格式中的關鍵見解,從而在企業知識檢索中造成重大盲點。了解適用于 RAG 的 NVIDIA AI Blueprint 。 在本文中,我們將探索適用于 RAG 的 AI Blueprint 的最新進展,并深入探討背后的核心技術 – NVIDIA NeMo Retriever 。探索新的基準測試,了解 NVIDIA 合作伙伴如何使用此藍圖高效地提取、索引和查詢多模態數據。 適用于 RAG 的 AI Blueprint 是一個 GPU 加速的參考示例,
Source
]]>
13287
-
借助 NVIDIA DGX 云基準測試衡量和提高 AI 工作負載性能
http://www.open-lab.net/zh-cn/blog/measure-and-improve-ai-workload-performance-with-nvidia-dgx-cloud-benchmarking/
Tue, 18 Mar 2025 02:35:56 +0000
http://www.open-lab.net/zh-cn/blog/?p=13275
Continued]]>
隨著 AI 功能的進步,了解硬件和軟件基礎架構選擇對工作負載性能的影響對于技術驗證和業務規劃都至關重要。組織需要一種更好的方法來評估現實世界中的端到端 AI 工作負載性能和總擁有成本,而不僅僅是比較原始 FLOPs 或每個 GPU 的每小時成本。實現出色的 AI 性能需要的不僅僅是強大的 GPU。它需要一個經過充分優化的平臺,包括基礎架構、軟件框架和應用級增強功能。 在評估 AI 性能時,請提出以下關鍵問題:您的實現是否正確,或者是否存在與參考架構相比減慢您速度的錯誤?集群的最佳規模是什么?選擇哪些軟件框架可以縮短上市時間?傳統的芯片級指標不足以完成這項任務,導致投資未得到充分利用,并且錯過了效率提升。衡量 AI 工作負載和基礎設施的性能至關重要。 本文將介紹 NVIDIA DGX 云基準測試,這是一套工具,用于評估跨 AI 工作負載和平臺的訓練和推理性能,其中包括基礎設施軟件、
Source
]]>
13275
-
在 NVIDIA Grace CPU 上使用 Polars 和 Apache Spark 實現高效 ETL
http://www.open-lab.net/zh-cn/blog/efficient-etl-with-polars-and-apache-spark-on-nvidia-grace-cpu/
Tue, 11 Mar 2025 06:37:40 +0000
http://www.open-lab.net/zh-cn/blog/?p=13354
Continued]]>
NVIDIA Grace CPU 超級芯片可為數據中心和云端的 CPU 工作負載提供出色的性能和出色的能效。NVIDIA Grace 的優勢包括高性能 Arm Neoverse V2 核心、NVIDIA 設計的快速可擴展一致性結構(Scalable Coherency Fabric)以及低功耗高帶寬 LPDDR5X 內存。 這些功能使 Grace CPU 成為處理 提取、加載、轉換 (ETL) 工作負載的理想選擇,展現出出色的性能。ETL 工作負載是在線分析處理 (OLAP) 和商業智能 (BI) 工作流的關鍵組成部分,使企業能夠獲得見解并改進組織決策制定。 本文介紹了 NVIDIA Grace CPU 如何提供解決方案,在不影響性能的情況下,在單節點 Polars 和多節點 Apache Spark 上運行 ETL 工作負載時降低功耗。
Source
]]>
13354
人人超碰97caoporen国产