MLPerf 性能測試 – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 05 Jun 2025 06:53:06 +0000
zh-CN
hourly
1
196178272 -
重現 NVIDIA MLPerf v5.0 的 LLM 基準測試訓練成績
http://www.open-lab.net/zh-cn/blog/reproducing-nvidia-mlperf-v5-0-training-scores-for-llm-benchmarks/
Wed, 04 Jun 2025 05:35:26 +0000
http://www.open-lab.net/zh-cn/blog/?p=14084
Continued]]>
運行 NVIDIA 基準測試時,您的系統需要具備以下內容: 運行 NVIDIA MLPerf 訓練基準測試需要: NVIDIA 提交集群不支持使用 Docker 運行工作負載。這些集群由 NVIDIA Base Command Manager (BCM) 管理。按照官方說明正確設置 BCM SLURM 集群。 正確設置后,您應能登錄頭節點并訪問 SLURM 命令 ( sinFO、squeue、srun、sbatch) 以在計算節點上啟動作業。 開始對任何模型進行基準測試所需的步驟包括: 要運行 Llama 2 70B LoRA 的基準測試,請按照本節中的說明操作。 此基準測試使用了政府報告數據集和 Hugging Face 檢查點。NVIDIA NeMo 需要對數據集和檢查點進行預處理。
Source
]]>
14084
-
NVIDIA Blackwell 在 MLPerf Inference v5.0 中實現巨大的性能飛躍
http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-massive-performance-leaps-in-mlperf-inference-v5-0/
Wed, 02 Apr 2025 05:32:46 +0000
http://www.open-lab.net/zh-cn/blog/?p=13408
Continued]]>
在不斷增長的模型大小、實時延遲要求以及最近的 AI 推理的推動下, 大語言模型 (LLM) 推理的計算需求正在快速增長。與此同時,隨著 AI 采用率的增長, AI 工廠 能否為盡可能多的用戶提供服務,同時保持良好的每位用戶體驗,是更大限度地提高其價值的關鍵。要在最新模型上實現高推理吞吐量和低推理延遲,需要在涵蓋芯片、網絡系統和軟件的整個技術堆棧中表現出色。 MLPerf Inference v5.0 是長期運行的基準套件中的最新版本,可測量一系列不同模型和用例的推理吞吐量。于 2019 年首次推出的 MLPerf Inference 不斷更新新的模型和場景,以確保它仍然是衡量 AI 計算平臺推理性能的有用工具。 本輪測試新增三個新的基準測試: 這些新基準測試加入了涵蓋各種模型和用例的眾多返回基準測試:ResNet-50、RetinaNet、3D U-Net、DLRMv2、
Source
]]>
13408
-
NVIDIA Blackwell 在 MLPerf 訓練 v4.1 中將 LLM 訓練性能提高一倍
http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-doubles-llm-training-performance-in-mlperf-training-v4-1/
Wed, 13 Nov 2024 07:46:17 +0000
http://www.open-lab.net/zh-cn/blog/?p=12054
Continued]]>
隨著模型規模的擴大以及使用更多數據進行訓練,它們的能力也隨之提升,實用性也隨之提升。為了快速訓練這些模型,需要在數據中心規模上提供更高的性能。NVIDIA Blackwell 平臺在 2024 年 GTC 大會上推出,現已全面投產,集成了七類芯片:GPU、CPU、DPU、NVLink Switch 芯片、InfiniBand Switch 和 Ethernet Switch。Blackwell 平臺在每個 GPU 的性能方面實現了巨大飛躍,旨在支持創建更大規模的 AI 集群,從而推動下一代 LLM 的開發。 在最新一輪的 MLPerf 訓練 (一套 AI 訓練基準測試) 中,NVIDIA 使用 Blackwell 平臺首次提交了基準測試預覽類別的測試結果。這些結果表明,在每個 MLPerf 訓練基準測試中,與基于 Hopper 的提交相比,每個加速器的提升幅度很大。
Source
]]>
12054
-
NVIDIA Blackwell 平臺在 MLPerf Inference v4.1 中創下新的 LLM 推理記錄
http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-platform-sets-new-llm-inference-records-in-mlperf-inference-v4-1/
Wed, 28 Aug 2024 07:05:54 +0000
http://www.open-lab.net/zh-cn/blog/?p=11091
Continued]]>
大型語言模型 (LLM) 推理是一項全棧挑戰。實現高吞吐量、低延遲推理需要強大的 GPU、高帶寬 GPU 之間的互連、高效的加速庫和高度優化的推理引擎。 MLPerf Inference v4.1 是廣受認可的熱門 MLPerf Inference 基準測試的最新版本,由 MLCommons 聯盟開發。該基準測試包括許多熱門 AI 模型,涵蓋從 LLM 和生成式 AI 到推薦系統和計算機視覺的各種用例。這些基準測試會定期更新,以確保市場相關性。 在這一輪中,NVIDIA 憑借整個 NVIDIA 技術堆棧的創新提交了許多出色的結果。亮點包括: 本文將對這些結果進行詳細介紹。 NVIDIA Blackwell 架構在 NVIDIA GTC 2024 上推出,是一種新型 AI 超級芯片。它由 2080 億個晶體管精心制作而成,并采用專為 NVIDIA 定制的 TSMC…
Source
]]>
11091
-
NVIDIA 在 MLPerf Training v4.0 中創造了新的生成式 AI 性能和規模記錄
http://www.open-lab.net/zh-cn/blog/nvidia-sets-new-generative-ai-performance-and-scale-records-in-mlperf-training-v4-0/
Wed, 12 Jun 2024 06:26:36 +0000
http://www.open-lab.net/zh-cn/blog/?p=10340
Continued]]>
生成式 AI 模型具有多種用途,例如幫助編寫計算機代碼、創作故事、作曲、生成圖像、制作視頻等。而且,隨著這些模型的大小不斷增加,并且使用更多數據進行訓練,它們將產生更高質量的輸出。 構建和部署這些更智能的模型需要非常大的計算量,需要許多高性能處理器并行工作,并由高效、通用的軟件進行編排。 例如,Meta 宣布訓練其最新的 Llama 3 系列中的 大語言模型(LLMs),使用搭載 24,576 個 NVIDIA H100 Tensor Core GPUs 的人工智能集群。模型越大,Llama 3 70B 就需要總計6.4 million H100 GPU-hours進行訓練。 預訓練 LLM 后,可以通過各種技術包括模型微調,以提高特定任務的準確性。隨著企業開始在各種應用中采用 LLM,LLM 微調正迅速成為核心行業工作負載。 AI 訓練是一項全棧挑戰,
Source
]]>
10340
-
NVIDIA H200 Tensor Core GPU 和 NVIDIA TensorRT-LLM 集 MLPerf LLM 推理記錄
http://www.open-lab.net/zh-cn/blog/nvidia-h200-tensor-core-gpus-and-nvidia-tensorrt-llm-set-mlperf-llm-inference-records/
Wed, 27 Mar 2024 08:46:53 +0000
http://www.open-lab.net/zh-cn/blog/?p=9478
Continued]]>
隨著生成式 AI 模型的持續創新,生成式 AI 在計算應用方面取得了巨大進步,從而大幅增強人類能力。這些模型包括 生成式 AI 模型,例如 大型語言模型 (LLM),用于創作營銷文案、編寫代碼、渲染圖像、作曲和生成視頻等。隨著新模型的不斷出現,所需的計算量也隨之增加。 生成式 AI 的計算強度要求芯片、系統和軟件要卓越。MLPerf 推理是一個基準套件,用于衡量多個熱門深度學習用例的推理性能。最新版本 MLPerf Inference v4.0 加入兩個新工作負載,代表了熱門的現代生成式 AI 用例。其中一個是基于最大的 Meta Lama 2 系列大型語言模型 (LLM) 的 LLM 基準測試,以及另一個是基于 Stable Diffusion XL 穩定漫反射的。 NVIDIA 加速計算平臺利用 NVIDIA H200 Tensor Core GPU。
Source
]]>
9478
-
針對藥物研發優化 OpenFold 訓練
http://www.open-lab.net/zh-cn/blog/optimizing-openfold-training-for-drug-discovery/
Wed, 28 Feb 2024 05:13:14 +0000
http://www.open-lab.net/zh-cn/blog/?p=9009
Continued]]>
從氨基酸序列預測 3D 蛋白質結構一直是生物信息學領域由來已久的重要問題。近年來,基于深度學習的計算方法不斷涌現,并已顯示出有希望的結果。 在這些工作中,AlphaFold2 是第一種與較慢的基于物理性質的計算方法相美的方法。它被 Nature 命名為 2021 年度最佳方法。該模型基于其他當代深度學習模型廣泛采用的序列注意力機制的變體而構建。 通過使用 MML,我們能夠有效地訓練和評估大規模的生物醫學數據集。MML 是一個高度可擴展和可定制化的平臺,它支持多種機器學習算法和模型,并提供了豐富的工具和接口,以便于用戶能夠輕松地集成、擴展和定制化 MML 平臺以滿足其特定的需求和應用場景。 遺憾的是,AlphaFold2 訓練所需的時間仍然是一個重大瓶頸。 AlphaFold2 訓練使用 1000 萬個樣本和 128 個 TPU 進行,收時間超過 11 天(初始訓練 7 天,
Source
]]>
9009
人人超碰97caoporen国产