Zhihan Jiang – NVIDIA 技術博客

NVIDIA Blackwell 在 MLPerf Inference v5.0 中實現巨大的性能飛躍

Wed, 02 Apr 2025 05:32:46 +0000

在不斷增長的模型大小、實時延遲要求以及最近的 AI 推理的推動下，大語言模型 (LLM) 推理的計算需求正在快速增長。與此同時，隨著 AI 采用率的增長， AI 工廠能否為盡可能多的用戶提供服務，同時保持良好的每位用戶體驗，是更大限度地提高其價值的關鍵。要在最新模型上實現高推理吞吐量和低推理延遲，需要在涵蓋芯片、網絡系統和軟件的整個技術堆棧中表現出色。 MLPerf Inference v5.0 是長期運行的基準套件中的最新版本，可測量一系列不同模型和用例的推理吞吐量。于 2019 年首次推出的 MLPerf Inference 不斷更新新的模型和場景，以確保它仍然是衡量 AI 計算平臺推理性能的有用工具。本輪測試新增三個新的基準測試：這些新基準測試加入了涵蓋各種模型和用例的眾多返回基準測試：ResNet-50、RetinaNet、3D U-Net、DLRMv2、

Source

]]>

NVIDIA Blackwell 平臺在 MLPerf Inference v4.1 中創下新的 LLM 推理記錄

Wed, 28 Aug 2024 07:05:54 +0000

大型語言模型 (LLM) 推理是一項全棧挑戰。實現高吞吐量、低延遲推理需要強大的 GPU、高帶寬 GPU 之間的互連、高效的加速庫和高度優化的推理引擎。 MLPerf Inference v4.1 是廣受認可的熱門 MLPerf Inference 基準測試的最新版本，由 MLCommons 聯盟開發。該基準測試包括許多熱門 AI 模型，涵蓋從 LLM 和生成式 AI 到推薦系統和計算機視覺的各種用例。這些基準測試會定期更新，以確保市場相關性。在這一輪中，NVIDIA 憑借整個 NVIDIA 技術堆棧的創新提交了許多出色的結果。亮點包括：本文將對這些結果進行詳細介紹。 NVIDIA Blackwell 架構在 NVIDIA GTC 2024 上推出，是一種新型 AI 超級芯片。它由 2080 億個晶體管精心制作而成，并采用專為 NVIDIA 定制的 TSMC…

Source

]]>

NVIDIA H200 Tensor Core GPU 和 NVIDIA TensorRT-LLM 集 MLPerf LLM 推理記錄

Wed, 27 Mar 2024 08:46:53 +0000

隨著生成式 AI 模型的持續創新，生成式 AI 在計算應用方面取得了巨大進步，從而大幅增強人類能力。這些模型包括生成式 AI 模型，例如大型語言模型 (LLM)，用于創作營銷文案、編寫代碼、渲染圖像、作曲和生成視頻等。隨著新模型的不斷出現，所需的計算量也隨之增加。生成式 AI 的計算強度要求芯片、系統和軟件要卓越。MLPerf 推理是一個基準套件，用于衡量多個熱門深度學習用例的推理性能。最新版本 MLPerf Inference v4.0 加入兩個新工作負載，代表了熱門的現代生成式 AI 用例。其中一個是基于最大的 Meta Lama 2 系列大型語言模型 (LLM) 的 LLM 基準測試，以及另一個是基于 Stable Diffusion XL 穩定漫反射的。 NVIDIA 加速計算平臺利用 NVIDIA H200 Tensor Core GPU。

Source

]]>

NVIDIA GH200 Grace Hopper 超級芯片首次亮相，取得領先的 MLPerf 推理 v3.1 結果

Mon, 11 Sep 2023 05:43:33 +0000

人工智能正在改變計算方式，推動AI在全球范圍內的應用部署。智能聊天機器人、圖像和視頻合成的簡單文本提示、個性化內容推薦以及醫學成像只是人工智能應用的幾個例子。推理工作負載對計算要求很高，而且多種多樣，要求平臺能夠快速處理從未見過的數據上的許多預測，并在各種人工智能模型上運行推理。希望部署人工智能的組織需要一種方法，在各種工作負載、環境和部署場景中客觀評估基礎設施的性能。人工智能訓練和推理都是如此。 MLPerf 推理 v3.1 是由 MLCommons 聯盟開發的最新版本，它是行業標準的人工智能推理基準套件。這個版本補充了 MLPerf 培訓和 MLPerf HPC。MLPerf 推理 v3.1 能夠衡量各種重要工作負載的推理性能，包括圖像分類、對象檢測、自然語言處理、語音識別和推薦系統，以及常見的數據中心和邊緣部署場景。 MLPerf 推理 v3.1…

Source

]]>

通過 AI 的全棧優化在 MLPerf 推理 v3.0 中創下新紀錄

Wed, 05 Apr 2023 03:03:51 +0000

目前最令人興奮的計算應用程序依賴于在復雜的人工智能模型上進行訓練和運行推理，通常是在要求苛刻的實時部署場景中。需要高性能、加速的人工智能平臺來滿足這些應用程序的需求，并提供最佳的用戶體驗新的人工智能模型不斷被發明，以實現新的功能，而人工智能驅動的應用程序往往依賴于許多這樣的模型協同工作。這意味著人工智能平臺必須能夠運行最廣泛的工作負載，并在所有工作負載上提供優異的性能。MLPerf Inference– 現在， v3.0 的第七版是一套值得信賴的、經過同行評審的標準化推理性能測試，代表了許多這樣的人工智能模型。人工智能應用程序無處不在，從最大的超大規模數據中心到緊湊的邊緣設備。 MLPerf 推理同時代表數據中心和邊緣環境。它還代表了一系列真實世界的場景，如離線（批處理）處理、延遲受限的服務器、單流和多流場景。

Source

]]>

全棧創新為 NVIDIA 最高 MLPerf 推斷 2.1 結果提供燃料

Thu, 08 Sep 2022 05:50:00 +0000

如今，人工智能驅動的應用程序正在實現更豐富的體驗，這是由更大和更復雜的人工智能模型以及許多模型在管道中的應用所推動的。為了滿足注入人工智能的應用程序日益增長的需求，人工智能平臺不僅必須提供高性能，而且必須具有足夠的通用性，以便在各種人工智能模型中提供這種性能。為了最大限度地提高基礎設施利用率并優化 CapEx ，在同一基礎設施上運行整個 AI 工作流的能力至關重要：從數據準備和模型培訓到部署推理。 MLPerf 基準已成為行業標準、同行評議的深度學習績效衡量標準，涵蓋人工智能培訓、人工智能推理和高性能計算（ HPC ）。 MLPerf 推斷 2.1 是 MLPerf 推理基準套件的最新迭代，涵蓋了廣泛的常見 AI 用例，包括推薦、自然語言處理、語音識別、醫學成像、圖像分類和對象檢測。在這一輪中， NVIDIA 在最新 NVIDIA H100 Tensor Core GPU…

Source

]]>