Yiheng Zhang – NVIDIA 技術博客

NVIDIA TensorRT 解鎖 NVIDIA Blackwell GeForce RTX 50 系列 GPU 的 FP4 圖像生成

Wed, 14 May 2025 07:41:19 +0000

NVIDIA Blackwell 平臺的推出開啟了生成式 AI 技術進步的新時代。其最前沿是新推出的 GeForce RTX 50 系列 GPU，適用于 PC 和工作站，配備具有 4 位浮點計算 (FP4) 的第五代 Tensor Cores，是加速 Black Forest Labs 的 FLUX 等高級生成式 AI 模型的必備。隨著新的圖像生成模型力求達到速度、準確性、更高分辨率和復雜的提示依從性，它們變得越來越大、越來越復雜。要在 PC 和工作站的本地推理中部署這些大型復雜模型，超越 16 位和 8 位計算的優勢在于。 Blackwell 與 NVIDIA TensorRT 推理工具軟件生態系統相結合，可提供易于使用的庫，這些庫支持用于推理的 FP4 量化和部署，具有出色的性能和質量。實現這一目標并非易事。為了利用 Blackwell 中的 4 位硬件創新，

Source

]]>

NVIDIA Blackwell 平臺在 MLPerf Inference v4.1 中創下新的 LLM 推理記錄

Wed, 28 Aug 2024 07:05:54 +0000

大型語言模型 (LLM) 推理是一項全棧挑戰。實現高吞吐量、低延遲推理需要強大的 GPU、高帶寬 GPU 之間的互連、高效的加速庫和高度優化的推理引擎。 MLPerf Inference v4.1 是廣受認可的熱門 MLPerf Inference 基準測試的最新版本，由 MLCommons 聯盟開發。該基準測試包括許多熱門 AI 模型，涵蓋從 LLM 和生成式 AI 到推薦系統和計算機視覺的各種用例。這些基準測試會定期更新，以確保市場相關性。在這一輪中，NVIDIA 憑借整個 NVIDIA 技術堆棧的創新提交了許多出色的結果。亮點包括：本文將對這些結果進行詳細介紹。 NVIDIA Blackwell 架構在 NVIDIA GTC 2024 上推出，是一種新型 AI 超級芯片。它由 2080 億個晶體管精心制作而成，并采用專為 NVIDIA 定制的 TSMC…

Source

]]>

NVIDIA H200 Tensor Core GPU 和 NVIDIA TensorRT-LLM 集 MLPerf LLM 推理記錄

Wed, 27 Mar 2024 08:46:53 +0000

隨著生成式 AI 模型的持續創新，生成式 AI 在計算應用方面取得了巨大進步，從而大幅增強人類能力。這些模型包括生成式 AI 模型，例如大型語言模型 (LLM)，用于創作營銷文案、編寫代碼、渲染圖像、作曲和生成視頻等。隨著新模型的不斷出現，所需的計算量也隨之增加。生成式 AI 的計算強度要求芯片、系統和軟件要卓越。MLPerf 推理是一個基準套件，用于衡量多個熱門深度學習用例的推理性能。最新版本 MLPerf Inference v4.0 加入兩個新工作負載，代表了熱門的現代生成式 AI 用例。其中一個是基于最大的 Meta Lama 2 系列大型語言模型 (LLM) 的 LLM 基準測試，以及另一個是基于 Stable Diffusion XL 穩定漫反射的。 NVIDIA 加速計算平臺利用 NVIDIA H200 Tensor Core GPU。

Source

]]>

NVIDIA GH200 Grace Hopper 超級芯片首次亮相，取得領先的 MLPerf 推理 v3.1 結果

Mon, 11 Sep 2023 05:43:33 +0000

人工智能正在改變計算方式，推動AI在全球范圍內的應用部署。智能聊天機器人、圖像和視頻合成的簡單文本提示、個性化內容推薦以及醫學成像只是人工智能應用的幾個例子。推理工作負載對計算要求很高，而且多種多樣，要求平臺能夠快速處理從未見過的數據上的許多預測，并在各種人工智能模型上運行推理。希望部署人工智能的組織需要一種方法，在各種工作負載、環境和部署場景中客觀評估基礎設施的性能。人工智能訓練和推理都是如此。 MLPerf 推理 v3.1 是由 MLCommons 聯盟開發的最新版本，它是行業標準的人工智能推理基準套件。這個版本補充了 MLPerf 培訓和 MLPerf HPC。MLPerf 推理 v3.1 能夠衡量各種重要工作負載的推理性能，包括圖像分類、對象檢測、自然語言處理、語音識別和推薦系統，以及常見的數據中心和邊緣部署場景。 MLPerf 推理 v3.1…

Source

]]>

通過 AI 的全棧優化在 MLPerf 推理 v3.0 中創下新紀錄

Wed, 05 Apr 2023 03:03:51 +0000

目前最令人興奮的計算應用程序依賴于在復雜的人工智能模型上進行訓練和運行推理，通常是在要求苛刻的實時部署場景中。需要高性能、加速的人工智能平臺來滿足這些應用程序的需求，并提供最佳的用戶體驗新的人工智能模型不斷被發明，以實現新的功能，而人工智能驅動的應用程序往往依賴于許多這樣的模型協同工作。這意味著人工智能平臺必須能夠運行最廣泛的工作負載，并在所有工作負載上提供優異的性能。MLPerf Inference– 現在， v3.0 的第七版是一套值得信賴的、經過同行評審的標準化推理性能測試，代表了許多這樣的人工智能模型。人工智能應用程序無處不在，從最大的超大規模數據中心到緊湊的邊緣設備。 MLPerf 推理同時代表數據中心和邊緣環境。它還代表了一系列真實世界的場景，如離線（批處理）處理、延遲受限的服務器、單流和多流場景。

Source

]]>