NVIDIA Blackwell 實現世界紀錄的 DeepSeek-R1 推理性能

Tue, 18 Mar 2025 05:30:54 +0000

NVIDIA 在 NVIDIA GTC 2025 上宣布了創下世界紀錄的 DeepSeek-R1 推理性能。搭載 8 個 NVIDIA Blackwell GPU 的單個 NVIDIA DGX 系統，在具有 671 億個參數的先進大型 DeepSeek-R1 模型上，每個用戶每秒可實現超過 250 個 token，或每秒超過 30,000 個 token 的最大吞吐量。得益于 NVIDIA 開放生態系統的推理開發者工具的改進 (現已針對 NVIDIA Blackwell 架構進行優化) ，這些性能頻譜兩端的快速性能提升得以實現。隨著 NVIDIA 平臺不斷突破最新 NVIDIA Blackwell Ultra GPU 和 NVIDIA Blackwell GPU 的推理極限，這些性能記錄將會得到改善。單個 DGX B200 8-GPU 系統和單個 DGX…

Source

]]>

NVIDIA TensorRT 模型優化器加速生成人工智能推理性能，現已公開

Wed, 08 May 2024 04:49:34 +0000

在快速發展的環境中，生成人工智能的發展對加速推理速度的需求仍然是一個緊迫的問題。隨著模型規模和復雜性的指數級增長，對快速生成結果以同時服務于眾多用戶的需求也在持續增長。NVIDIA 平臺站在這一努力的前沿，通過芯片、系統、軟件和算法等全技術堆棧的創新，實現永久的性能飛躍。 NVIDIA 正在擴展其推理產品 NVIDIA TensorRT 模型優化器，一個集成了最先進的后期訓練和環中訓練模型優化技術的綜合庫。這些技術包括量化和稀疏性，旨在降低模型復雜性，以實現更高效的下游推理庫，如 NVIDIA TensorRT LLM，從而更有效地優化深度學習模型的推理速度。作為 NVIDIA TensorRT 生態系統的一部分，NVIDIA TensorRT 模型優化器（簡稱模型優化器）可用于多種流行的體系結構，包括 NVIDIA Hopper、NVIDIA Ampere 和 NVIDIA…

Source

]]>

Huizi Mao – NVIDIA 技術博客

NVIDIA Blackwell 實現世界紀錄的 DeepSeek-R1 推理性能

NVIDIA TensorRT 模型優化器加速生成人工智能推理性能，現已公開