隆重推出 NVFP4，實現高效準確的低精度推理

Tue, 24 Jun 2025 04:38:52 +0000

為了充分利用 AI，優化至關重要。當開發者考慮優化用于推理的 AI 模型時，通常會想到量化、蒸餾和剪枝等模型壓縮技術。毫無疑問，這三者中最常見的是量化。這通常是由于其特定于任務的優化后準確性性能以及受支持的框架和技術的廣泛選擇。然而，模型量化的主要挑戰是模型智能或特定任務準確性的潛在損失，尤其是從 FP32 等更高精度的數據類型過渡到最新的 FP4 格式時。NVIDIA Blackwell 提供更高的靈活性，支持 FP64、FP32/TF32、FP16/BF16、INT8/FP8、FP6 和 FP4 數據格式。圖 1 比較了 NVIDIA Ampere、Hopper 和 Blackwell GPU 中受支持的最小浮點數據類型和相應的密集/稀疏性能，展示了各代 GPU 中性能和數據類型支持的演變情況。最新的第五代 NVIDIA Blackwell Tensor Cores…

Source

]]>

NVIDIA Blackwell 實現世界紀錄的 DeepSeek-R1 推理性能

Tue, 18 Mar 2025 05:30:54 +0000

NVIDIA 在 NVIDIA GTC 2025 上宣布了創下世界紀錄的 DeepSeek-R1 推理性能。搭載 8 個 NVIDIA Blackwell GPU 的單個 NVIDIA DGX 系統，在具有 671 億個參數的先進大型 DeepSeek-R1 模型上，每個用戶每秒可實現超過 250 個 token，或每秒超過 30,000 個 token 的最大吞吐量。得益于 NVIDIA 開放生態系統的推理開發者工具的改進 (現已針對 NVIDIA Blackwell 架構進行優化) ，這些性能頻譜兩端的快速性能提升得以實現。隨著 NVIDIA 平臺不斷突破最新 NVIDIA Blackwell Ultra GPU 和 NVIDIA Blackwell GPU 的推理極限，這些性能記錄將會得到改善。單個 DGX B200 8-GPU 系統和單個 DGX…

Source

]]>

Omri Almog – NVIDIA 技術博客

隆重推出 NVFP4，實現高效準確的低精度推理

NVIDIA Blackwell 實現世界紀錄的 DeepSeek-R1 推理性能