Ronny Krashinsky – NVIDIA 技術博客

隆重推出 NVFP4，實現高效準確的低精度推理

Tue, 24 Jun 2025 04:38:52 +0000

為了充分利用 AI，優化至關重要。當開發者考慮優化用于推理的 AI 模型時，通常會想到量化、蒸餾和剪枝等模型壓縮技術。毫無疑問，這三者中最常見的是量化。這通常是由于其特定于任務的優化后準確性性能以及受支持的框架和技術的廣泛選擇。然而，模型量化的主要挑戰是模型智能或特定任務準確性的潛在損失，尤其是從 FP32 等更高精度的數據類型過渡到最新的 FP4 格式時。NVIDIA Blackwell 提供更高的靈活性，支持 FP64、FP32/TF32、FP16/BF16、INT8/FP8、FP6 和 FP4 數據格式。圖 1 比較了 NVIDIA Ampere、Hopper 和 Blackwell GPU 中受支持的最小浮點數據類型和相應的密集/稀疏性能，展示了各代 GPU 中性能和數據類型支持的演變情況。最新的第五代 NVIDIA Blackwell Tensor Cores…

Source

]]>

NVIDIA Hopper 深入研究架構

Tue, 22 Mar 2022 06:43:00 +0000

今天，在 2022 NVIDIA GTC 主題演講中， NVIDIA 首席執行官 Jensen Huang 介紹了新的 NVIDIA H100 張量核心 GPU 基于新的 NVIDIA 漏斗 GPU 架構。這篇文章讓你看看新的 H100 GPU ，并介紹了NVIDIA Hopper 架構 GPU 的重要新功能。 NVIDIA H100 張量核心 GPU 是我們設計的第九代數據中心 GPU ，用于在前一代 NVIDIA A100 張量核心 GPU 上為大規模 AI 和 HPC 提供數量級性能跳躍。 H100 延續了 A100 的主要設計重點，提高了人工智能和 HPC 工作負載的可擴展性，大大提高了架構效率。對于當今的主流 AI 和 HPC 機型，配備 InfiniBand interconnect 的 H100 的性能是 A100 的 30 倍。

Source

]]>

深度了解 NVIDIA Ampere 架構

Thu, 14 May 2020 03:03:41 +0000

今天，在 2020 年 NVIDIA GTC 主題演講中， NVIDIA 創始人兼 CEO 黃仁勛介紹了基于新 NVIDIA 安培 GPU 架構的新 NVIDIA A100 GPU 。這篇文章介紹了新的 A100 GPU 內部，并描述了 NVIDIA 安培架構 GPUs 的重要新特性。現代云數據中心運行的計算密集型應用程序的多樣性推動了 NVIDIA GPU – 加速云計算的爆炸式發展。這些密集型應用包括 AI 深度學習（ DL ）培訓和推理、數據分析、科學計算、基因組學、邊緣視頻分析和 5G 服務、圖形渲染、云游戲等。從擴大人工智能培訓和科學計算，到擴展推理應用程序，再到實現實時對話人工智能， NVIDIA GPUs 提供了必要的馬力，以加速當今云數據中心中運行的大量復雜和不可預測的工作負載。 NVIDIA GPUs 是推動人工智能革命的領先計算引擎，

Source

]]>