Evarist Fomenko – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 09 Feb 2023 02:50:01 +0000 zh-CN hourly 1 196178272 NVIDIA Hopper GPU 上的新 cuBLAS 12.0 功能和矩陣乘法性能 http://www.open-lab.net/zh-cn/blog/new-cublas-12-0-features-and-matrix-multiplication-performance-on-nvidia-hopper-gpus/ Wed, 01 Feb 2023 02:48:04 +0000 http://www.open-lab.net/zh-cn/blog/?p=6207 Continued]]> NVIDIA H100 TensorCore GPU 基于 NVIDIA Hopper 架構 和第四代 NVIDIA Tensor Cores ,最近推出了 提供前所未有的性能 和 全面的 AI 基準 ,如 MLPerf training 。 人工智能和機器學習基準測試中相當一部分操作是 通用矩陣乘法 ,也稱為 matmul 函數。 GEMs 也存在于深度學習訓練的前向和后向通道以及推理中。 GEMM 的突出性使得深度學習軟件能夠最大限度地利用用于矩陣乘法的硬件,同時支持幾個關鍵的 AI 組件。這些成分包括具有偏置和流行激活功能的融合體及其衍生物。 本文探討了 NVIDIA cuBLAS 庫 在里面 CUDA 12.0 重點是最近推出的 FP8 format 、 NVIDIA Hopper 上的 GEM 性能 GPU ,以及新 64 位整數應用程序編程接口 ( API…

Source

]]>
6207
人人超碰97caoporen国产