Roman Dubtsov – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 14 May 2025 07:09:12 +0000 zh-CN hourly 1 196178272 借助 NVIDIA cuBLAS 12.9 提高矩陣乘法速度和靈活性 http://www.open-lab.net/zh-cn/blog/boosting-matrix-multiplication-speed-and-flexibility-with-nvidia-cublas-12-9/ Thu, 01 May 2025 07:04:57 +0000 http://www.open-lab.net/zh-cn/blog/?p=13847 Continued]]> NVIDIA CUDA-X 數學庫助力開發者為 AI、科學計算、數據處理等領域構建加速應用。 CUDA-X 庫的兩個最重要的應用是訓練和推理 LLM,無論是用于日常消費者應用,還是用于藥物研發等高度專業化的科學領域。要在 NVIDIA Blackwell 架構上高效訓練 LLM 和執行 具有突破性性能的推理任務 ,多個 CUDA-X 庫不可或缺。 cuBLAS 是一個 CUDA-X 庫,可提供高度優化的內核,用于執行最基本的線性代數任務,例如矩陣乘法 (matmuls) ,這些任務對于 LLM 訓練和推理至關重要。 NVIDIA CUDA 工具包 12.9 中新推出的 cuBLAS 支持進一步優化 cuBLAS matmul 性能的新功能。它還通過調整浮點精度和利用模擬的基礎模組,實現了更大的靈活性,以平衡準確性和能效等需求。 本文將介紹 cuBLAS 12.9…

Source

]]>
13847
NVIDIA Hopper GPU 上的新 cuBLAS 12.0 功能和矩陣乘法性能 http://www.open-lab.net/zh-cn/blog/new-cublas-12-0-features-and-matrix-multiplication-performance-on-nvidia-hopper-gpus/ Wed, 01 Feb 2023 02:48:04 +0000 http://www.open-lab.net/zh-cn/blog/?p=6207 Continued]]> NVIDIA H100 TensorCore GPU 基于 NVIDIA Hopper 架構 和第四代 NVIDIA Tensor Cores ,最近推出了 提供前所未有的性能 和 全面的 AI 基準 ,如 MLPerf training 。 人工智能和機器學習基準測試中相當一部分操作是 通用矩陣乘法 ,也稱為 matmul 函數。 GEMs 也存在于深度學習訓練的前向和后向通道以及推理中。 GEMM 的突出性使得深度學習軟件能夠最大限度地利用用于矩陣乘法的硬件,同時支持幾個關鍵的 AI 組件。這些成分包括具有偏置和流行激活功能的融合體及其衍生物。 本文探討了 NVIDIA cuBLAS 庫 在里面 CUDA 12.0 重點是最近推出的 FP8 format 、 NVIDIA Hopper 上的 GEM 性能 GPU ,以及新 64 位整數應用程序編程接口 ( API…

Source

]]>
6207
人人超碰97caoporen国产