FP8 – NVIDIA 技術博客

FP8?在大模型訓練中的應用、挑戰及實踐

Fri, 24 Jan 2025 08:50:45 +0000

越來越多的技術團隊開始使用 FP8 進行大模型訓練，這主要因為 FP8 有很多技術優勢，比如在新一代的 GPU 上，FP8 相對于 BF16 對矩陣乘算子這樣的計算密集型算子，NVIDIA TensorCores 能夠提供兩倍的峰值性能，相對于 TF32 能夠提供四倍的加速，從而大大縮短計算密集型算子的計算時間。而對于訪存密集型的算子，由于 FP8 所需的數據量更少，可以減輕訪存壓力，加速這些算子。如果在訓練時使用 FP8 精度，可以更方便快速地將 FP8 部署到推理側，使 FP8 訓練可以更容易順暢地與低精度推理相結合。同時，由于 FP8 的動態范圍和精度相對于之前使用的 FP16/BF16/FP32 更小，如果使用 FP8 代替原來的數值精度進行訓練，技術團隊在模型和數據集上可能會遇到 FP8 精度的挑戰。

Source

]]>

如何使用 FP8 加速大模型訓練

Tue, 10 Dec 2024 10:17:18 +0000

利用 FP8 技術加速 LLM 推理和訓練越來越受到關注，本文主要和大家介紹如何使用 FP8 這項新技術加速大模型的訓練。使用 FP8 進行大模型訓練的優勢 FP8 是一種 8 位浮點數表示法，FP8 的詳細介紹可以參考此鏈接： https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/examples/fp8_primer.html#Introduction-to-FP8 其中，使用 FP8 進行大模型訓練具有以下優勢：當然，FP8 對比 FP16 或者 FP32 在數值表示范圍上引入了新的挑戰，從上面的表格中可以看到，FP8 數據類型所能表示的數值范圍較小，精度較低。因此需要針對 FP8 引入更細粒度的算法改進，

Source

]]>

TensorRT-LLM 低精度推理優化：從速度和精度角度的 FP8 vs INT8 的全面解析

Wed, 20 Nov 2024 07:13:33 +0000

本文將分享 TensorRT-LLM 中低精度量化內容，并從精度和速度角度對比 FP8 與 INT8。首先介紹性能，包括速度和精度。其次，介紹量化工具 NVIDIA TensorRT Model Optimizer（簡稱 ModelOpt，https://github.com/NVIDIA/TensorRT-Model-Optimizer）及其快速實現量化功能的方法。第三部分為 Debug。隨后講解 FP8 的 Deep-Dive，并進行總結。一、速度和精度在講解精度之前，先介紹 NVIDIA Hopper 架構上的數據類型 FP8，它有兩種數據類型：E5M2 和 E4M3，在 TensorRT-LLM 中目前支持 E4M3。對 Tensor Core 硬件來說，相比于 FP32/FP16 作為輸入，FP8 在數據傳輸上具有優勢。另外，

Source

]]>

探索 FP8 訓練中 Debug 思路與技巧

Thu, 04 Jul 2024 07:19:20 +0000

目前，市場上許多公司都積極開展基于 FP8 的大模型訓練，以提高計算效率和性能。在此，我們整理并總結了客戶及 NVIDIA 技術團隊在 FP8 模型訓練過程中的 debug 思路和方法，供大家參考。在討論之前，建議大家使用我們推薦的 FP8 訓練的 Recipe，即使用 Delayed scaling，在History length為1024的窗口中選取最大的amax數值作為計算scaling factor的方法。當然，我們也在不斷優化這個 Recipe，未來隨著更多 FP8 的實踐案例，將繼續為大家總結和分享，期待共同探索和優化 debug 的思路和方案。在收集和整理了大量 FP8 訓練的案例后，我們發現，FP8 訓練中遇到的問題一般可以分成以下三類：第一類問題：Spike Issue Spike Issue 其實并不是 FP8…

Source

]]>

NVIDIA 、 Arm 和 Intel 發布 FP8 標準化規范作為 AI 的交換格式

Wed, 14 Sep 2022 05:05:00 +0000

人工智能處理需要跨硬件和軟件平臺的全棧創新，以滿足神經網絡日益增長的計算需求。提高效率的一個關鍵領域是使用較低精度的數字格式來提高計算效率，減少內存使用，并優化互連帶寬。為了實現這些好處，業界已經從 32 位精度轉換為 16 位，現在甚至是 8 位精度格式。 transformer 網絡是人工智能中最重要的創新之一，尤其受益于 8 位浮點精度。我們相信，擁有一種通用的交換格式將使硬件和軟件平臺的快速發展和互操作性得以提高，從而推動計算。 NVIDIA 、 Arm 和 Intel 聯合撰寫了一份白皮書 FP8 Formats for Deep Learning ，描述了 8 位浮點（ FP8 ）規范。它提供了一種通用的格式，通過優化內存使用來加速人工智能的開發，并適用于人工智能訓練和推理。此 FP8 規格有兩種變體， E5M2 和 E4M3 。

Source

]]>