加速計算 – NVIDIA 技術博客

如何使用 FP8 加速大模型訓練

Tue, 10 Dec 2024 10:17:18 +0000

利用 FP8 技術加速 LLM 推理和訓練越來越受到關注，本文主要和大家介紹如何使用 FP8 這項新技術加速大模型的訓練。使用 FP8 進行大模型訓練的優勢 FP8 是一種 8 位浮點數表示法，FP8 的詳細介紹可以參考此鏈接： https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/examples/fp8_primer.html#Introduction-to-FP8 其中，使用 FP8 進行大模型訓練具有以下優勢：當然，FP8 對比 FP16 或者 FP32 在數值表示范圍上引入了新的挑戰，從上面的表格中可以看到，FP8 數據類型所能表示的數值范圍較小，精度較低。因此需要針對 FP8 引入更細粒度的算法改進，

Source

]]>

使用 EMBark 加速大規模推薦系統嵌入式訓練優化

Wed, 20 Nov 2024 08:27:41 +0000

推薦系統是互聯網行業的核心，而高效地訓練這些系統對于各大公司來說是一個關鍵問題。大多數推薦系統是深度學習推薦模型（DLRMs），包含數十億甚至數百億個 ID 特征。圖 1 示出了一個典型的結構。近年來， NVIDIA Merlin HugeCTR 和 TorchRec 等 GPU 解決方案通過在 GPU 上存儲大規模 ID 特征嵌入并對其進行并行處理，顯著加速了 DLRM 的訓練。與 CPU 解決方案相比，使用 GPU 內存帶寬可實現顯著改進。與此同時，隨著訓練集群中使用的 GPU 數量增加（從 8 個 GPU 增加到 128 個 GPU），我們發現嵌入的通信開銷在總訓練開銷中占較大比例。在一些大規模訓練場景中（例如在 16 個節點上），它甚至超過了一半（51%）。這主要有兩個原因： 1、隨著集群中 GPU 數量的增加，每個節點上的嵌入表數量逐漸減少，

Source

]]>

TensorRT-LLM 低精度推理優化：從速度和精度角度的 FP8 vs INT8 的全面解析

Wed, 20 Nov 2024 07:13:33 +0000

本文將分享 TensorRT-LLM 中低精度量化內容，并從精度和速度角度對比 FP8 與 INT8。首先介紹性能，包括速度和精度。其次，介紹量化工具 NVIDIA TensorRT Model Optimizer（簡稱 ModelOpt，https://github.com/NVIDIA/TensorRT-Model-Optimizer）及其快速實現量化功能的方法。第三部分為 Debug。隨后講解 FP8 的 Deep-Dive，并進行總結。一、速度和精度在講解精度之前，先介紹 NVIDIA Hopper 架構上的數據類型 FP8，它有兩種數據類型：E5M2 和 E4M3，在 TensorRT-LLM 中目前支持 E4M3。對 Tensor Core 硬件來說，相比于 FP32/FP16 作為輸入，FP8 在數據傳輸上具有優勢。另外，

Source

]]>

探索 FP8 訓練中 Debug 思路與技巧

Thu, 04 Jul 2024 07:19:20 +0000

目前，市場上許多公司都積極開展基于 FP8 的大模型訓練，以提高計算效率和性能。在此，我們整理并總結了客戶及 NVIDIA 技術團隊在 FP8 模型訓練過程中的 debug 思路和方法，供大家參考。在討論之前，建議大家使用我們推薦的 FP8 訓練的 Recipe，即使用 Delayed scaling，在History length為1024的窗口中選取最大的amax數值作為計算scaling factor的方法。當然，我們也在不斷優化這個 Recipe，未來隨著更多 FP8 的實踐案例，將繼續為大家總結和分享，期待共同探索和優化 debug 的思路和方案。在收集和整理了大量 FP8 訓練的案例后，我們發現，FP8 訓練中遇到的問題一般可以分成以下三類：第一類問題：Spike Issue Spike Issue 其實并不是 FP8…

Source

]]>

NVIDIA GPU 架構下的 FP8 訓練與推理

Thu, 25 Apr 2024 03:21:57 +0000

本文聚焦 NVIDIA FP8 訓練與推理的實踐應用，該內容來源于 2023 云棲大會 NVIDIA 專場演講。 FP8 訓練利用 E5M2/E4M3 格式，具備與 FP16 相當的動態范圍，適用于反向傳播與前向傳播。FP8 訓練在相同加速平臺上的峰值性能顯著超越 FP16/BF16，并且模型參數越大，訓練加速效果越好，且其與 16-bits 訓練在收斂性和下游任務表現上無顯著差異。FP8 訓練通過 NVIDIA Transformer Engine 實現，僅需少量代碼改動，并且支持 FlashAttention、混合精度訓練遷移等。支持 FP8 的框架包括 NVIDIA Megatron-LM、NeMo、DeepSpeed、飛槳 PaddlePaddle、Colossal AI、HuggingFace 等。 FP8 推理通過 NVIDIA TensorRT-LLM…

Source

]]>

使用 NVIDIA TensorRT-LLM 支持 CodeFuse-CodeLlama-34B 上的 int4 量化和推理優化實踐

Mon, 15 Jan 2024 06:38:12 +0000

Codefuse（https://github.com/codefuse-ai）是由螞蟻集團開發的代碼語言大模型，旨在支持整個軟件開發生命周期，涵蓋設計、需求、編碼、測試、部署、運維等關鍵階段。為了在下游任務上獲得更好的精度，Codefuse 提出了多任務微調框架（MFTCoder），能夠解決數據不平衡和不同收斂速度的問題。通過對比多個預訓練基座模型的精度表現，我們發現利用 MFTCoder [1,2] 微調后的模型顯著優于原始基座模型。其中，尤為值得關注的是采用了 MFTCoder 框架，并利用多任務數據集進行微調的 CodeFuse-CodeLlama-34B [3] 模型，在 HumanEval 評估數據集中取得了當時的最好結果。具體來說，基于 CodeLlama-34b-Python 模型進行微調的 CodeFuse-CodeLlama-34B 在…

Source

]]>

如何在 NVIDIA TensorRT-LLM 中支持 Qwen 模型

Mon, 04 Dec 2023 04:32:23 +0000

大型語言模型正以其驚人的新能力推動人工智能的發展，擴大其應用范圍。然而，由于這類模型具有龐大的參數規模，部署和推理的難度和成本極高，這一挑戰一直困擾著 AI 領域。此外，當前存在大量支持模型部署和推理的框架和工具，如 ModelScope 的 Model Pipelines API，和 HuggingFace 的 Text Generation Inference 等，各自都有其獨特的特點和優勢。然而，這些工具往往未能充分發揮 GPU 的性能。為了解決這些問題，NVIDIA 推出了一種全新的解決方案——TensorRT-LLM。這是一款高度優化的開源計算框架，它將 NVIDIA TensorRT 的深度學習編譯器、FasterTransformer 的優化內核、預處理和后處理，以及多 GPU / 多節點通信等功能封裝在一個簡單的開源 Python/C++ API 中，

Source

]]>

Merlin HugeCTR Sparse Operation Kit 系列之二

Thu, 23 Jun 2022 04:10:30 +0000

摘要在上期文章中，我們對 HugeCTR Sparse Operation Kit (以下簡稱SOK) 的基本功能，性能，以及 API 用法做了初步的介紹，相信大家對如何使用 SOK 已經有了基本的了解。在這期文章中，我們將從在 TensorFlow 上使用 SOK 時常見的“數據并行-模型并行-數據并行”流程入手，帶大家詳細了解 SOK 的原理。 1. Input Dispatcher Input Dispatcher 的職責是將數據以并行的形式的輸入，分配到各個 GPU 上。總共分為以下幾個步驟：總而言之，經過上面 4 個步驟，我們將數據并行地輸入，按照其求余 GPU 數量的結果，分配到了不同對應的 GPU 上，

Source

]]>

HugeCTR v3.6 & v3.7 發布說明

Thu, 23 Jun 2022 03:59:24 +0000

Merlin HugeCTR（以下簡稱 HugeCTR）是 GPU 加速的推薦程序框架，旨在在多個 GPU 和節點之間分配訓練并估計點擊率（Click-through rate）。在之前的版本中，Concat 層只能處理 2D 輸入張量。現在輸入可以是 3D 并且可以沿軸 1 和軸 2 連接。在以前的版本中，HugeCTR 假設每個稠密特征只有一個值，并且數據類型必須是 float32，也就是是一種標量類型。而現在用戶可以將 float32 或者[float32]用于稠密特征，這意味著每個稠密特征可以有多個值。 Merlin 容器中的 HDFS 支持現在是一個可選依賴項。有關詳細信息，請參閱核心功能文檔中的 HDFS 支持部分。(https://nvidia-merlin.github.io/HugeCTR/v3.

Source

]]>

Merlin HugeCTR 分級參數服務器系列之二

Tue, 29 Mar 2022 03:22:16 +0000

在上一期的 HugeCTR 分級參數服務器簡介中，我們介紹了傳統參數服務器的結構以及 HugeCTR 分級推理參數服務器是如何在其基礎上進行設計和改進的，我們還簡單介紹了我們的三級存儲結構以及相關配置使用。在這一期中，我們將詳細介紹 HPS 數據后端，其中包括 Volatile 數據存儲層，Persistent 數據存儲層以及流式在線模型更新的設計。 HPS 數據后端作為 GPU embedding 緩存架構的基石，同時也是 GPU embedding 緩存在 CPU 內存以及本地磁盤的進一步物理擴展。HPS 數據后端通過綁定不同物理層級的存儲從而提供了大型模型 embedding table 的緩存，查詢，更新以及容錯等服務，目的即為了保證在推理服務中 GPU embedding 緩存的高命中率，從而提高推理服務的吞吐大幅度降低端到端的延遲。

Source

]]>

Merlin HugeCTR v3.4.1 發布說明

Wed, 09 Mar 2022 05:05:57 +0000

Merlin HugeCTR（以下簡稱 HugeCTR）是 GPU 加速的推薦程序框架，旨在在多個 GPU 和節點之間分配訓練并估計點擊率（Click-through rate）。此次v3.4更新涉及的模塊主要為：相關介紹： “Softmax” 層現在已支持 FP16，并且支持混合精度以進行多標簽推理。有關詳細信息，請參閱此頁面。我們通過 Python 接口支持多 GPU 離線推理，它可以利用 Hierarchical Parameter Server 并在多個設備上實現并發執行。更多信息請參考推理 API 和多 GPU 離線推理筆記本。我們重構了代碼庫并將分層參數服務器構建為一個獨立的庫，以后會進一步封裝。添加了有關 Parquet data 中…

Source

]]>

具有 RAPIDS cuML 的 GPU 加速分層 DBSCAN –讓我們回到未來

Wed, 06 Oct 2021 06:11:00 +0000

不同領域的數據科學家使用聚類方法在他們的數據集中找到自然的“相似”觀察組。流行的聚類方法可以是：基于層次密度的應用程序空間聚類 w / Noise （HDBSCAN）算法是一種density-based聚類方法，對噪聲具有魯棒性（將稀疏區域中的點作為簇邊界，并將其中一些點直接標記為噪聲）。基于密度的聚類方法，如 HDBSCAN ，能夠發現形狀奇特、大小各異的聚類 — 與k-means、k-medioids或高斯混合模型等基于質心的聚類方法截然不同，這些方法找到一組 k 個質心，將簇建模為固定形狀和大小的球。除了必須預先指定 k 之外，基于質心的算法的性能和簡單性幫助它們仍然是高維聚類點的最流行方法之一；即使在不修改輸入數據點的情況下，它們也無法對不同大小、形狀或密度的簇進行建模。

Source

]]>

邊緣人工智能的未來是本地云

Wed, 06 Oct 2021 06:06:00 +0000

推理因其靈活性而成為邊緣計算的殺手級應用。今天，邊緣推理（也稱為邊緣 AI）解決了各個行業的問題：防止盜竊、發現疾病和減少農田中除草劑的使用。但對許多人來說，管理分布式邊緣服務器的復雜性可能會侵蝕業務價值。邊緣人工智能數據中心在一個位置上沒有 10000 臺服務器。它在 10000 個位置有一個或多個服務器，通常位于沒有物理安全或訓練有素的 It 人員的位置。因此，邊緣人工智能服務器必須安全、有彈性，并且易于大規模管理。這就是為什么組織正在轉向云本地技術來管理其邊緣 AI 數據中心。定義 Cloud Native 就像一個關于蒙著眼睛描述大象的笑話。你是在摸象牙、鼻子還是尾巴？結合這些觀點， Cloud Native 是一種現代的軟件開發方法，它使用抽象和自動化來支持可擴展性、可移植性和快速交付。容器化微服務是云本地應用程序的有效標準。

Source

]]>

NVIDIA CloudXR 現已集成到 VMware Workspace ONE XR 集線器中

Tue, 05 Oct 2021 10:44:00 +0000

NVIDIA 和 VMware 通過發布 Workspace ONE XR Hub ，幫助企業將 XR 流媒體傳輸到云端，其中包括與 NVIDIA CloudXR 的集成，以訪問其最高質量的 XR 體驗。現在， Workspace ONE XR Hub 和 CloudXR 已進入公測，用戶可以使用一體式（ AIO ）耳機快速、更安全地訪問功能強大的工作站上運行的復雜虛擬和增強環境、場景和模擬。增強現實、虛擬現實和混合現實（統稱為 XR ）正通過改變沉浸式培訓和設計可視化等工作流，幫助跨行業的組織提高生產率。但將 XR 集成到當前工作流中可能會帶來一些挑戰。 NVIDIA 和 VMware 正在共同努力，使企業和專業人士更容易采用 AR 和 VR 。 Workspace ONE XR Hub 是 VMware 的一個高級工程項目，將作為 AIO 耳機上的客戶端應用程序，

Source

]]>

加速計算 – NVIDIA 技術博客

如何使用 FP8 加速大模型訓練

使用 EMBark 加速大規模推薦系統嵌入式訓練優化

TensorRT-LLM 低精度推理優化：從速度和精度角度的 FP8 vs INT8 的全面解析

探索 FP8 訓練中 Debug 思路與技巧

NVIDIA GPU 架構下的 FP8 訓練與推理

使用 NVIDIA TensorRT-LLM 支持 CodeFuse-CodeLlama-34B 上的 int4 量化和推理優化實踐

如何在 NVIDIA TensorRT-LLM 中支持 Qwen 模型

推薦系統峰會 2022

Merlin HugeCTR Sparse Operation Kit 系列之二

HugeCTR v3.6 & v3.7 發布說明

Merlin HugeCTR 分級參數服務器系列之二

Merlin HugeCTR v3.4.1 發布說明

具有 RAPIDS cuML 的 GPU 加速分層 DBSCAN –讓我們回到未來

邊緣人工智能的未來是本地云

NVIDIA CloudXR 現已集成到 VMware Workspace ONE XR 集線器中