Megatron – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Fri, 07 Mar 2025 09:12:52 +0000 zh-CN hourly 1 196178272 基于 1F1B 的 MoE A2A 通信計算 Overlap http://www.open-lab.net/zh-cn/blog/1f1b-moe-a2a-computing-overlap/ Fri, 07 Mar 2025 09:10:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=13059 Continued]]> 在 MoE 模型的訓練過程中,EP rank 之間的 A2A 通信在端到端時間中占據了相當大比重,對訓練效率影響很大,特別是對于 Fine-grained MoE model,EP size 會比較大,跨機通信基本無法避免。那么要如何減少 EP A2A 對整體訓練效率的影響呢? 關于如何用計算掩蓋 EP A2A 通信,我們注意到目前有以下這些研究(不完全統計): 以上方案有各自的不足之處: 我們分析認為, Deepseek DualPipe 調度核心亮點是實現了 batch 之間 EP A2A 通信和 attention 、mlp 計算 overlap 的精細化調度, 從而使得跨機 EP 成為可行的分布式策略。

Source

]]>
13059
FP8?在大模型訓練中的應用、挑戰及實踐 http://www.open-lab.net/zh-cn/blog/fp8-llm-app-challenges/ Fri, 24 Jan 2025 08:50:45 +0000 http://www.open-lab.net/zh-cn/blog/?p=12729 Continued]]> 越來越多的技術團隊開始使用 FP8 進行大模型訓練,這主要因為 FP8 有很多技術優勢,比如在新一代的 GPU 上,FP8 相對于 BF16 對矩陣乘算子這樣的計算密集型算子,NVIDIA TensorCores 能夠提供兩倍的峰值性能,相對于 TF32 能夠提供四倍的加速,從而大大縮短計算密集型算子的計算時間。 而對于訪存密集型的算子,由于 FP8 所需的數據量更少,可以減輕訪存壓力,加速這些算子。如果在訓練時使用 FP8 精度,可以更方便快速地將 FP8 部署到推理側,使 FP8 訓練可以更容易順暢地與低精度推理相結合。 同時,由于 FP8 的動態范圍和精度相對于之前使用的 FP16/BF16/FP32 更小,如果使用 FP8 代替原來的數值精度進行訓練,技術團隊在模型和數據集上可能會遇到 FP8 精度的挑戰。

Source

]]>
12729
如何使用 FP8 加速大模型訓練 http://www.open-lab.net/zh-cn/blog/fp8-accelerate-llm-training/ Tue, 10 Dec 2024 10:17:18 +0000 http://www.open-lab.net/zh-cn/blog/?p=12265 Continued]]> 利用 FP8 技術加速 LLM 推理和訓練越來越受到關注,本文主要和大家介紹如何使用 FP8 這項新技術加速大模型的訓練。 使用 FP8 進行大模型訓練的優勢 FP8 是一種 8 位浮點數表示法,FP8 的詳細介紹可以參考此鏈接: https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/examples/fp8_primer.html#Introduction-to-FP8 其中,使用 FP8 進行大模型訓練具有以下優勢: 當然,FP8 對比 FP16 或者 FP32 在數值表示范圍上引入了新的挑戰,從上面的表格中可以看到,FP8 數據類型所能表示的數值范圍較小,精度較低。因此需要針對 FP8 引入更細粒度的算法改進,

Source

]]>
12265
NVIDIA GPU 架構下的 FP8 訓練與推理 http://www.open-lab.net/zh-cn/blog/nvidia-gpu-fp8-training-inference/ Thu, 25 Apr 2024 03:21:57 +0000 http://www.open-lab.net/zh-cn/blog/?p=9584 Continued]]> 本文聚焦 NVIDIA FP8 訓練與推理的實踐應用,該內容來源于 2023 云棲大會 NVIDIA 專場演講。 FP8 訓練利用 E5M2/E4M3 格式,具備與 FP16 相當的動態范圍,適用于反向傳播與前向傳播。FP8 訓練在相同加速平臺上的峰值性能顯著超越 FP16/BF16,并且模型參數越大,訓練加速效果越好,且其與 16-bits 訓練在收斂性和下游任務表現上無顯著差異。FP8 訓練通過 NVIDIA Transformer Engine 實現,僅需少量代碼改動,并且支持 FlashAttention、混合精度訓練遷移等。支持 FP8 的框架包括 NVIDIA Megatron-LM、NeMo、DeepSpeed、飛槳 PaddlePaddle、Colossal AI、HuggingFace 等。 FP8 推理通過 NVIDIA TensorRT-LLM…

Source

]]>
9584
使用 FasterTransformer 和 Triton 推理服務器加速大型?Transformer?模型的推理 http://www.open-lab.net/zh-cn/blog/accelerated-inference-for-large-transformer-models-using-nvidia-fastertransformer-and-nvidia-triton-inference-server/ Wed, 03 Aug 2022 02:56:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4781 Continued]]> 這是討論 NVIDIA FasterTransformer 庫的兩部分系列的第一部分,該庫是用于對任意大小(多達數萬億個參數)的Transformer進行分布式推理的最快庫之一。它提供了 FasterTransformer 的概述,包括使用該庫的好處。 使用 FasterTransformer 和 Triton 推理服務器部署 GPT-J 和 T5(第 2 部分)是一個指南,說明了使用 FasterTransformer 庫和 Triton 推理服務器以具有張量并行性的最佳方式為 T5-3B 和 GPT-J 6B 模型提供服務。 Transformers 是當今最具影響力的 AI 模型架構之一,正在塑造未來 AI 研發的方向。它們最初是作為自然語言處理 (NLP) 的工具而發明的,現在幾乎用于任何 AI 任務,包括計算機視覺、自動語音識別、分子結構分類和金融數據處理。

Source

]]>
4781
使用 FasterTransformer 和 Triton 推理服務器部署 GPT-J 和 T5 http://www.open-lab.net/zh-cn/blog/deploying-gpt-j-and-t5-with-fastertransformer-and-triton-inference-server/ Wed, 03 Aug 2022 02:41:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4768 Continued]]> 這是關于 NVIDIA 工具的兩部分系列的第二部分,這些工具允許您運行大型Transformer模型以加速推理。 有關 NVIDIA FasterTransformer 庫(第 1 部分)的介紹,請參閱 使用 FasterTransformer 和 Triton 推理服務器加速大型 Transformer 模型的推理 這篇文章是大型Transformer模型(例如 EleutherAI 的 GPT-J 6B 和 Google 的 T5-3B)的優化推理指南。這兩種模型在許多下游任務中都表現出良好的效果,并且是研究人員和數據科學家最常用的模型之一。 NVIDIA Triton 中的 NVIDIA FasterTransformer (FT) 允許您以類似且簡單的方式運行這兩個模型,同時提供足夠的靈活性來集成/組合其他推理或訓練管道。

Source

]]>
4768
采用 P-Tuning 解決非英語下游任務 http://www.open-lab.net/zh-cn/blog/adapting-p-tuning-to-solve-non-english-downstream-tasks/ Tue, 12 Jul 2022 05:25:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4586 Continued]]> 隨著對預訓練大型語言模型( LLM )權重訪問需求的增加,圍繞 LLM 共享的環境正在發生變化。最近, Meta 發布了 開式預訓練Transformer ,一個具有 1750 億個參數的語言模型。 BigScience 計劃在幾個月內發布具有 1760 億個參數的多語言模型。 隨著越來越多的 LLM 可用,行業需要解決實際自然語言任務的技術。研究表明, 模型提示方法 可以從 LLM 中獲得良好的零拍和少拍性能,并有助于在各種下游自然語言處理( NLP )任務中產生高質量的結果。白皮書提出了一種解決方案,使經過預訓練的通用 LLM 在自然語言處理領域日益流行的新 預訓練、提示和預測 范式中切實有用。 然而,當您將提示方法應用于工業自然語言處理應用程序時,還需要考慮其他挑戰。對于任何下游 NLP 任務,必須收集標記數據,以指示語言模型如何生成預期結果。 盡管對于許多任務,

Source

]]>
4586
使用 Transformers 生成合成數據:企業數據挑戰的解決方案 http://www.open-lab.net/zh-cn/blog/generating-synthetic-data-with-transformers-a-solution-for-enterprise-data-challenges/ Thu, 12 May 2022 09:06:35 +0000 http://www.open-lab.net/zh-cn/blog/?p=3927 Continued]]> 大數據、新算法和快速計算是使現代 AI 革命成為可能的三個主要因素。然而,數據給企業帶來了許多挑戰:數據標記困難、數據治理效率低下、數據可用性有限、數據隱私等。 綜合生成的數據是解決這些挑戰的潛在解決方案,因為它通過從模型中采樣來生成數據點。連續采樣可以生成無限多的數據點,包括標簽。這允許跨團隊或外部共享數據。 生成合成數據還可以在不影響質量或真實性的情況下提供一定程度的數據隱私。成功的合成數據生成涉及在保持隱私的同時捕獲分布,并有條件地生成新數據,然后這些數據可用于建立更穩健的模型或用于時間序列預測。 在這篇文章中,我們以 NVIDIA NeMo 為例,解釋如何用 transformer 模型人工生成合成數據。我們解釋了如何在 machine learning 算法中使用合成生成的數據作為真實數據的有效替代品,以保護用戶隱私,同時做出準確的預測。

Source

]]>
3927
GTC 內幕指南:計算機視覺、 NLP 、推薦者和機器人 http://www.open-lab.net/zh-cn/blog/insiders-guide-to-gtc-computer-vision-nlp-recommenders-and-robotics/ Wed, 09 Mar 2022 04:46:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=3208 Continued]]> 尋找不同的主題領域?留意我們的其他帖子! 3 月 21 日至 24 日,加入 GTC ,探索人工智能、計算機視覺、數據科學、機器人等領域的最新技術和研究! 有超過 900 個選項可供選擇,我們的 NVIDIA 專家將安排一些不容錯過的課程,幫助您開始: 創造未來:創建世界上最大的工業合成對象識別數據集( SORDI ) Jimmy Nassif , idealworks 首席技術官 馬克·坎拉德,寶馬集團慕尼黑技術辦公室負責人 寶馬每 56 秒制造一輛汽車。他們如何提高質量?他們使用機器人,用合成數據補充真實數據。了解寶馬、微軟和NVIDIA 如何通過基于人工智能的計算機視覺識別零件、障礙物和人員,從而加快生產和質量。 如何使用 NVIDIA DeepStream 開發和優化 Edge AI 應用程序 Carlos Garcia…

Source

]]>
3208
NVIDIA 發布 Riva 語音 AI 和大型企業語言建模軟件 http://www.open-lab.net/zh-cn/blog/nvidia-announces-riva-speech-ai-and-large-language-modeling-software-for-enterprise/ Tue, 09 Nov 2021 09:26:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2180 Continued]]> NVIDIA 最近發布了 NVIDIA Riva 在語音人工智能方面的新突破, NVIDIA NeMo 在大規模語言建模( LLM )方面的新突破。 Riva 是一款 GPU 加速語音人工智能 SDK ,用于企業為其品牌和虛擬助手生成富有表現力的類人語音。 NeMo 是語音和 NLU 的加速培訓框架,它現在有能力開發具有數萬億參數的大規模語言模型。 語音和語言人工智能的這些進步使企業和研究機構能夠輕松構建針對其行業和領域定制的最先進的對話人工智能功能。 NVIDIA 發布了一個具有定制語音功能的新版本,企業只需 30 分鐘的語音數據即可輕松創建獨特的語音來代表其品牌。 此外, NVIDIA 宣布了Riva Enterprise,這是一項付費計劃,包括為需要大規模 Riva 部署的企業提供 NVIDIA 專家支持。 Riva 仍然免費提供給工作量較小的客戶和合作伙伴。

Source

]]>
2180
使用 DeepSpeed 和 Megatron 培訓 Megatron 圖靈 NLG 530B ,世界上最大、最強大的生成性語言模型 http://www.open-lab.net/zh-cn/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/ Mon, 11 Oct 2021 08:19:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=1936 Continued]]> 我們很高興地介紹由 DeepSpeed 和 Megatron 驅動的 Megatron 圖靈自然語言生成模型( MT-NLG ),這是迄今為止訓練過的最大和最強大的單片 transformer 語言模型,具有 5300 億個參數。這是微軟和 NVIDIA 共同努力的結果,旨在推動人工智能自然語言生成的最新發展。 作為圖靈 NLG 17B和Megatron-LM的繼承者, MT-NLG 的參數數量是該類型現有最大模型的 3 倍,并且在廣泛的自然語言任務中表現出無與倫比的準確性,例如: 基于 105 層 transformer 的 MT-NLG 在零拍、一拍和少拍設置方面改進了現有的最先進模型,并為大規模語言模型在模型規模和質量方面設置了新標準。 近年來,自然語言處理( NLP )中基于 transformer 的語言模型在大規模計算、

Source

]]>
1936
人人超碰97caoporen国产