Transformer – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Wed, 14 May 2025 09:02:48 +0000
zh-CN
hourly
1
196178272 -
光輪智能利用 NVIDIA GR00T N1 人形機器人模型落地汽車工廠生產應用
http://www.open-lab.net/zh-cn/blog/lightwheel-nvidia-gr00t-n1/
Wed, 14 May 2025 09:02:13 +0000
http://www.open-lab.net/zh-cn/blog/?p=13860
Continued]]>
光輪智能成功將 NVIDIA GR00T N1 人形機器人基礎模型部署至汽車制造生產線,這一成果標志著具身智能在工業自動化領域的重大突破以及應用潛力。 此次部署,是 GR00T N1 人形機器人基礎模型在行業場景的首次應用實例。光輪智能合成數據技術在應用中發揮了關鍵作用,有效解決了具身智能訓練中的數據稀缺挑戰。兩者合作為具身智能進入智能制造樹立了新范式。 作為全球首個通用人形機器人開源基礎模型,GR00T N1 是此次合作的技術基礎。該模型能夠流暢處理文本指令與圖像等多模態輸入,輸出機器人動作指令,展現出跨實體、跨任務泛化能力。 GR00T N1 的獨特優勢源于其創新的雙系統架構:視覺-語言模型系統負責環境理解和動作規劃,而 Diffusion Transformer 系統則將這些規劃無縫轉化為具體的機器人動作指令。這種受人類認知原理啟發的架構設計,
Source
]]>
13860
-
如何使用 FP8 加速大模型訓練
http://www.open-lab.net/zh-cn/blog/fp8-accelerate-llm-training/
Tue, 10 Dec 2024 10:17:18 +0000
http://www.open-lab.net/zh-cn/blog/?p=12265
Continued]]>
利用 FP8 技術加速 LLM 推理和訓練越來越受到關注,本文主要和大家介紹如何使用 FP8 這項新技術加速大模型的訓練。 使用 FP8 進行大模型訓練的優勢 FP8 是一種 8 位浮點數表示法,FP8 的詳細介紹可以參考此鏈接: https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/examples/fp8_primer.html#Introduction-to-FP8 其中,使用 FP8 進行大模型訓練具有以下優勢: 當然,FP8 對比 FP16 或者 FP32 在數值表示范圍上引入了新的挑戰,從上面的表格中可以看到,FP8 數據類型所能表示的數值范圍較小,精度較低。因此需要針對 FP8 引入更細粒度的算法改進,
Source
]]>
12265
-
NVIDIA GPU 架構下的 FP8 訓練與推理
http://www.open-lab.net/zh-cn/blog/nvidia-gpu-fp8-training-inference/
Thu, 25 Apr 2024 03:21:57 +0000
http://www.open-lab.net/zh-cn/blog/?p=9584
Continued]]>
本文聚焦 NVIDIA FP8 訓練與推理的實踐應用,該內容來源于 2023 云棲大會 NVIDIA 專場演講。 FP8 訓練利用 E5M2/E4M3 格式,具備與 FP16 相當的動態范圍,適用于反向傳播與前向傳播。FP8 訓練在相同加速平臺上的峰值性能顯著超越 FP16/BF16,并且模型參數越大,訓練加速效果越好,且其與 16-bits 訓練在收斂性和下游任務表現上無顯著差異。FP8 訓練通過 NVIDIA Transformer Engine 實現,僅需少量代碼改動,并且支持 FlashAttention、混合精度訓練遷移等。支持 FP8 的框架包括 NVIDIA Megatron-LM、NeMo、DeepSpeed、飛槳 PaddlePaddle、Colossal AI、HuggingFace 等。 FP8 推理通過 NVIDIA TensorRT-LLM…
Source
]]>
9584
-
FP8:前沿精度與性能的新篇章
http://www.open-lab.net/zh-cn/blog/fp8-precision-performance/
Tue, 19 Mar 2024 03:58:51 +0000
http://www.open-lab.net/zh-cn/blog/?p=9258
Continued]]>
在深度學習和人工智能的快速發展背景下,尤其是大語言模型(Large Language Model, LLM)的蓬勃發展,模型的大小和計算復雜性不斷增加,對硬件的性能和能效提出了極高要求。為了滿足這些需求,業界一直在尋求新的技術和方法來優化計算過程。其中,FP8(8 位浮點數)技術憑借其獨特的優勢,在 AI 計算領域嶄露頭角。本文作為FP8 加速推理和訓練系列的開篇,將深入探討 FP8 的技術優勢,以及它在 NVIDIA 產品中的應用,并通過客戶案例來展示 FP8 在實際部署中的強大潛力。 一、FP8 的原理與技術優勢 FP8 是一種 8 位浮點數表示法,FP8 的詳細介紹可以參考鏈接。FP8 采取 E4M3 和 E5M2 兩種表示方式,其中 E 代表指數位(Exponent),M 代表尾數位(Mantissa)。在表示范圍內,E4M3 更精準,
Source
]]>
9258
-
NVIDIA 、 Arm 和 Intel 發布 FP8 標準化規范作為 AI 的交換格式
http://www.open-lab.net/zh-cn/blog/nvidia-arm-and-intel-publish-fp8-specification-for-standardization-as-an-interchange-format-for-ai/
Wed, 14 Sep 2022 05:05:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5267
Continued]]>
人工智能處理需要跨硬件和軟件平臺的全棧創新,以滿足神經網絡日益增長的計算需求。提高效率的一個關鍵領域是使用較低精度的數字格式來提高計算效率,減少內存使用,并優化互連帶寬。 為了實現這些好處,業界已經從 32 位精度轉換為 16 位,現在甚至是 8 位精度格式。 transformer 網絡是人工智能中最重要的創新之一,尤其受益于 8 位浮點精度。我們相信,擁有一種通用的交換格式將使硬件和軟件平臺的快速發展和互操作性得以提高,從而推動計算。 NVIDIA 、 Arm 和 Intel 聯合撰寫了一份白皮書 FP8 Formats for Deep Learning ,描述了 8 位浮點( FP8 )規范。它提供了一種通用的格式,通過優化內存使用來加速人工智能的開發,并適用于人工智能訓練和推理。此 FP8 規格有兩種變體, E5M2 和 E4M3 。
Source
]]>
5267
-
計算機視覺的未來
http://www.open-lab.net/zh-cn/blog/the-future-of-computer-vision/
Mon, 23 May 2022 07:35:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=4166
Continued]]>
Computer vision 是一個快速發展的研究和應用領域。計算機視覺研究的進展現在更直接、更直接地適用于商業世界。 人工智能開發人員正在實施計算機視覺解決方案,以識別和分類對象,甚至對其作出實時反應。圖像分類、人臉檢測、姿態估計和光流是一些典型的任務。計算機視覺工程師是 deep learning ( DL )或 machine learning ( ML )工程師的子集,他們編寫計算機視覺算法來完成這些任務。 DL 算法的結構非常適合解決計算機視覺問題。 卷積神經網絡 ( CNN )的體系結構特征能夠檢測和提取視覺數據中存在的空間模式和特征。 計算機視覺領域正在迅速改變汽車、醫療保健和機器人等行業,很難跟上最新發現、趨勢和進展。這篇文章重點介紹了正在影響并將繼續影響 2022 年及以后計算機視覺發展未來的核心技術:
Source
]]>
4166
人人超碰97caoporen国产