使用 DeepSpeed 和 Megatron 培訓 Megatron 圖靈 NLG 530B ，世界上最大、最強大的生成性語言模型

Mon, 11 Oct 2021 08:19:00 +0000

我們很高興地介紹由 DeepSpeed 和 Megatron 驅動的 Megatron 圖靈自然語言生成模型（ MT-NLG ），這是迄今為止訓練過的最大和最強大的單片 transformer 語言模型，具有 5300 億個參數。這是微軟和 NVIDIA 共同努力的結果，旨在推動人工智能自然語言生成的最新發展。作為圖靈 NLG 17B和Megatron-LM的繼承者， MT-NLG 的參數數量是該類型現有最大模型的 3 倍，并且在廣泛的自然語言任務中表現出無與倫比的準確性，例如：基于 105 層 transformer 的 MT-NLG 在零拍、一拍和少拍設置方面改進了現有的最先進模型，并為大規模語言模型在模型規模和質量方面設置了新標準。近年來，自然語言處理（ NLP ）中基于 transformer 的語言模型在大規模計算、

Source

]]>

DGX SuperPOD – NVIDIA 技術博客

使用 DeepSpeed 和 Megatron 培訓 Megatron 圖靈 NLG 530B ，世界上最大、最強大的生成性語言模型