DGX SuperPOD – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Fri, 15 Oct 2021 08:24:16 +0000
zh-CN
hourly
1
196178272 -
使用 DeepSpeed 和 Megatron 培訓 Megatron 圖靈 NLG 530B ,世界上最大、最強大的生成性語言模型
http://www.open-lab.net/zh-cn/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/
Mon, 11 Oct 2021 08:19:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=1936
Continued]]>
我們很高興地介紹由 DeepSpeed 和 Megatron 驅動的 Megatron 圖靈自然語言生成模型( MT-NLG ),這是迄今為止訓練過的最大和最強大的單片 transformer 語言模型,具有 5300 億個參數。這是微軟和 NVIDIA 共同努力的結果,旨在推動人工智能自然語言生成的最新發展。 作為圖靈 NLG 17B和Megatron-LM的繼承者, MT-NLG 的參數數量是該類型現有最大模型的 3 倍,并且在廣泛的自然語言任務中表現出無與倫比的準確性,例如: 基于 105 層 transformer 的 MT-NLG 在零拍、一拍和少拍設置方面改進了現有的最先進模型,并為大規模語言模型在模型規模和質量方面設置了新標準。 近年來,自然語言處理( NLP )中基于 transformer 的語言模型在大規模計算、
Source
]]>
1936
人人超碰97caoporen国产