Deepak Narayanan – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Wed, 12 Mar 2025 05:11:07 +0000
zh-CN
hourly
1
196178272 -
在 NVIDIA DGX 云上確保模型訓練可靠性
http://www.open-lab.net/zh-cn/blog/ensuring-reliable-model-training-on-nvidia-dgx-cloud/
Mon, 10 Mar 2025 05:00:58 +0000
http://www.open-lab.net/zh-cn/blog/?p=13125
Continued]]>
在大型 GPU 集群上訓練 AI 模型給模型構建者帶來了重大挑戰。隨著作業規模的增加,人工干預變得不切實際,因此自動化對于保持高 GPU 利用率和訓練生產力至關重要。卓越的訓練體驗需要具有彈性的系統,這些系統可提供低延遲錯誤歸因,并根據根本原因分析自動進行故障轉移。自動化并不新鮮。Health checks、preflight checks、syslogs 和 telemetry 都適用于各種硬件和軟件組件。遺憾的是,其中大多數對最終用戶來說是不透明的,并且難以訪問和用作一線工具。 在大多數情況下,模型構建器首先在訓練過程中遇到問題。他們必須與基礎設施和運營團隊合作,收集必要的數據來分類問題,例如,錯誤是否是由硬件或軟件引起的,或者是間歇性的還是持久性的。 這種昂貴的人工干預過程會拖慢整個開發周期,并阻礙快速實驗。隨著研究人員擴大實驗規模,所涉及系統的組合復雜性也加劇了這一問題。
Source
]]>
13125
-
利用新的 NVIDIA Megatron-Core 功能高效訓練生成式 AI 模型
http://www.open-lab.net/zh-cn/blog/train-generative-ai-models-more-efficiently-with-new-nvidia-megatron-core-functionalities/
Fri, 12 Jul 2024 05:25:25 +0000
http://www.open-lab.net/zh-cn/blog/?p=10658
Continued]]>
NVIDIA Megatron-LM 于 2019 年首次推出,在 AI 社區引發了一波創新浪潮,使研究人員和開發者能夠利用該開源庫的基礎進一步推動大型語言模型(LLM)的進步。如今,許多最流行的 LLM 開發者框架都受到 Megatron-LM 庫的啟發并使用其構建,從而引發了一系列基礎模型和 AI 初創公司的浪潮。基于 Megatron-LM 構建的一些最流行的 LLM 框架包括 Colossal-AI, Hugging Face Accelerate, 和 NVIDIA NeMo。 為便于輕松遷移,并使研究人員和模型開發者能夠訪問分布式訓練中的最新研究成果,NVIDIA 最近對 Megatron-LM 進行了改進。這樣便推出了 NVIDIA Megatron-Core,一個基于 PyTorch 的開源庫,包含一系列 GPU 優化技術、先進的系統級創新和模塊化 API,
Source
]]>
10658
人人超碰97caoporen国产