Terry Kong – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 17 Jul 2025 07:13:10 +0000
zh-CN
hourly
1
196178272 -
使用 NVIDIA NeMo-RL 進行強化學習:通過 GRPO 復制 DeepScaleR 配方
http://www.open-lab.net/zh-cn/blog/reinforcement-learning-with-nvidia-nemo-rl-reproducing-a-deepscaler-recipe-using-grpo/
Wed, 09 Jul 2025 07:10:07 +0000
http://www.open-lab.net/zh-cn/blog/?p=14655
Continued]]>
強化學習 (RL) 是交互式 AI 的支柱。它對于教導智能體推理和從人類偏好中學習、實現多輪工具使用等至關重要。本文將介紹 NVIDIA NeMo-RL,這是一個新的開源后訓練庫,旨在支持從單 GPU 原型到數千個 GPU 大型模型的各種內容,并輕松編排多組件 RL 工作流。 NeMo-RL 是 NVIDIA NeMo 框架的一部分,包括與 Hugging Face 上的模型的原生集成、優化的訓練和推理、DPO 和 GRPO 等熱門算法,以及基于光線的編排。雖然當前的 v0.2.1 版本支持大小高達 320 億個參數的模型,但正在進行的開發旨在將支持擴展到更大的模型。 NeMo-RL 的一個關鍵設計原則是其靈活的后端架構,支持多個訓練和部署后端。對于訓練后端,該庫目前支持具有 PyTorch 原生并行的 Hugging Face 模型,并且即將推出 Megatron-Core 后端,
Source
]]>
14655
-
利用 NVIDIA NeMo-Aligner 進行監督式微調的數據高效知識蒸餾
http://www.open-lab.net/zh-cn/blog/data-efficient-knowledge-distillation-for-supervised-fine-tuning-with-nvidia-nemo-aligner/
Tue, 17 Dec 2024 09:36:13 +0000
http://www.open-lab.net/zh-cn/blog/?p=12498
Continued]]>
知識蒸餾是一種將更大的教師模型的知識轉移到更小的學生模型的方法,理想情況下可生成緊湊、易于部署的學生,且準確度與教師相當。知識蒸餾在預訓練設置中越來越受歡迎,但用于在監督式微調(Supervised Fine-Tuning,SFT)期間執行知識蒸餾的資源越來越少。 NVIDIA NeMo-Aligner 開源了一個在 SFT 期間使用知識蒸餾的實現,相較于標準 SFT,該實現的數據效率更高,準確性也更高 (Table 1)。 在表 1 中,SFT 是使用數學/代碼數據集執行的。使用知識蒸餾微調的模型版本在所有數學和代碼相關基準測試中均優于基準,即使僅執行 70%的訓練步驟也是如此。 在 SFT 期間,有許多方法可以從大型模型傳輸知識。最常見的方法是使用教師模型生成合成數據,我們稱之為 KD-SDG。然后,使用合成生成的數據微調學生模型。 還有一種開創性的方法,
Source
]]>
12498
人人超碰97caoporen国产