Shengyang Sun – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 02 Jan 2025 09:41:10 +0000
zh-CN
hourly
1
196178272 -
利用 NVIDIA NeMo-Aligner 進行監督式微調的數據高效知識蒸餾
http://www.open-lab.net/zh-cn/blog/data-efficient-knowledge-distillation-for-supervised-fine-tuning-with-nvidia-nemo-aligner/
Tue, 17 Dec 2024 09:36:13 +0000
http://www.open-lab.net/zh-cn/blog/?p=12498
Continued]]>
知識蒸餾是一種將更大的教師模型的知識轉移到更小的學生模型的方法,理想情況下可生成緊湊、易于部署的學生,且準確度與教師相當。知識蒸餾在預訓練設置中越來越受歡迎,但用于在監督式微調(Supervised Fine-Tuning,SFT)期間執行知識蒸餾的資源越來越少。 NVIDIA NeMo-Aligner 開源了一個在 SFT 期間使用知識蒸餾的實現,相較于標準 SFT,該實現的數據效率更高,準確性也更高 (Table 1)。 在表 1 中,SFT 是使用數學/代碼數據集執行的。使用知識蒸餾微調的模型版本在所有數學和代碼相關基準測試中均優于基準,即使僅執行 70%的訓練步驟也是如此。 在 SFT 期間,有許多方法可以從大型模型傳輸知識。最常見的方法是使用教師模型生成合成數據,我們稱之為 KD-SDG。然后,使用合成生成的數據微調學生模型。 還有一種開創性的方法,
Source
]]>
12498
人人超碰97caoporen国产