Shengyang Sun

Shengyang Sun 是 NVIDIA 的一名深度學習應用科學家,專注于在訓練后過程中提高大語言模型的性能。他的研究涉及模型對齊算法、合成數據生成和推理。加入 NVIDIA 之前,Shengyang 在多倫多大學獲得計算機科學博士學位,專注于深度神經網絡中可擴展的不確定性估計。

Posts by Shengyang Sun

生成式人工智能/大語言模型

利用 NVIDIA NeMo-Aligner 進行監督式微調的數據高效知識蒸餾

知識蒸餾是一種將更大的教師模型的知識轉移到更小的學生模型的方法,理想情況下可生成緊湊、易于部署的學生,且準確度與教師相當。 2 MIN READ