Shizhe Diao

Shizhe Diao 是 NVIDIA Research 的研究科學家,熱衷于研究基礎模型的高效訓練和對齊。在張教授的指導下,Shizhe 獲得了香港科技大學的博士學位。

Posts by Shizhe Diao

對話式人工智能

Hymba 混合頭架構提高小型語言模型性能

Transformer 及其基于注意力的架構,憑借強大的性能、并行化功能以及通過鍵值 (KV) 緩存進行的長期召回,已成為語言模型 (LM)… 5 MIN READ