Shizhe Diao

Shizhe Diao は、NVIDIA Research の研究者で、効率的なトレーニングと基盤モデルの整合に関する研究に情熱を傾けています。香港科技大學で Tong Zhang 教授の指導を受け、博士號を取得。

Posts by Shizhe Diao

Generative AI

Hymba ハイブリッド ヘッド アーキテクチャが小規模言語モデルのパフォーマンスを向上

Hymba 1.5B は、同様の規模である最先端のオープンソース モデルと比べ、良好なパフォーマンスを発揮し、同等のサイズの Transformer モデルで比較すると、Hymba はより高いスループットを発揮し、キャッシュを保存するために必要なメモリが 10 分の 1 で済みます。 4 MIN READ