Yonggan Fu – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 28 Nov 2024 06:37:23 +0000
zh-CN
hourly
1
196178272 -
Hymba 混合頭架構提高小型語言模型性能
http://www.open-lab.net/zh-cn/blog/hymba-hybrid-head-architecture-boosts-small-language-model-performance/
Fri, 22 Nov 2024 06:15:22 +0000
http://www.open-lab.net/zh-cn/blog/?p=12148
Continued]]>
Transformer 及其基于注意力的架構,憑借強大的性能、并行化功能以及通過鍵值 (KV) 緩存進行的長期召回,已成為語言模型 (LM) 的主要選擇。然而,其二次計算成本和高內存需求帶來了效率挑戰。相比之下,Mamba 和 Mamba-2 等狀態空間模型 (SSM) 可提供恒定的復雜性和高效的硬件優化,但難以處理記憶回收任務,從而影響其在常規基準測試中的性能。 NVIDIA 研究人員最近提出了 Hymba ,這是一系列小語言模型 (SLMs),采用混合 head 并行架構,將 Transformer Attention 機制與 SSMs 集成,以提高效率和性能。在 Hymba 中,attention heads 可實現高分辨率召回,而 SSM heads 可實現高效的上下文摘要。 Hymba 的新型架構揭示了以下幾點見解: 本文展示了 Hymba 1.5…
Source
]]>
12148
人人超碰97caoporen国产