Yonggan Fu – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 28 Nov 2024 06:37:23 +0000 zh-CN hourly 1 196178272 Hymba 混合頭架構提高小型語言模型性能 http://www.open-lab.net/zh-cn/blog/hymba-hybrid-head-architecture-boosts-small-language-model-performance/ Fri, 22 Nov 2024 06:15:22 +0000 http://www.open-lab.net/zh-cn/blog/?p=12148 Continued]]> Transformer 及其基于注意力的架構,憑借強大的性能、并行化功能以及通過鍵值 (KV) 緩存進行的長期召回,已成為語言模型 (LM) 的主要選擇。然而,其二次計算成本和高內存需求帶來了效率挑戰。相比之下,Mamba 和 Mamba-2 等狀態空間模型 (SSM) 可提供恒定的復雜性和高效的硬件優化,但難以處理記憶回收任務,從而影響其在常規基準測試中的性能。 NVIDIA 研究人員最近提出了 Hymba ,這是一系列小語言模型 (SLMs),采用混合 head 并行架構,將 Transformer Attention 機制與 SSMs 集成,以提高效率和性能。在 Hymba 中,attention heads 可實現高分辨率召回,而 SSM heads 可實現高效的上下文摘要。 Hymba 的新型架構揭示了以下幾點見解: 本文展示了 Hymba 1.5…

Source

]]>
12148
人人超碰97caoporen国产