Hymba 混合頭架構提高小型語言模型性能

Fri, 22 Nov 2024 06:15:22 +0000

Transformer 及其基于注意力的架構，憑借強大的性能、并行化功能以及通過鍵值 (KV) 緩存進行的長期召回，已成為語言模型 (LM) 的主要選擇。然而，其二次計算成本和高內存需求帶來了效率挑戰。相比之下，Mamba 和 Mamba-2 等狀態空間模型 (SSM) 可提供恒定的復雜性和高效的硬件優化，但難以處理記憶回收任務，從而影響其在常規基準測試中的性能。 NVIDIA 研究人員最近提出了 Hymba ，這是一系列小語言模型 (SLMs)，采用混合 head 并行架構，將 Transformer Attention 機制與 SSMs 集成，以提高效率和性能。在 Hymba 中，attention heads 可實現高分辨率召回，而 SSM heads 可實現高效的上下文摘要。 Hymba 的新型架構揭示了以下幾點見解：本文展示了 Hymba 1.5…

Source

]]>

Yonggan Fu – NVIDIA 技術博客

Hymba 混合頭架構提高小型語言模型性能