Pavlo Molchanov – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 28 Nov 2024 06:37:23 +0000
zh-CN
hourly
1
196178272 -
Hymba 混合頭架構提高小型語言模型性能
http://www.open-lab.net/zh-cn/blog/hymba-hybrid-head-architecture-boosts-small-language-model-performance/
Fri, 22 Nov 2024 06:15:22 +0000
http://www.open-lab.net/zh-cn/blog/?p=12148
Continued]]>
Transformer 及其基于注意力的架構,憑借強大的性能、并行化功能以及通過鍵值 (KV) 緩存進行的長期召回,已成為語言模型 (LM) 的主要選擇。然而,其二次計算成本和高內存需求帶來了效率挑戰。相比之下,Mamba 和 Mamba-2 等狀態空間模型 (SSM) 可提供恒定的復雜性和高效的硬件優化,但難以處理記憶回收任務,從而影響其在常規基準測試中的性能。 NVIDIA 研究人員最近提出了 Hymba ,這是一系列小語言模型 (SLMs),采用混合 head 并行架構,將 Transformer Attention 機制與 SSMs 集成,以提高效率和性能。在 Hymba 中,attention heads 可實現高分辨率召回,而 SSM heads 可實現高效的上下文摘要。 Hymba 的新型架構揭示了以下幾點見解: 本文展示了 Hymba 1.5…
Source
]]>
12148
-
基于 VILA 的 NVIDIA 硬件可視化語言模型
http://www.open-lab.net/zh-cn/blog/visual-language-models-on-nvidia-hardware-with-vila/
Fri, 03 May 2024 08:38:27 +0000
http://www.open-lab.net/zh-cn/blog/?p=9880
Continued]]>
視覺語言模型最近有了顯著的發展。然而,現有技術通常僅支持一個圖像。他們無法在多個圖像之間進行推理、支持上下文學習或理解視頻。此外,它們不會優化推理速度。 我們開發了 VILA,一個具有整體預訓練、指令調整和部署管道的可視化語言模型,以幫助我們的 NVIDIA 客戶在其多模式產品中取得成功。VILA 在圖像 QA 基準和視頻 QA 基準上都實現了 state-of-the-art(SOTA)性能,具有強大的多圖像推理能力和上下文學習能力。此外,它還針對速度進行了優化。 與其他 VLM 相比,它使用了 1/4 的令牌,并在不損失精度的情況下使用 4 位 AWQ 進行量化。VILA 有多種尺寸,從支持最高性能的 40B 到可部署在 NVIDIA Jetson Orin 等邊緣設備上的 3.5B 不等。 我們設計了一個高效的訓練管道,僅用兩天時間就在 128 NVIDIA A100…
Source
]]>
9880
人人超碰97caoporen国产