David Tarjan – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Fri, 14 Feb 2025 05:42:43 +0000
zh-CN
hourly
1
196178272 -
動態內存壓縮技術
http://www.open-lab.net/zh-cn/blog/dynamic-memory-compression/
Fri, 24 Jan 2025 05:39:18 +0000
http://www.open-lab.net/zh-cn/blog/?p=12920
Continued]]>
盡管大語言模型(LLMs)作為通用 AI 工具取得了成功,但其對計算資源的高需求使其在許多真實場景中的部署具有挑戰性。模型的大小和對話狀態受到可用高帶寬內存的限制,限制了可服務的用戶數量和最大對話長度。 目前,兩種最熱門的 LLM 架構是 Transformers 和選擇性狀態空間模型 (SSMs),它們位于頻譜的另一端: 為此,NVIDIA 的研究人員開發了一項稱為動態內存壓縮(Dynamic Memory Compression,DMC)的新技術,該技術可以大幅提高 LLMs 部署的效率,并在不會耗盡內存的情況下將其視野擴展到更長的序列。 DMC 開啟了第三種方式,即訓練 Transformer 模型以自適應壓縮對話狀態并實現所需的壓縮率。這樣可以在不替換熟悉的 Transformer 架構的情況下顯著減少對話狀態大小。DMC 不需要從頭開始訓練,
Source
]]>
12920
人人超碰97caoporen国产