動態內存壓縮技術

Fri, 24 Jan 2025 05:39:18 +0000

盡管大語言模型（LLMs）作為通用 AI 工具取得了成功，但其對計算資源的高需求使其在許多真實場景中的部署具有挑戰性。模型的大小和對話狀態受到可用高帶寬內存的限制，限制了可服務的用戶數量和最大對話長度。目前，兩種最熱門的 LLM 架構是 Transformers 和選擇性狀態空間模型 (SSMs)，它們位于頻譜的另一端：為此，NVIDIA 的研究人員開發了一項稱為動態內存壓縮（Dynamic Memory Compression，DMC）的新技術，該技術可以大幅提高 LLMs 部署的效率，并在不會耗盡內存的情況下將其視野擴展到更長的序列。 DMC 開啟了第三種方式，即訓練 Transformer 模型以自適應壓縮對話狀態并實現所需的壓縮率。這樣可以在不替換熟悉的 Transformer 架構的情況下顯著減少對話狀態大小。DMC 不需要從頭開始訓練，

Source

]]>

David Tarjan – NVIDIA 技術博客

動態內存壓縮技術