Raviraj Joshi – NVIDIA 技術博客

Mistral-NeMo-Minitron 8B 模型提供超高精度

Tue, 08 Oct 2024 06:39:52 +0000

本文最初發布于 2024 年 8 月 21 日，但已根據當前數據進行了修訂。最近，NVIDIA 和 Mistral AI 推出了 Mistral NeMo 12B ，這是一款先進的大語言模型 (LLM)。Mistral NeMo 12B 在各種基準測試中的表現始終優于類似大小的模型。我們宣布推出 Mistral-NeMo-Minitron 8B，這是同類產品中最先進的開放訪問模型之一。該模型在九項熱門基準測試中始終提供領先的準確性。Mistral-NeMo-Minitron 8B 基礎模型是通過對 Mistral NeMo 12B 基礎模型進行寬度剪枝獲得的，然后是使用知識蒸餾進行的輕量化重新訓練過程。這是 NVIDIA 最初在論文《通過剪枝和知識蒸餾實現緊湊語言模型》中提出的成功方法。NVIDIA Minitron 8B 和 4B 以及 Llama…

Source

]]>

Mistral-NeMo-Minitron 8B 基礎模型實現準確性巔峰

Wed, 21 Aug 2024 09:32:56 +0000

上個月，NVIDIA 和 Mistral AI 推出了 Mistral NeMo 12B，這是一款領先的先進的大型語言模型（LLM）。Mistral NeMo 12B 在各種基準測試中的表現始終優于類似大小的模型。今天，我們宣布推出 Mistral-NeMo-Minitron 8B，這是該體量級別中最先進的開放訪問模型之一。該模型在9個熱門基準測試中始終提供領先的準確度。Mistral-NeMo-Minitron 8B基礎模型是通過對Mistral NeMo 12B基礎模型的寬度剪枝獲得的，然后使用知識提煉進行輕量再訓練。這是NVIDIA最初在論文’通過剪枝和知識提煉實現緊湊語言模型‘中提出的成功方法。NVIDIA Minitron 8B和4B以及Llama-3.1-Minitron 4B模型反復驗證了這一點。模型剪枝是指通過減少圖層（深度剪枝）或減少神經元、

Source

]]>