Raviraj Joshi – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 12 Dec 2024 04:06:50 +0000 zh-CN hourly 1 196178272 Mistral-NeMo-Minitron 8B 模型提供超高精度 http://www.open-lab.net/zh-cn/blog/mistral-nemo-minitron-8b-foundation-model-delivers-unparalleled-accuracy-2/ Tue, 08 Oct 2024 06:39:52 +0000 http://www.open-lab.net/zh-cn/blog/?p=11441 Continued]]> 本文最初發布于 2024 年 8 月 21 日,但已根據當前數據進行了修訂。 最近,NVIDIA 和 Mistral AI 推出了 Mistral NeMo 12B ,這是一款先進的大語言模型 (LLM)。Mistral NeMo 12B 在 各種基準測試 中的表現始終優于類似大小的模型。 我們宣布推出 Mistral-NeMo-Minitron 8B,這是同類產品中最先進的開放訪問模型之一。該模型在九項熱門基準測試中始終提供領先的準確性。Mistral-NeMo-Minitron 8B 基礎模型是通過對 Mistral NeMo 12B 基礎模型 進行寬度剪枝獲得的,然后是使用知識蒸餾進行的輕量化重新訓練過程。這是 NVIDIA 最初在論文《 通過剪枝和知識蒸餾實現緊湊語言模型 》中提出的成功方法。NVIDIA Minitron 8B 和 4B 以及 Llama…

Source

]]>
11441
Mistral-NeMo-Minitron 8B 基礎模型實現準確性巔峰 http://www.open-lab.net/zh-cn/blog/mistral-nemo-minitron-8b-foundation-model-delivers-unparalleled-accuracy/ Wed, 21 Aug 2024 09:32:56 +0000 http://www.open-lab.net/zh-cn/blog/?p=11021 Continued]]> 上個月,NVIDIA 和 Mistral AI 推出了 Mistral NeMo 12B,這是一款領先的先進的大型語言模型(LLM)。Mistral NeMo 12B 在各種基準測試中的表現始終優于類似大小的模型。 今天,我們宣布推出 Mistral-NeMo-Minitron 8B,這是該體量級別中最先進的開放訪問模型之一。該模型在9個熱門基準測試中始終提供領先的準確度。Mistral-NeMo-Minitron 8B基礎模型是通過對Mistral NeMo 12B基礎模型的寬度剪枝獲得的,然后使用知識提煉進行輕量再訓練。這是NVIDIA最初在論文’通過剪枝和知識提煉實現緊湊語言模型‘中提出的成功方法。NVIDIA Minitron 8B和4B以及Llama-3.1-Minitron 4B模型反復驗證了這一點。 模型剪枝是指通過減少圖層(深度剪枝)或減少神經元、

Source

]]>
11021
人人超碰97caoporen国产