借助 Llama-3.1-Nemotron-51B 實現準確性和效率的突破性發展

Wed, 25 Sep 2024 07:33:54 +0000

今天，NVIDIA 發布了一個獨特的語言模型，可提供無與倫比的準確性和效率性能。Llama 3.1-Nemotron-51B 衍生自 Meta 的 Llama-3.1-70B，使用了一種新穎的神經架構搜索（Neural Architecture Search，NAS）方法，可生成高度準確和高效的模型。該模型適合高工作負載下的單個 NVIDIA H100 GPU，使其更易于訪問和經濟實惠。新模型展示的出色準確性和效率亮點源于模型架構的變化，這些變化導致顯存占用顯著減少，內存帶寬減少，浮點運算次數（FLOPs）降低，同時保持出色的準確性。我們證明，通過從參考模型創建另一個更小、更快速的變體，可以推廣這種方法。 2024 年 7 月，Meta 發布了 Llama-3.1-70B，這是一種領先的先進大語言模型 (LLM)。今天，我們宣布推出 Llama 3.1…

Source

]]>

Udi Karpas – NVIDIA 技術博客

借助 Llama-3.1-Nemotron-51B 實現準確性和效率的突破性發展