隨著 AI 向更大的自主性邁進,能夠獨立決策的 AI 智能體的出現標志著一個重要的里程碑。為了在復雜的現實環境中有效發揮作用,這些智能體必須超越模式識別和統計預測。這是由采用 reasoning models 驅動的,這些模型旨在處理信息、應用邏輯和做出決策,從而實現更智能、適應性更強的行為。
通過將結構化思維與情境感知相結合,推理模型為智能體提供認知基礎,使其能夠以類似人類的理解來處理動態任務。
企業需要在任何平臺上運行完全控制的高級推理模型,以更大限度地提高智能體的能力。為了加速企業采用 AI 智能體,NVIDIA 正在構建 NVIDIA Nemotron 開放模型系列。這些模型在推理和代理式任務方面實現了領先的準確性,并在從邊緣到數據中心和云的加速計算中提供了開放推理模型中的最高計算效率。
本文將介紹構建 Nemotron 模型的過程,該過程從可用的最佳基礎模型開始。然后,對這些模型進行增強,以實現推理和代理性能,并更大限度地提高計算效率、吞吐量和延遲性能。
領先的準確性、更高的吞吐量和更低的 TCO
為了創建 Nemotron 模型,團隊從開放前沿模型開始,并執行一系列關鍵步驟,如 Table 1 和 Figure 1 所示。
技術 | 說明 | 目的/ 優勢 |
神經架構搜索 (Neural Architecture Search) | 自動探索模型設計,平衡 Llama 等 LLM 的準確性、延遲和效率,實現大規模代理式 AI。 | 優化模型結構,在性能和效率之間實現最佳權衡。 |
知識蒸餾 | 在訓練的多個階段都使用了Synthetic data generation (SDG),以及精心策劃的高質量數據,將推理技能從大型模型轉移到速度更快的小型模型,從而在提高性能的同時降低計算成本。 | 以更低的計算成本創建具有強大推理能力的高效模型。 |
監督式微調 | 使用混合推理和非推理數據訓練模型,幫助它們根據任務類型調整響應。 | 提高各種任務的模型適應性和響應質量。 |
強化學習 (RL) | 通過獎勵準確、結構化的輸出,進一步改進非推理任務的推理質量和性能,提高性能,而不僅僅是監督式學習。 | 通過基于 reward-based 優化提高輸出質量和任務性能。 |

得益于這些優化技術,Nemotron 模型能夠在顯著減小模型大小的同時實現領先的準確性,從而提供更高的吞吐量。這降低了總體 TCO,使它們非常適合企業使用。如圖 2 所示,與其他領先的開放模型相比,之前發布的 Llama Nemotron 模型可提供高達 5x 的吞吐量。

歐洲的模型構建商采用 NVIDIA Nemotron
在 GTC 巴黎大會上,NVIDIA 宣布與歐洲 (包括法國、德國、意大利、盧森堡、波蘭、西班牙和瑞典) 的幾位杰出主權 AI 模型開發者合作,共同創建其模型的優化版本。Nemotron 模型還可作為 NVIDIA NIM 推理微服務使用,并針對高吞吐量和低延遲進行了優化。NVIDIA NIM 利用行業標準 API,在本地或云端提供無縫、可擴展的 AI 推理。
宣布推出適用于 AI 智能體的先進模型 Mistral-Nemotron
Mistral-Nemotron 模型是 Nemotron 系列的新成員,是企業代理式 AI 的重大進步。Mistral-Nemotron 是一種 Turbo 模型,可提供顯著的計算效率和高精度,以滿足企業級 AI 智能體的嚴苛需求。
Mistral-Nemotron 專為各種專業應用而設計,在編碼和指令遵循方面表現出色。它在軟件開發和客戶服務等領域表現出色。Mistral-Nemotron 在工具調用方面也表現出色,非常適合企業應用中的構建智能體。
Mistral-Nemotron 模型作為 NIM 微服務提供,可提供高吞吐量和低延遲。您可以下載 NIM 微服務,并將其部署到從本地到云端的任意位置。
更多領先的企業級 Nemotron 開放模型
Llama Nemotron Ultra 和 Llama Nemotron Nano 等企業就緒型模型在推理、數學和工具調用方面處于領先地位,其大小也各不相同。最近發布的 Llama Nemotron Vision 在 OCRBench V2 中的視覺推理和文檔理解方面排名最高。
NVIDIA 研究團隊還推出了 AceReasoning Nemotron 和 Nemotron-H,前者在數學和編碼方面表現出色,后者是 Mamba-Transformer 混合模型系列,可提供高準確度和更快的推理速度。
Llama Nemotron Safety Guard V2 是領先的開放內容安全模型,在 NVIDIA 測試期間,其總體平均準確率最高,為 81.6%。它使用 Nemotron 內容安全數據集 V2 進行訓練,具有超過 33K 次標注的人類 – LLM 交互。它基于 Llama 3.1 8B Instruct 模型構建,可將提示和響應分類為安全或不安全,并使用 NVIDIA 詳細的安全風險分類標記違規情況。
在智能體中,Nemotron-CORTEXA 作為最先進的軟件工程智能體脫穎而出,旨在解決 GitHub 存儲庫上的實際問題。它可以識別正確的源文件和代碼片段,生成多個錯誤修復和單元測試,并使用 LLM-as-a-judge 策略選擇最佳解決方案。它解決了 SWE-bench Verified 集中 68.2%的問題,提高了分辨率的準確性和效率。
Nemotron 團隊還開源了用于訓練模型的數據集,這些數據集一直在 Hugging Face 排行榜上名列前茅。
OpenMathReasoning 數據集旨在訓練 LLM 進行高級數學問題解決。相反,OpenCodeReasoning 數據集側重于增強 LLM 在代碼生成和推理方面的能力,包括競爭性編程挑戰和由 DeepSeek-R1 等模型生成的高質量解決方案。
Nemotron-Personas 是一個開源合成角色數據集,與美國的真實人口和地理分布保持一致,以反映人口在年齡、教育、職業和種族等屬性方面的多樣性。它使用 Gretel Data Designer 進行設計,旨在提高合成數據的多樣性和復雜性,并減少模型偏差,支持各種領域和用例。
開始使用 NVIDIA Nemotron 模型
直接在瀏覽器中試用 Mistral-Nemotron NIM。敬請關注即將推出的可下載 NIM。您還可以訪問之前發布的 Llama Nemotron 模型和訓練數據集:
- 直接在瀏覽器中試用 Llama Nemotron Nano、Super 和 Ultra 模型。
- 從 Hugging Face 下載 Llama Nemotron 系列集合以及 OpenMathReasoning、OpenCodeReasoning 和 Llama Nemotron Post Training 數據集等數據集。