這是 LLM 基準測試系列的第一篇文章,介紹了在使用 NVIDIA NIM 部署 Meta Llama 3 模型時,如何使用 GenAI-Perf 進行基準測試。
來自倫敦大學學院 (UCL) 決策、行動和推理知識 (DARK) 實驗室的研究人員在其全新的基于游戲的基準測試套件 Benchmarking Agentic LLM 和 VLM Reasoning On Games (BALROG) 中利用了 NVIDIA NIM 微服務。BALROG 經過專門設計,可使用各種游戲環境評估模型在具有挑戰性的長距交互式任務中的代理能力。
來自 DARK Lab 的團隊利用 NVIDIA NIM 簡化了詳盡的基準測試流程。在 DeepSeek-R1 NIM 發布時 ( 2025 年 2 月底) ,他們能夠使用 DeepSeek-R1,這是一個包含 671 億個參數的大型模型。這種方法加快了他們的工作速度,因為他們不必先在本地部署和托管模型。
本文將探討 NVIDIA NIM 如何使用 BALROG 實現高級 AI 模型的高效基準測試。我們分享了有關基準測試過程、關鍵結果以及 NIM 微服務如何在先進的 AI 系統中推進 代理式 AI 推理的評估的見解。
適用于 DeepSeek-R1 的 NVIDIA NIM
NVIDIA NIM 微服務正在快速重新定義研究人員和開發者部署和擴展 AI 模型的方式,提供了一種利用 GPU 強大功能的簡化方法。這些微服務通過提供預優化引擎 (例如 NVIDIA TensorRT 和 NVIDIA TensorRT-LLM ) 來簡化 AI 推理工作負載的運行過程,從而提供低延遲、高吞吐量的性能。
NIM 微服務的靈活性讓研究人員特別興奮。它們可以部署在云平臺、數據中心甚至本地工作站中,從而無縫集成到不同的工作流程中。借助對基于 Kubernetes 的擴展的支持,研究人員可以高效處理從小型實驗到大規模部署等各種規模的工作負載。
NIM 微服務還使用戶能夠安全地自行托管模型,并根據特定需求對其進行自定義,使其成為自然語言處理、計算機視覺和科學研究等應用的通用解決方案。此外,NIM 可部署在國家超級計算中心,使研究人員能夠利用高性能基礎設施處理大規模 AI 工作負載,并對私有或敏感數據進行安全研究。
這些微服務可與 OpenAI API 或 Python 環境 LangChain 等標準前端輕松快速地進行 API 集成。還可以訪問 Node.js 和命令行。這使研究人員能夠高效運行先進的大型開源 大語言模型 (LLMs) ,即使資源有限。
隨著 2025 年 1 月 DeepSeek-R1 的發布,NVIDIA 為各種 DeepSeek 模型提供了即用型 NIM 微服務。這使倫敦大學學院的研究人員能夠立即通過 build.nvidia.com 評估具有 6710 億個參數的最大變體。DeepSeek-R1 因其先進的推理能力和應對長期挑戰的可能性,被認為是使用 BALROG 進行基準測試的理想候選者。
BALROG 方法論
雖然 LLM 和 視覺語言模型 (VLM) 在處理信息和遵循指令方面取得了顯著進展,但它們在復雜、動態情況下有效行動的能力仍然是一個關鍵挑戰。需要持續規劃、空間感知和適應不可預見環境的任務通常會超出其現有能力。
許多現有基準測試雖然有用,但往往側重于較短的交互或靜態問題。這可能會導致結果迅速飽和和測試數據泄露,并且可能無法像長期決策一樣,完全掌握強大的現實機構所需的基本技能。BALROG 基準測試套件專為滿足對更嚴苛的評估方法日益增長的需求而開發,該方法可使用游戲真正測試 AI 能力,以擴展推理和交互。
BALROG 將六個不同的強化學習環境聚合到一個統一的測試平臺中,評估不同復雜性的代理技能 (圖 1):
- Crafter: 靈感源自“Minecraft”的 2D 網格環境,需要進行探索、資源收集和物品制作才能生存。
- Baba Is AI:一款益智游戲,agents 通過操作表示規則的詞塊來改變物體的交互方式并解決謎題。
- NetHack 學習環境 (NLE) :經典 Roguelike 游戲,以極其困難和復雜而聞名,需要長期戰略計劃和短期戰術。
- MiniHack :基于 NLE 構建的多任務框架,可通過各種任務評估勘探、導航、長期規劃和資源管理。
- BabyAI :一種簡單的 2D 網格世界測試自然語言指令,適用于不同復雜性的任務。
- TextWorld:一款完全基于文本的游戲,需要探索和自然語言交互,沒有視覺組件。

為了確保模型真正進行推理和適應,而不是簡單地依賴記憶模式,我們使用了跨環境的程序生成。BALROG 提供標準化框架,旨在嚴格評估大量不同的模型在這些要求嚴苛的任務中的表現。這將開發導向更強大、更自主的 AI 智能體。
BALROG 結果
BALROG 的目標是通過在 排行榜 上跟蹤各種現代語言模型來對其進行基準測試。智能體以自然語言描述或多模態視覺語言格式接收環境觀察,并負責以自然語言輸出下一個動作。像 DeepSeek-R1 這樣經過專門訓練的推理模型可以在輸出動作之前進行推理。
BALROG 對從 0 到 100 的每項任務使用標準化指標評分性能。對于具有離散目標的環境 (BabyAI、Baba Is AI、MiniHack),分數是二進制的 (失敗為 0,成功為 100)。對于進展更為精細的環境 (TextWorld、Crafter、NetHack),分數表示已實現目標或已達到里程碑的比例。
BALROG 的研究人員通過支持無縫交換機的 OpenAI API 評估了 DeepSeek-R1 NIM。他們的評估顯示,DeepSeek-R1 在 BALROG 上實現了新的先進性能,平均進度為 34.9% ± 2.1%,較上一代領先者 Claude 3.5 Sonnet 32.6% ± 1.9% 略勝一籌。這使得該模型在撰寫本文時處于排行榜榜首。得益于 NIM 與標準 API 的無縫集成,可以輕松查詢 DeepSeek-R1。對于大多數學術研究人員來說,由于完整模型的龐大規模,這是一項幾乎不可能實現的壯舉。
與各種其他模型相比,對 API 成本進展情況的進一步分析表明,DeepSeek R1 如何通過 NVIDIA NIM 以更低的成本提供非常高的性能(圖 2)。

總結
NVIDIA NIM 減少了訪問和使用現代 LLM 和 VLM 的工作量。各種可用的 API 可以輕松地將它們集成到現有環境中,例如 BLAROG。此外,如果計算資源可用,NIM 微服務可以立即在云端遠程使用或本地部署。由于基于云的使用,DARK 實驗室的研究人員無需在本地部署模型。相反,他們可以立即使用最新的、最大的、最先進的模型之一。
如需詳細了解 BALROG 方法,請參閱 ICLR 2025 論文: BALROG:Benchmarking Agentic LLM 和 VLM Reasoning On Games 。研究人員還計劃對以 NIM 微服務形式提供的 NVIDIA Llama Nemotron Ultra 和 Llama 4 模型進行基準測試。
要開始使用 NVIDIA NIM ,使用行業標準 API 部署、評估和擴展先進的 AI 模型,請訪問面向開發者的 NVIDIA NIM。