在 NVIDIA 和 Nebius 的幫助下,加州大學伯克利分校的 LMArena 可以更輕松地了解哪些大語言模型在特定任務中表現出色。該公司的排名由 Prompt-to-Leaderboard (P2L) 模型提供支持,可從人類那里收集 AI 在數學、編碼或創意寫作等領域的最佳表現方面的投票。
LMarena 聯合創始人、加州大學伯克利分校博士生 Wei-Lin Chiang 表示:“我們捕捉用戶在任務中的偏好,并應用 Bradley-Terry 系數來確定哪個模型在每個領域表現最好。過去兩年,LMArena (以前稱為 LMSys) 一直在開發 P2L。
LMArena 正在使用 NVIDIA DGX 云和 Nebius AI Cloud 大規模部署 P2L。此次合作以及 LMArena 對 NVIDIA GB200 NVL72 的使用,使得在云端開發可擴展的生產就緒型 AI 工作負載成為可能。NVIDIA AI 專家在整個項目期間提供了實操支持,形成了快速反饋和共同學習的周期,幫助完善了 P2L 和 DGX 云平臺。

P2L 的核心是實時反饋回路:訪客會比較 AI 生成的回復并投票選出最佳回復,從而創建詳細、針對特定提示的排行榜。從本質上講,LMArena 利用人類排名來訓練 P2L,使其能夠在 LLM 查詢的結果質量方面確定最佳結果。
LMArena 高級研究員兼伯克利博士生 Evan Frick 表示:“我們想要的不僅僅是一個整體排名。“一個模型可能擅長數學計算,但在寫作方面具有中等水平。單個分數通常會隱藏這些細微差別。”
除了個性化排行榜外,P2L 還支持基于成本的路線規劃。用戶可以設置預算 (例如每小時 $5) ,系統將自動在該限度內選擇性能最佳的模型。

將 P2L 投入生產:LMArena、Nebius 和 NVIDIA
2 月,LMArena 在 NVIDIA GB200 NVL72 上部署了 P2L,由 Nebius 通過 NVIDIA DGX 云托管。NVIDIA 和 Nebius 開發了一個共享沙盒環境來簡化入門流程,使早期采用者能夠使用編排運行手冊和在 NVIDIA GB200 NVL72 新型架構上管理多節點拓撲的最佳實踐來測試 NVIDIA Blackwell 平臺。
P2L 可以根據特定領域的準確性和成本動態路由查詢,這證明是突破 NVIDIA GB200 NVL72 性能極限的理想選擇。
Chiang 說:“我們構建了 P2L,這樣開發者就不必猜測哪種模型是最好的。”“數據告訴我們哪一項在數學、編碼或寫作方面更勝一籌。然后,我們會相應地路由查詢,有時會考慮成本,有時會考慮性能。”
NVIDIA GB200 NVL72:靈活、可擴展、開發者就緒
NVIDIA GB200 NVL72 集成了 36 個 Grace CPU 和 72 個 Blackwell GPU,并將它們與 NVIDIA NVLink 和 NVLink Switch 連接,以實現高帶寬、低延遲的性能。高達 30 TB 的快速、統一的 LPDDR5X 和 HBM3E 內存確保為要求嚴苛的 AI 任務高效分配資源。

LMArena 通過連續訓練(首先在單個節點上運行,然后擴展到多個節點)使平臺完成了訓練,展示了驚人的單節點吞吐量和高效的橫向可擴展性。
Chiang 說:“我們談論的是 multi-node 擴展,但即使是 single node 也讓我們很忙。”“最大的挑戰是確保 real-time 性能,同時讓系統適應不斷的數據反饋。但這也是有趣的部分。”
開源支持和生態系統就緒
DGX 云團隊與 Nebius 和 LMArena 密切合作,確保面向 GB200 NVL72 的開源開發者能夠快速、無縫地進行部署。該團隊驗證并編譯了關鍵的 AI 框架,包括 PyTorch、DeepSpeed、Hugging Face Transformers、Accelerate、Triton (上游) 、vLLM、xFormers、torchvision 和 llama.cpp,以及適用于 Arm64、CUDA 12.8+ 和 Blackwell 環境的 WAN2.1 視頻擴散等新興模型框架。
這種全面的支持意味著開發者可以利用先進的開源工具,而無需努力解決低級別兼容性或性能問題。工程工作涵蓋編譯和優化、容器化、編排最佳實踐以及大規模運行框架的端到端驗證。
NVIDIA DGX 云團隊的高級工程師 Paul Abruzzo 表示,該項目需要 NVIDIA、Nebius 和 LMArena 之間進行“深度協調”,以便開發者專注于構建產品,而不是移植開源庫和組件。
盡管通過搶先體驗計劃采用了 GB200 NVL72,但 LMArena 仍然實現了強勁的性能。與之前的 Hopper (H100) 訓練相比,它表現出了改進,僅在四天內就訓練出了最先進的模型。
“在為 GB200 的新型 Arm 架構構建和移植依賴項之后,DGX 云團隊能夠為這種參與提供必要的開源框架,從而實現快速部署和規模實驗,”Abruzzo 說。
Nebius 首席產品和基礎設施官 Andrey Korolenko 表示,此次合作不僅為在 GB200 NVL72 的新型架構上實現 AI 工作負載帶來了技術里程碑,還為新一代大規模 AI 提供了可重復的部署模型。經過驗證的框架、載入指南和部署藍圖現在使未來的客戶能夠更輕松地采用 GB200 NVL72,無論是在全機架規模還是更具針對性的子容量配置下。
Chiang 表示:“與 Nebius 和 NVIDIA 的合作從根本上改變了我們快速擴展 P2L 的能力。“GB200 NVL72 的性能使我們能夠靈活地進行實驗、快速迭代,并提供適應實時用戶輸入的實時路由模型。因此,我們看到準確性和效率得到了提高。”
要點
此部署展示了 AI 工作負載如何在 NVIDIA GB200 NVL72 平臺上快速靈活地進行擴展,為速度、適應性和 Arm64 生態系統就緒性設定了新的基準。
- 快速實現價值:在 NVIDIA GB200 NVL72 上訓練生產規模模型,為期四天。
- 靈活部署:已驗證全結構和子容量用例。
- 可擴展性證明:單節點到多節點部署展示了在 NVIDIA GB200 NVL72 上輕松實現 AI 工作負載可擴展性。
- 開源就緒:首次針對合作伙伴基礎設施上的 Arm64 + CUDA 編譯和優化主要框架。
借助 NVIDIA DGX 云在 Nebius 上體驗 NVIDIA GB200 NVL72
為加速您的 AI 創新之旅、降低部署復雜性并利用先進的基礎設施,NVIDIA DGX 云和 Nebius AI Cloud 已準備好復制 LMArena 的成功成果。立即聯系 NVIDIA,詳細了解如何在 GB200 NVL72 上部署工作負載。
詳細了解 LMArena 在 NVIDIA DGX Cloud 和 Nebius AI Cloud 上開發的 Prompt-to-Leaderboard (P2L) 系統。
?