宣布推出基于 CUDA 評估 LLM 的開源框架 ComputeEval

大語言模型 (LLMs) 正在徹底改變開發者的編碼方式和編碼學習方式。對于經驗豐富的或初級的開發者來說，如今的先進模型可以生成 Python 腳本、基于 React 的網站等。未來，強大的 AI 模型將幫助開發者編寫高性能 GPU 代碼。這就提出了一個重要問題：如何確定 LLM 是否能夠處理復雜的 CUDA 編程？

ComputeEval 是一個開源框架和數據集，旨在評估 LLM 在 CUDA 代碼生成上的能力。該數據集旨在評估 LLM 在不同的并行編程領域（如內存管理和線程同步）生成正確 CUDA 代碼的能力。該框架旨在簡化對生成代碼的評估。

本文將介紹 ComputeEval 作為評估框架的工作原理、我們對先進模型的評估結果，以及它對 AI 輔助 GPU 開發的未來意味著什么。

高性能 GPU 代碼生成的新基準測試

ComputeEval 旨在專門為 CUDA 和高性能 GPU 代碼提供值得信賴的社區驅動基準測試。它的靈感來自其他語言 (例如 HumanEval ) 中的基準測試。在 CUDA 方面，精度、并行性和性能至關重要。

ComputeEval 包含以下內容：

手工制作的現實世界 CUDA 問題：我們的團隊精心策劃了一系列挑戰，涵蓋從 kernel 啟動和線程管理到內存布局和共享內存利用率的方方面面。我們的初始版本包含 128 個 CUDA 問題，為評估 LLMs 如何應對 GPU 編程挑戰奠定了基礎。
功能正確性測試：提供代碼，以便在沙盒環境中運行功能正確性測試。這意味著您可以安全地執行生成的代碼，并驗證其是否按預期工作。

要查看代碼，請訪問 NVIDIA/compute-eval GitHub 存儲庫。在 Hugging Face 上查找數據集。

模型性能

我們的團隊在 ComputeEval 上評估了多個領先的 LLM，以建立基準性能指標并了解 AI 輔助 CUDA 編程的現狀 (表 1) 。

模型	pass@1	pass@3
OpenAI o3-mini	0.61	0.74
Anthropic Claude Sonnet 3.7?	0.54	0.60
Llama 3.1 405b	0.4	0.55
Google Gemini 2.0 Flash Thinking?	0.37	0.52

表 1。ComputeEval 2025.1 可生成先進的模型。OpenAI o3-mini 展示了在 CUDA 代碼生成方面最強的性能，其次是 Anthropic 的 Claude Sonnet 3.7 (無思考模式)

這些結果突出表明，雖然 LLM 在某些基本情況下能夠生成有效的 CUDA 代碼，但即使是最好的模型也無法為復雜問題生成正確的 CUDA 代碼，并且在某些情況下不遵循能夠使用其他語言執行的基本指令，這表明在這一復雜領域仍有改進空間。

開始使用

ComputeEval 不僅僅是衡量當前模型的性能，它還涉及制定標準，推動 AI 輔助 CUDA 編程的持續改進。我們的團隊希望突破 LLM 在高性能計算領域的極限。作為一個開源平臺，ComputeEval 是社區可以信任和構建的資源。通過提出跨 CUDA-X 庫和 GPU 架構的專家主題的挑戰，ComputeEval 還通過默認利用最佳實踐來推動現代化。

在第一個版本中，您將發現 128 項精心設計的 CUDA 挑戰。但我們不會止步于此。我們已經在與內部團隊和合作伙伴合作收集更多問題。我們也將開源這些問題。未來的更新將包括優化測試和更詳細的指標，這些指標不僅能捕獲正確性，還能捕獲性能衡量標準。

“我們邀請經驗豐富的 HPC 專業人士、學生和業余愛好者在其他模型上運行基準測試，通過拉取請求提交新的 CUDA 和 CUDA 庫問題，并在 GitHub Issues 中提供常規反饋。您的反饋和貢獻將有助于塑造此基準測試的未來，并讓加速計算更好地為所有人服務。要查看代碼，請訪問 NVIDIA/compute-eval GitHub 存儲庫。在 Hugging Face 上查找數據集。”

宣布推出基于 CUDA 評估 LLM 的開源框架 ComputeEval

高性能 GPU 代碼生成的新基準測試

模型性能

開始使用

相關資源

標簽

關于作者

宣布推出基于 CUDA 評估 LLM 的開源框架 ComputeEval

高性能 GPU 代碼生成的新基準測試

模型性能

開始使用

相關資源

標簽

關于作者

相關文章

使用 NVIDIA TensorRT-LLM 前瞻性解碼優化 Qwen2.5-Coder 吞吐量

NVIDIA H200 Tensor Core GPU 和 NVIDIA TensorRT-LLM 集 MLPerf LLM 推理記錄

相關文章

在 NVIDIA NeMo 框架的首發日支持下即時運行 Hugging Face 模型

在 Azure AI Foundry 上使用 NVIDIA NIM 加速 AI 推理

應用具有推理能力的專用大語言模型（LLM）加速電池研究

擴展 NVIDIA Agent Intelligence Toolkit 以支持新的代理式框架

借助 3DGUT 在 gsplat 中革新神經重建和渲染