LLM Benchmarking – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 10 Jul 2025 06:35:48 +0000 zh-CN hourly 1 196178272 LLM 推理基準測試:使用 TensorRT-LLM 進行性能調優 http://www.open-lab.net/zh-cn/blog/llm-inference-benchmarking-performance-tuning-with-tensorrt-llm/ Mon, 07 Jul 2025 06:32:22 +0000 http://www.open-lab.net/zh-cn/blog/?p=14538 Continued]]> 這是大語言模型延遲 – 吞吐量基準測試系列的第三篇博文,旨在指導開發者如何使用 TensorRT-LLM 對 LLM 推理進行基準測試。有關基準測試和參數的常用指標的背景知識,請參閱 LLM 推理基準測試:基本概念。閱讀《 LLM 推理基準測試指南:NVIDIA GenAI-Perf 和 NIM》,了解如何在您的應用中使用 GenAI – Perf 和 NVIDIA NIM。 在部署、集成或對任何大語言模型 (LLM) 框架進行基準測試時,務必要考慮推理性能。您需要確保調整所選框架及其功能,以便其提供對應用程序至關重要的性能指標。 TensorRT-LLM 是 NVIDIA 的開源 AI 推理引擎,允許您使用其原生基準測試和服務工具部署模型,并具有一系列可調整的功能。在本文中,我們將提供實用指南,介紹如何使用 調整模型,然后使用 進行部署。

Source

]]>
14538
基準測試大型語言模型推理成本以實現更智能的擴展和部署 http://www.open-lab.net/zh-cn/blog/benchmarking-llm-inference-costs-for-smarter-scaling-and-deployment/ Wed, 18 Jun 2025 04:48:43 +0000 http://www.open-lab.net/zh-cn/blog/?p=14381 Continued]]> 這是大語言模型延遲-吞吐量基準測試系列的第三篇博文,旨在指導開發者如何通過估算總體擁有成本 (TCO) 來確定 LLM 推理的成本。 有關基準測試和參數的常用指標的背景知識,請參閱 LLM Inference Benchmarking:基本概念。請參閱 LLM Inference Benchmarking 指南:NVIDIA GenAI-Perf 和 NIM,了解如何在您的應用中使用 GenAI-Perf 和 NVIDIA NIM。 大語言模型 (LLMs) 已成為現代軟件產業不可或缺的一部分,其功能類似于構建許多應用的“操作系統”基礎層。這些應用包括 AI 助手、客戶支持代理、編碼助手和“深度研究”助手。 正如 DeepSeek R1 模型系列所示,算法和模型效率方面的最新進展降低了訓練和推理成本。隨著效率的提高,LLM 應用有望變得更加經濟實惠和普及,

Source

]]>
14381
NVIDIA Blackwell 在 MLPerf Training v5.0 中實現高達 2.6 倍的性能提升 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-up-to-2-6x-higher-performance-in-mlperf-training-v5-0/ Wed, 04 Jun 2025 06:53:24 +0000 http://www.open-lab.net/zh-cn/blog/?p=14119 Continued]]> 創建先進的大語言模型 (LLM) 的過程始于預訓練過程。預訓練最先進的模型具有很高的計算要求,因為熱門的開放權重模型具有數百億到數千億個參數,并使用數萬億個令牌進行訓練。模型智能隨著模型參數數量和訓練數據集大小的增加而增長,訓練模型所需的計算量也在增加,因此需要更高性能的訓練集群來解鎖更智能、更強大的模型,同時控制訓練時間。 預訓練模型后,可以對其進行后訓練,以進一步增強其功能。例如,企業可以使用自己的專有數據集定制預訓練模型,以提高該組織特定用例的知識水平和響應準確性。其他后訓練技術可用于增加支持的上下文長度,以及增強具有推理能力的模型。總體而言,雖然單個模型的后訓練計算密集程度可能比現在的預訓練模型低,但隨著研究人員尋找提高模型能力的新方法,以及許多組織可以自定義模型,后訓練模型的計算密集程度也在快速增長。 MLPerf Training v5.0…

Source

]]>
14119
重現 NVIDIA MLPerf v5.0 的 LLM 基準測試訓練成績 http://www.open-lab.net/zh-cn/blog/reproducing-nvidia-mlperf-v5-0-training-scores-for-llm-benchmarks/ Wed, 04 Jun 2025 05:35:26 +0000 http://www.open-lab.net/zh-cn/blog/?p=14084 Continued]]> 運行 NVIDIA 基準測試時,您的系統需要具備以下內容: 運行 NVIDIA MLPerf 訓練基準測試需要: NVIDIA 提交集群不支持使用 Docker 運行工作負載。這些集群由 NVIDIA Base Command Manager (BCM) 管理。按照官方說明正確設置 BCM SLURM 集群。 正確設置后,您應能登錄頭節點并訪問 SLURM 命令 ( sinFO、squeue、srun、sbatch) 以在計算節點上啟動作業。 開始對任何模型進行基準測試所需的步驟包括: 要運行 Llama 2 70B LoRA 的基準測試,請按照本節中的說明操作。 此基準測試使用了政府報告數據集和 Hugging Face 檢查點。NVIDIA NeMo 需要對數據集和檢查點進行預處理。

Source

]]>
14084
宣布推出適用于基準測試 AI 云基礎設施的 NVIDIA 示例云 http://www.open-lab.net/zh-cn/blog/announcing-nvidia-exemplar-clouds-for-benchmarking-ai-cloud-infrastructure/ Sun, 18 May 2025 05:57:39 +0000 http://www.open-lab.net/zh-cn/blog/?p=13935 Continued]]> 長期以來,在云端訓練 大語言模型 (LLMs) 和部署 AI 工作負載的開發者和企業一直面臨著一項根本性挑戰:幾乎不可能提前知道云平臺是否能夠提供其應用所需的性能、可靠性和成本效益。在這種情況下,理論峰值性能與實際現實結果之間的差異通常是進度與挫折之間的差異。 由于缺乏透明的 基準測試實踐 、云提供商之間的結果和性能不一致,以及沒有明確的標準,團隊往往無法在關鍵的基礎設施決策中做出決策。“良好”性能的真正含義是什么?如何比較各種云?您如何知道自己得到了回報?是否應該考慮可靠性? 今天,NVIDIA 正通過推出 NVIDIA Exemplar Clouds 來應對這些挑戰。這項新計劃旨在從 NVIDIA 云合作伙伴 (NCP) 生態系統開始,為 AI 云基礎設施領域帶來透明度、嚴謹性和再現性。 NCP 是專門的云提供商,他們圍繞最新的 NVIDIA GPU 架構、

Source

]]>
13935
LLM 推理基準測試指南:NVIDIA GenAI-Perf 和 NIM http://www.open-lab.net/zh-cn/blog/llm-performance-benchmarking-measuring-nvidia-nim-performance-with-genai-perf/ Tue, 06 May 2025 06:45:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=13833 Continued]]> 這是 LLM 基準測試系列 的第二篇文章,介紹了在使用 NVIDIA NIM 部署 Meta Llama 3 模型 時,如何使用 GenAI-Perf 對其進行基準測試。 在構建基于 LLM 的應用時,了解這些模型在給定硬件上的性能特征至關重要。這有多種用途: 作為以客戶端 LLM 為中心的基準測試工具, NVIDIA GenAI-Perf 提供了以下關鍵指標: GenAI-Perf 還支持任何符合 OpenAI API 規范 (業內廣泛接受的默認標準)的 LLM 推理服務。 在本基準測試指南中,我們使用了 NVIDIA NIM ,這是一系列推理微服務,可為基礎 LLM 和微調 LLM 提供高吞吐量和低延遲推理。NIM 具有易用性、企業級安全性和可管理性。 為優化您的 AI 應用,本文將介紹如何為 Llama 3 設置 NIM 推理微服務,

Source

]]>
13833
使用 NVIDIA NIM 對游戲進行代理式 LLM 和 VLM 推理基準測試 http://www.open-lab.net/zh-cn/blog/benchmarking-agentic-llm-and-vlm-reasoning-for-gaming-with-nvidia-nim/ Thu, 24 Apr 2025 04:08:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=13726 Continued]]> 這是 LLM 基準測試系列的第一篇文章,介紹了在使用 NVIDIA NIM 部署 Meta Llama 3 模型時,如何使用 GenAI-Perf 進行基準測試。 來自倫敦大學學院 (UCL) 決策、行動和推理知識 (DARK) 實驗室的研究人員在其全新的基于游戲的基準測試套件 Benchmarking Agentic LLM 和 VLM Reasoning On Games (BALROG) 中利用了 NVIDIA NIM 微服務。BALROG 經過專門設計,可使用各種游戲環境評估模型在具有挑戰性的長距交互式任務中的代理能力。 來自 DARK Lab 的團隊利用 NVIDIA NIM 簡化了詳盡的基準測試流程。在 DeepSeek-R1 NIM 發布時 ( 2025 年 2 月底) ,他們能夠使用 DeepSeek-R1,這是一個包含 671 億個參數的大型模型。

Source

]]>
13726
人人超碰97caoporen国产