Inference Performance – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 02 Jul 2025 07:31:43 +0000 zh-CN hourly 1 196178272 適用于有效 FP8 訓練的按張量和按塊擴展策略 http://www.open-lab.net/zh-cn/blog/per-tensor-and-per-block-scaling-strategies-for-effective-fp8-training/ Tue, 01 Jul 2025 04:50:56 +0000 http://www.open-lab.net/zh-cn/blog/?p=14493 Continued]]> 在本博文中,我們將分解主要的 FP8 縮放策略 (按張量縮放、延遲和電流縮放以及按塊縮放 (包括 Blackwell 支持的 MXFP8 格式)) ,并解釋為什么每個策略都對在低精度訓練期間保持數值穩定性和準確性至關重要。了解這些方法有助于為您自己的 FP8 工作流程選擇合適的方法。 本文將探討 FP8 訓練的實際情況,重點介紹 NVIDIA Nemotron 實驗。我們將探討為什么需要按張量和延遲擴展,以及它們在哪些方面有不足,以及高級方法 (例如按塊子通道擴展) 如何為大型模型實現穩定、高效的 FP8 訓練。 在上一篇博文中,我們介紹了 FP8 精度,并將其兩種主要格式 E4M3 和 E5M2 與更成熟的類型(如 BF16)進行了比較。 每張量縮放是一種基本的 FP8 策略,可為每個張量分配唯一的縮放系數(例如權重、激活函數或梯度),而不是使用單一的全局縮放。

Source

]]>
14493
在 NVIDIA Jetson 和 RTX 上運行 Google DeepMind 的 Gemma 3n http://www.open-lab.net/zh-cn/blog/run-google-deepminds-gemma-3n-on-nvidia-jetson-and-rtx/ Thu, 26 Jun 2025 04:14:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=14468 Continued]]> 截至今日,NVIDIA 現已支持在 NVIDIA RTX 和 Jetson 上全面推出 Gemma 3n。上個月,Google DeepMind 在 Google I/ O 上預覽了 Gemma,其中包括兩個針對多模態設備端部署優化的新模型。 除了 3.5 版本中引入的文本和視覺功能之外,Gemma 現在還包括音頻。每個組件都集成了可信研究模型:適用于音頻的通用語音模型、適用于視覺的 MobileNet v4 和適用于文本的 MatFormer。 最大的使用進步是一項名為“逐層嵌入”的創新。它可以顯著減少參數的 RAM 使用量。Gemma 3n E4B 模型具有 80 億個參數的原始參數計數,但可以使用與 4B 模型相當的動態內存占用來運行。這使開發者能夠在資源受限的環境中使用更高質量的模型。 Gemma 系列模型在 NVIDIA Jetson 設備上運行良好,

Source

]]>
14468
隆重推出 NVFP4,實現高效準確的低精度推理 http://www.open-lab.net/zh-cn/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/ Tue, 24 Jun 2025 04:38:52 +0000 http://www.open-lab.net/zh-cn/blog/?p=14487 Continued]]> 為了充分利用 AI,優化至關重要。當開發者考慮優化用于推理的 AI 模型時,通常會想到量化、蒸餾和剪枝等模型壓縮技術。毫無疑問,這三者中最常見的是量化。這通常是由于其特定于任務的優化后準確性性能以及受支持的框架和技術的廣泛選擇。 然而,模型量化的主要挑戰是模型智能或特定任務準確性的潛在損失,尤其是從 FP32 等更高精度的數據類型過渡到最新的 FP4 格式時。NVIDIA Blackwell 提供更高的靈活性,支持 FP64、FP32/TF32、FP16/BF16、INT8/FP8、FP6 和 FP4 數據格式。圖 1 比較了 NVIDIA Ampere、Hopper 和 Blackwell GPU 中受支持的最小浮點數據類型和相應的密集/稀疏性能,展示了各代 GPU 中性能和數據類型支持的演變情況。 最新的第五代 NVIDIA Blackwell Tensor Cores…

Source

]]>
14487
使用 FlashInfer 運行 NVIDIA 的高性能 LLM 推理內核 http://www.open-lab.net/zh-cn/blog/run-high-performance-llm-inference-kernels-from-nvidia-using-flashinfer/ Fri, 13 Jun 2025 07:42:42 +0000 http://www.open-lab.net/zh-cn/blog/?p=14248 Continued]]> 出色的 LLM 推理需要兩個關鍵要素:速度和開發者速度。速度是指通過使用高度優化的計算內核算法,最大限度地提高底層硬件的效率。開發者速度是指快速采用這些新內核并加速新模型、算法和硬件的能力。最終,這種速度的基礎是快速部署在底層 GPU 上運行的新計算內核,以及將這些內核輕松引入框架。 FlashInfer 是一個可定制的高效庫,用于構建高效的 LLM 服務引擎。它使用塊稀疏和可組合格式優化 KV 緩存存儲,以改善內存訪問并減少冗余,并具有可定制的注意力模板,可通過即時 (JIT) 編譯來適應各種設置。其負載平衡調度算法可根據動態用戶請求進行調整,同時保持與 NVIDIA CUDA Graph 靜態配置兼容。FlashInfer 已集成到領先的 LLM 服務框架 (例如 MLC Engine、SGLang 和 vLLM) 以及多個自定義引擎中。

Source

]]>
14248
使用 NVIDIA TensorRT for RTX 運行高性能 AI 應用 http://www.open-lab.net/zh-cn/blog/run-high-performance-ai-applications-with-nvidia-tensorrt-for-rtx/ Thu, 12 Jun 2025 08:01:12 +0000 http://www.open-lab.net/zh-cn/blog/?p=14261 Continued]]> NVIDIA TensorRT for RTX 現可作為 SDK 下載,該 SDK 可集成到 Windows 和 Linux 的 C++ 和 Python 應用中。在 Microsoft Build 上,我們推出了這款用于高性能 AI 推理的精簡解決方案,支持從 NVIDIA Turing 到 NVIDIA Blackwell 各代產品 (包括最新的 NVIDIA RTX PRO 系列) 的 NVIDIA GeForce RTX GPU。 此首個版本可為各種工作負載(包括卷積神經網絡(CNN)、語音模型和擴散模型)提供高性能推理。TensorRT for RTX 是創意、游戲和生產力應用的理想選擇。我們還有一個 GitHub 項目資源庫,其中包含入門 API 示例和演示,可幫助開發者快速入門。 TensorRT for RTX 基于 NVIDIA TensorRT…

Source

]]>
14261
NVIDIA GB200 NVL72 和 NVIDIA Dynamo 如何提升 MoE 模型的推理性能 http://www.open-lab.net/zh-cn/blog/how-nvidia-gb200-nvl72-and-nvidia-dynamo-boost-inference-performance-for-moe-models/ Fri, 06 Jun 2025 05:19:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=14403 Continued]]> 最新一批開源大語言模型 (LLMs) 采用了 Mixture of Experts (MoE) 架構,如 DeepSeek R1、Llama 4 和 Qwen3。與傳統的密集模型不同,MoE 在推理期間僅激活專門參數的子集 (稱為專家參數) 。這種選擇性激活可減少計算開銷,從而縮短推理時間并降低部署成本。 當與 NVIDIA Dynamo 的推理優化技術 (例如分解服務) 和 NVIDIA GB200 NVL72 的縱向擴展架構的大域相結合時,MoE 模型可以從復合效應中受益,從而將推理效率提升到新的水平。這種協同作用可以顯著增加 AI 工廠的利潤,使它們能夠在不犧牲用戶體驗的情況下,為每個 GPU 提供更多的用戶請求。 本博客借鑒了我們最近的研究成果,其中我們使用高保真數據中心級GPU性能模擬器評估了不同硬件配置中的數十萬個設計點。我們分析了分解和寬模型并行對MoE吞吐量的影響。

Source

]]>
14403
Blackwell 借助 Meta 的 Llama 4 Maverick 突破 1000 TPS/ 用戶門檻 http://www.open-lab.net/zh-cn/blog/blackwell-breaks-the-1000-tps-user-barrier-with-metas-llama-4-maverick/ Thu, 22 May 2025 06:09:52 +0000 http://www.open-lab.net/zh-cn/blog/?p=14069 Continued]]> NVIDIA 的大語言模型 (LLM) 推理速度創下了世界紀錄。在包含 400 億參數的 Llama 4 Maverick 模型 ( Llama 4 系列中可用的最大、最強大的模型) 上,配備 8 個 NVIDIA Blackwell GPU 的單個 NVIDIA DGX B200 節點可為每位用戶實現每秒 1,000 多個 token (TPS) 。這一速度由 AI 基準測試服務 Artificial Analysis 獨立衡量。 憑借這一記錄,Blackwell 在任何部署場景中都是 Llama 4 的理想硬件,無論是要更大限度地提高吞吐量,還是要更大限度地降低延遲。NVIDIA Blackwell 是第一個在此模型上突破 1,000 TPS/user 的里程碑的平臺,在我們的最高吞吐量配置下,它達到了 72,000 TPS/server。

Source

]]>
14069
NVIDIA Dynamo 加速 llm-d 社區計劃,推動大規模分布式推理 http://www.open-lab.net/zh-cn/blog/nvidia-dynamo-accelerates-llm-d-community-initiatives-for-advancing-large-scale-distributed-inference/ Wed, 21 May 2025 04:52:27 +0000 http://www.open-lab.net/zh-cn/blog/?p=13915 Continued]]> 在 Red Hat Summit 2025 上推出的 llm-d 社區標志著開源生態系統在加速生成式 AI 推理創新方面邁出了重要一步。llm-d 基于 vLLM 和 Inference Gateway 構建,通過 Kubernetes 原生架構擴展了 vLLM 的功能,從而實現大規模推理部署。 本文將介紹支持 llm-d 項目的關鍵 NVIDIA Dynamo 組件。 大規模分布式推理利用模型并行技術(例如 tensor、pipeline 和 expert parallelism),這些技術依賴于 internode 和 intranode、低延遲、高吞吐量的通信。它們還需要在 disaggregated serving 環境中,在預填充和解碼 GPU 工作者之間快速傳輸 KV 緩存。 為實現高吞吐量、低延遲的分布式和分解數據傳輸,llm-d 利用了 NVIDIA…

Source

]]>
13915
LLM 推理基準測試指南:NVIDIA GenAI-Perf 和 NIM http://www.open-lab.net/zh-cn/blog/llm-performance-benchmarking-measuring-nvidia-nim-performance-with-genai-perf/ Tue, 06 May 2025 06:45:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=13833 Continued]]> 這是 LLM 基準測試系列 的第二篇文章,介紹了在使用 NVIDIA NIM 部署 Meta Llama 3 模型 時,如何使用 GenAI-Perf 對其進行基準測試。 在構建基于 LLM 的應用時,了解這些模型在給定硬件上的性能特征至關重要。這有多種用途: 作為以客戶端 LLM 為中心的基準測試工具, NVIDIA GenAI-Perf 提供了以下關鍵指標: GenAI-Perf 還支持任何符合 OpenAI API 規范 (業內廣泛接受的默認標準)的 LLM 推理服務。 在本基準測試指南中,我們使用了 NVIDIA NIM ,這是一系列推理微服務,可為基礎 LLM 和微調 LLM 提供高吞吐量和低延遲推理。NIM 具有易用性、企業級安全性和可管理性。 為優化您的 AI 應用,本文將介紹如何為 Llama 3 設置 NIM 推理微服務,

Source

]]>
13833
使用 NVIDIA TensorRT 優化基于 Transformer 的擴散模型以生成視頻 http://www.open-lab.net/zh-cn/blog/optimizing-transformer-based-diffusion-models-for-video-generation-with-nvidia-tensorrt/ Mon, 21 Apr 2025 06:03:20 +0000 http://www.open-lab.net/zh-cn/blog/?p=13623 Continued]]> 先進的圖像擴散模型需要數十秒才能處理單張圖像。這使得視頻擴散更具挑戰性,需要大量計算資源和高昂成本。通過在搭載 NVIDIA TensorRT 的 NVIDIA Hopper GPU 上利用最新的 FP8 量化功能,可以顯著降低推理成本,并以更少的 GPU 為更多用戶提供服務。雖然量化擴散器的部署可能比較復雜,但 TensorRT 背后的完整生態系統可以幫助克服這些挑戰。 借助此方法,Adobe 將延遲降低了 60%,TCO 降低了近 40%,從而加快了推理速度并提高了響應速度。使用在由 Hopper GPU 加速的 Amazon Web Services (AWS) EC2 P5/P5en 上運行的 TensorRT 進行的優化部署,提高了可擴展性,以更少的 GPU 為更多用戶提供服務。 本文將探討為增強 Adobe Firefly 視頻生成模型的性能而實施的策略和優化,

Source

]]>
13623
NVIDIA Blackwell 在 MLPerf Inference v5.0 中實現巨大的性能飛躍 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-massive-performance-leaps-in-mlperf-inference-v5-0/ Wed, 02 Apr 2025 05:32:46 +0000 http://www.open-lab.net/zh-cn/blog/?p=13408 Continued]]> 在不斷增長的模型大小、實時延遲要求以及最近的 AI 推理的推動下, 大語言模型 (LLM) 推理的計算需求正在快速增長。與此同時,隨著 AI 采用率的增長, AI 工廠 能否為盡可能多的用戶提供服務,同時保持良好的每位用戶體驗,是更大限度地提高其價值的關鍵。要在最新模型上實現高推理吞吐量和低推理延遲,需要在涵蓋芯片、網絡系統和軟件的整個技術堆棧中表現出色。 MLPerf Inference v5.0 是長期運行的基準套件中的最新版本,可測量一系列不同模型和用例的推理吞吐量。于 2019 年首次推出的 MLPerf Inference 不斷更新新的模型和場景,以確保它仍然是衡量 AI 計算平臺推理性能的有用工具。 本輪測試新增三個新的基準測試: 這些新基準測試加入了涵蓋各種模型和用例的眾多返回基準測試:ResNet-50、RetinaNet、3D U-Net、DLRMv2、

Source

]]>
13408
借助 NVIDIA TensorRT-LLM 提升 Microsoft Azure AI Foundry 的 Llama 模型性能 http://www.open-lab.net/zh-cn/blog/boost-llama-model-performance-on-microsoft-azure-ai-foundry-with-nvidia-tensorrt-llm/ Thu, 20 Mar 2025 08:16:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=13245 Continued]]> 微軟與 NVIDIA 合作,宣布在其 Azure AI Foundry 平臺上實現 Meta Llama 系列模型的變革性性能提升。這些進步由 NVIDIA TensorRT-LLM 優化提供支持,在保持模型輸出質量的同時,顯著提高了吞吐量、降低了延遲并提高了成本效益。 通過這些改進,Azure AI Foundry 客戶可以實現顯著的吞吐量提升:在模型目錄中的無服務器部署 (Model-as-a-Service) 產品中,Llama 3.3 70B 和 Llama 3.1 70B 模型的吞吐量提高 45%,Llama 3.1 8B 模型的吞吐量提高 34%。 更快的令牌生成速度和更低的延遲使聊天機器人、虛擬助理和自動化客戶支持等實時應用程序的響應速度更快、效率更高。這轉化為更好的價格-性能比率,顯著降低了由 LLM 驅動的應用的每個 token 的成本。

Source

]]>
13245
隆重推出 NVIDIA Dynamo:用于擴展推理AI模型的低延遲分布式推理框架 http://www.open-lab.net/zh-cn/blog/introducing-nvidia-dynamo-a-low-latency-distributed-inference-framework-for-scaling-reasoning-ai-models/ Tue, 18 Mar 2025 05:47:45 +0000 http://www.open-lab.net/zh-cn/blog/?p=13330 Continued]]> NVIDIA 今天在 GTC 2025 宣布發布 NVIDIA Dynamo 。NVIDIA Dynamo 是一個高吞吐量、低延遲的開源推理服務框架,用于在大規模分布式環境中部署生成式 AI 和推理模型。在 NVIDIA Blackwell 上運行開源 DeepSeek-R1 模型時,該框架最多可將請求數量提升 30 倍。NVIDIA Dynamo 與 PyTorch、SGLang 等開源工具兼容, NVIDIA TensorRT-LLM 和 vLLM,加入不斷擴大的推理工具社區,助力開發者和 AI 研究人員加速 AI。 NVIDIA Dynamo 引入了幾項關鍵創新,包括: 從今天開始,NVIDIA Dynamo 可供開發者在 ai-dynamo/dynamo GitHub 存儲庫中使用。對于希望縮短生產時間并獲得企業級安全性、支持和穩定性的企業,

Source

]]>
13330
NVIDIA Blackwell 實現世界紀錄的 DeepSeek-R1 推理性能 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-world-record-deepseek-r1-inference-performance/ Tue, 18 Mar 2025 05:30:54 +0000 http://www.open-lab.net/zh-cn/blog/?p=13327 Continued]]> NVIDIA 在 NVIDIA GTC 2025 上宣布了創下世界紀錄的 DeepSeek-R1 推理性能 。 搭載 8 個 NVIDIA Blackwell GPU 的單個 NVIDIA DGX 系統 ,在具有 671 億個參數的先進大型 DeepSeek-R1 模型上,每個用戶每秒可實現超過 250 個 token,或每秒超過 30,000 個 token 的最大吞吐量。得益于 NVIDIA 開放生態系統的推理開發者工具的改進 (現已針對 NVIDIA Blackwell 架構進行優化) ,這些性能頻譜兩端的快速性能提升得以實現。 隨著 NVIDIA 平臺不斷突破最新 NVIDIA Blackwell Ultra GPU 和 NVIDIA Blackwell GPU 的推理極限,這些性能記錄將會得到改善。 單個 DGX B200 8-GPU 系統和單個 DGX…

Source

]]>
13327
使用 NVIDIA TensorRT-LLM 前瞻性解碼優化 Qwen2.5-Coder 吞吐量 http://www.open-lab.net/zh-cn/blog/optimizing-qwen2-5-coder-throughput-with-nvidia-tensorrt-llm-lookahead-decoding/ Fri, 14 Feb 2025 04:58:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=12977 Continued]]> 專注于編碼的 大語言模型(LLMs) 已穩步應用于開發者工作流程。從配對編程到自我改進的 AI 智能體 ,這些模型可幫助開發者完成各種任務,包括增強代碼、修復錯誤、生成測試和編寫文檔。 為促進開源 LLM 的開發,Qwen 團隊最近發布了 Qwen2.5-Coder,這是一系列先進的 LLM,用于跨熱門編程語言的代碼生成、推理和修復。本文將探討針對 NVIDIA TensorRT-LLM 支持 的 Qwen2.5-Coder 模型進行推理優化的優勢,以及借助 NVIDIA NIM 輕松部署以提升變革潛力和編碼效率的好處。 Qwen2.5-Coder 模型在熱門的學術基準測試中取得了出色的性能。 NVIDIA TensorRT-LLM 已對 Qwen2.5-Coder 系列的三種熱門模型 (1.5B、7B 和 32B 版本) 進行優化,以實現高吞吐量和低延遲。

Source

]]>
12977
人人超碰97caoporen国产