TensorRT-LLM – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 14 May 2025 08:30:55 +0000 zh-CN hourly 1 196178272 借助 NVIDIA 在生產應用中集成和部署 Tongyi Qwen3 模型 http://www.open-lab.net/zh-cn/blog/integrate-and-deploy-tongyi-qwen3-models-into-production-applications-with-nvidia/ Fri, 02 May 2025 01:00:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=13688 Continued]]> 阿里巴巴近期發布了其開源的混合推理大語言模型(LLM)通義千問 Qwen3,此次 Qwen3 開源模型系列包含兩款混合專家模型 (MoE) 235B-A22B(總參數 2,350 億,激活參數 220 億)和 30B-A3B,以及六款稠密(Dense)模型 0.6B、1.7B、4B、8B、14B、32B。 現在,開發者能夠基于 NVIDIA GPU,使用 NVIDIA TensorRT-LLM、Ollama、SGLang、vLLM 等推理框架高效集成和部署 Qwen3 模型,從而實現極快的詞元 (token) 生成,以及生產級別的應用研發。 本文提供使用 Qwen3 系列模型的最佳實踐,我們會展示如何使用上述框架來部署模型實現高效推理。開發者可以根據他們的應用場景需求來選擇合適的框架,例如高吞吐量、低延遲、或是 GPU 內存占用(GPU footprint)。

Source

]]>
13688
使用 NVIDIA NIM 對游戲進行代理式 LLM 和 VLM 推理基準測試 http://www.open-lab.net/zh-cn/blog/benchmarking-agentic-llm-and-vlm-reasoning-for-gaming-with-nvidia-nim/ Thu, 24 Apr 2025 04:08:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=13726 Continued]]> 這是 LLM 基準測試系列的第一篇文章,介紹了在使用 NVIDIA NIM 部署 Meta Llama 3 模型時,如何使用 GenAI-Perf 進行基準測試。 來自倫敦大學學院 (UCL) 決策、行動和推理知識 (DARK) 實驗室的研究人員在其全新的基于游戲的基準測試套件 Benchmarking Agentic LLM 和 VLM Reasoning On Games (BALROG) 中利用了 NVIDIA NIM 微服務。BALROG 經過專門設計,可使用各種游戲環境評估模型在具有挑戰性的長距交互式任務中的代理能力。 來自 DARK Lab 的團隊利用 NVIDIA NIM 簡化了詳盡的基準測試流程。在 DeepSeek-R1 NIM 發布時 ( 2025 年 2 月底) ,他們能夠使用 DeepSeek-R1,這是一個包含 671 億個參數的大型模型。

Source

]]>
13726
NVIDIA 加速推理 Meta Llama 4 Scout 與 Maverick 模型 http://www.open-lab.net/zh-cn/blog/nvidia-accelerates-inference-on-meta-llama-4-scout-and-maverick/ Sat, 05 Apr 2025 06:37:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=13527 Continued]]> 最新一代熱門 Llama AI 模型現已支持 Llama 4 Scout 和 Llama 4 Maverick。它們由 NVIDIA 開源軟件加速,在 NVIDIA Blackwell B200 GPU 上每秒可實現超過 40K 輸出 token,并可作為 NVIDIA NIM 微服務 進行試用。 Llama 4 模型現在采用混合專家 (MoE) 架構,原生支持多模態和多語言。Llama 4 模型提供各種多模態功能,推動規模、速度和效率的提升,使您能夠打造更加個性化的體驗。 Llama 4 Scout 是一個 109B 參數模型,每個令牌活躍 17B,由 16 位專家組成,擁有 10M 上下文長度的窗口,并針對單個 NVIDIA H100 GPU 優化和量化為 int4。這支持各種用例,包括多文檔摘要、解析大量用戶活動以執行個性化任務,以及對大量代碼庫進行推理。

Source

]]>
13527
LLM 基準測試:基本概念 http://www.open-lab.net/zh-cn/blog/llm-benchmarking-fundamental-concepts/ Wed, 02 Apr 2025 08:02:10 +0000 http://www.open-lab.net/zh-cn/blog/?p=13428 Continued]]> 在過去幾年中,作為廣泛的 AI 革命的一部分, 生成式 AI 和 大語言模型 (LLMs) 越來越受歡迎。隨著基于 LLMs 的應用在各個企業中的推廣,我們需要確定不同 AI 服務解決方案的成本效益。部署 LLM 應用的成本取決于它每秒可以處理的查詢數量,同時響應最終用戶并支持可接受的響應準確度。本文特別關注 LLMs 吞吐量和延遲測量,以評估 LLM 應用成本。 NVIDIA 為開發者提供涵蓋芯片、系統和軟件的全棧創新。NVIDIA 推理軟件堆棧包括 NVIDIA Dynamo 、 NVIDIA TensorRT-LLM 和 NVIDIA NIM 微服務。為支持開發者實現基準測試推理性能,NVIDIA 還提供了開源生成式 AI 基準測試工具 GenAI-Perf 。詳細了解如何 使用 GenAI-Perf 進行基準測試 。 可以使用各種工具來評估 LLMs 的性能。

Source

]]>
13428
NVIDIA Blackwell 在 MLPerf Inference v5.0 中實現巨大的性能飛躍 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-massive-performance-leaps-in-mlperf-inference-v5-0/ Wed, 02 Apr 2025 05:32:46 +0000 http://www.open-lab.net/zh-cn/blog/?p=13408 Continued]]> 在不斷增長的模型大小、實時延遲要求以及最近的 AI 推理的推動下, 大語言模型 (LLM) 推理的計算需求正在快速增長。與此同時,隨著 AI 采用率的增長, AI 工廠 能否為盡可能多的用戶提供服務,同時保持良好的每位用戶體驗,是更大限度地提高其價值的關鍵。要在最新模型上實現高推理吞吐量和低推理延遲,需要在涵蓋芯片、網絡系統和軟件的整個技術堆棧中表現出色。 MLPerf Inference v5.0 是長期運行的基準套件中的最新版本,可測量一系列不同模型和用例的推理吞吐量。于 2019 年首次推出的 MLPerf Inference 不斷更新新的模型和場景,以確保它仍然是衡量 AI 計算平臺推理性能的有用工具。 本輪測試新增三個新的基準測試: 這些新基準測試加入了涵蓋各種模型和用例的眾多返回基準測試:ResNet-50、RetinaNet、3D U-Net、DLRMv2、

Source

]]>
13408
借助 NVIDIA TensorRT-LLM 提升 Microsoft Azure AI Foundry 的 Llama 模型性能 http://www.open-lab.net/zh-cn/blog/boost-llama-model-performance-on-microsoft-azure-ai-foundry-with-nvidia-tensorrt-llm/ Thu, 20 Mar 2025 08:16:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=13245 Continued]]> 微軟與 NVIDIA 合作,宣布在其 Azure AI Foundry 平臺上實現 Meta Llama 系列模型的變革性性能提升。這些進步由 NVIDIA TensorRT-LLM 優化提供支持,在保持模型輸出質量的同時,顯著提高了吞吐量、降低了延遲并提高了成本效益。 通過這些改進,Azure AI Foundry 客戶可以實現顯著的吞吐量提升:在模型目錄中的無服務器部署 (Model-as-a-Service) 產品中,Llama 3.3 70B 和 Llama 3.1 70B 模型的吞吐量提高 45%,Llama 3.1 8B 模型的吞吐量提高 34%。 更快的令牌生成速度和更低的延遲使聊天機器人、虛擬助理和自動化客戶支持等實時應用程序的響應速度更快、效率更高。這轉化為更好的價格-性能比率,顯著降低了由 LLM 驅動的應用的每個 token 的成本。

Source

]]>
13245
NVIDIA Blackwell 實現世界紀錄的 DeepSeek-R1 推理性能 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-world-record-deepseek-r1-inference-performance/ Tue, 18 Mar 2025 05:30:54 +0000 http://www.open-lab.net/zh-cn/blog/?p=13327 Continued]]> NVIDIA 在 NVIDIA GTC 2025 上宣布了創下世界紀錄的 DeepSeek-R1 推理性能 。 搭載 8 個 NVIDIA Blackwell GPU 的單個 NVIDIA DGX 系統 ,在具有 671 億個參數的先進大型 DeepSeek-R1 模型上,每個用戶每秒可實現超過 250 個 token,或每秒超過 30,000 個 token 的最大吞吐量。得益于 NVIDIA 開放生態系統的推理開發者工具的改進 (現已針對 NVIDIA Blackwell 架構進行優化) ,這些性能頻譜兩端的快速性能提升得以實現。 隨著 NVIDIA 平臺不斷突破最新 NVIDIA Blackwell Ultra GPU 和 NVIDIA Blackwell GPU 的推理極限,這些性能記錄將會得到改善。 單個 DGX B200 8-GPU 系統和單個 DGX…

Source

]]>
13327
聚焦:NAVER Place 利用 NVIDIA TensorRT-LLM 優化 SLM 基礎的垂直服務 http://www.open-lab.net/zh-cn/blog/spotlight-naver-place-optimizes-slm-based-vertical-services-with-nvidia-tensorrt-llm/ Fri, 28 Feb 2025 06:40:09 +0000 http://www.open-lab.net/zh-cn/blog/?p=13155 Continued]]> NAVER 是一家韓國熱門搜索引擎公司,提供 Naver Place ,這是一項基于地理的服務,可提供有關韓國數百萬家企業和興趣點的詳細信息。用戶可以搜索不同的地點、發表評論,以及實時進行預訂或下單。 NAVER Place 垂直服務基于小語言模型 (SLMs) 來提高可用性,并專門針對 Place、Map 和 Travel。本文分享了 NVIDIA 和 NAVER 如何使用 NVIDIA TensorRT-LLM 優化 SLM 推理性能,從而在 NVIDIA Triton Inference Server 上實現基于 SLM 的垂直服務。如需詳細了解 NAVER 如何使用 AI,請參閱 NAVER Place AI 開發團隊簡介 。 與 大語言模型(LLMs) 相比,小語言模型(SLMs)是能夠以更少的參數理解自然語言的 AI 模型。眾所周知,

Source

]]>
13155
使用 NVIDIA TensorRT-LLM 前瞻性解碼優化 Qwen2.5-Coder 吞吐量 http://www.open-lab.net/zh-cn/blog/optimizing-qwen2-5-coder-throughput-with-nvidia-tensorrt-llm-lookahead-decoding/ Fri, 14 Feb 2025 04:58:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=12977 Continued]]> 專注于編碼的 大語言模型(LLMs) 已穩步應用于開發者工作流程。從配對編程到自我改進的 AI 智能體 ,這些模型可幫助開發者完成各種任務,包括增強代碼、修復錯誤、生成測試和編寫文檔。 為促進開源 LLM 的開發,Qwen 團隊最近發布了 Qwen2.5-Coder,這是一系列先進的 LLM,用于跨熱門編程語言的代碼生成、推理和修復。本文將探討針對 NVIDIA TensorRT-LLM 支持 的 Qwen2.5-Coder 模型進行推理優化的優勢,以及借助 NVIDIA NIM 輕松部署以提升變革潛力和編碼效率的好處。 Qwen2.5-Coder 模型在熱門的學術基準測試中取得了出色的性能。 NVIDIA TensorRT-LLM 已對 Qwen2.5-Coder 系列的三種熱門模型 (1.5B、7B 和 32B 版本) 進行優化,以實現高吞吐量和低延遲。

Source

]]>
12977
利用特定領域的微調和 NVIDIA NIM 提高翻譯質量 http://www.open-lab.net/zh-cn/blog/improving-translation-quality-with-domain-specific-fine-tuning-and-nvidia-nim/ Wed, 05 Feb 2025 04:30:55 +0000 http://www.open-lab.net/zh-cn/blog/?p=12871 Continued]]> 翻譯在助力公司實現跨國業務擴展方面發揮著至關重要的作用,在語調、準確性和技術術語處理方面的要求差異很大。 主權 AI 的出現凸顯了 大語言模型(LLM) 面臨的嚴峻挑戰,尤其是他們難以捕捉英語主導框架之外的細微文化和語言背景。隨著全球通信變得日益復雜,組織必須仔細評估翻譯解決方案,以平衡技術效率與文化敏感性和語言準確性。 在本文中,我們將探討 LLMs 如何解決以下兩種截然不同的英語到繁體中文翻譯用例: 這些用例需要采用常規翻譯以外的專門方法。雖然 使用指令調整 LLMs 進行提示工程 可以處理某些情境,但此類更精細的任務通常無法達到預期效果。因此,在針對每個翻譯環境收集的特定數據集上單獨微調 Low-Rank Adaptation(LoRA)適配器變得至關重要。 在此項目中,我們將使用 Llama 3.1 8B Instruct 作為預訓練模型,

Source

]]>
12871
在 NVIDIA TensorRT-LLM 中引入新型 KV 緩存重用優化策略 http://www.open-lab.net/zh-cn/blog/introducing-new-kv-cache-reuse-optimizations-in-nvidia-tensorrt-llm/ Thu, 16 Jan 2025 06:08:15 +0000 http://www.open-lab.net/zh-cn/blog/?p=12687 Continued]]> 語言模型通過預測下一個令牌 (給定所有先前的令牌,包括輸入文本令牌) 來生成文本。在 LLM 服務中,先前令牌的鍵和值元素用作歷史語境,用于生成下一組令牌。從先前的 token 中緩存這些關鍵和值元素可以避免昂貴的重新計算,并有效地提高吞吐量。但是,鍵值 (KV) 緩存會隨著語言模型的大小、批處理請求的數量和序列上下文長度呈線性增長,從而導致內存需求不斷增長。 NVIDIA TensorRT-LLM 可提供多種 KV 緩存優化,以在顯存大小增長與避免昂貴的重新計算之間實現具有挑戰性的平衡。TensorRT-LLM 是一個開源庫,可為 NVIDIA GPUs 上的眾多熱門大語言模型 ( LLMs ) 提供先進的推理支持。TensorRT-LLM KV 緩存包括多項優化,例如支持分頁 KV 緩存、量化 KV 緩存、循環緩沖區 KV 緩存和 KV 緩存重復使用 。 在本文中,

Source

]]>
12687
提升 AI 性能的 GPU 內存基礎知識 http://www.open-lab.net/zh-cn/blog/gpu-memory-essentials-for-ai-performance/ Wed, 15 Jan 2025 06:45:46 +0000 http://www.open-lab.net/zh-cn/blog/?p=12709 Continued]]> 生成式 AI 徹底改變了人們將想法變為現實的方式,而代理 AI 代表著這一技術變革的下一次飛躍。通過利用復雜的自主推理和迭代規劃,AI 智能體可以非常高效地處理復雜的多步驟問題。 隨著 AI 不斷革新各行各業,對在本地運行 AI 模型的需求激增。無論是開發 AI 還是使用 AI,在本地運行 AI 模型都具有許多優勢,包括增強隱私、降低延遲以及離線工作的能力。 本地 AI 正在改變組織的 AI 開發和部署方式。通過在本地處理數據,開發者能夠繼續進行 AI 實驗和原型設計,而無需付出持續使用云的代價。本地 AI 成為創新和原型的測試平臺,可實現快速迭代和想法測試。與此同時,云基礎架構和數據中心可處理更密集的工作負載和大規模部署。 在本地運行 AI 模型還可滿足某些行業特定用例的獨特需求。在醫療健康領域,它可以實現安全的患者數據分析和快速診斷。

Source

]]>
12709
借助 NVIDIA 全棧解決方案提升 AI 推理性能 http://www.open-lab.net/zh-cn/blog/optimize-ai-inference-performance-with-nvidia-full-stack-solutions/ Tue, 24 Dec 2024 05:43:02 +0000 http://www.open-lab.net/zh-cn/blog/?p=12923 Continued]]> AI 驅動的應用的爆炸式發展對開發者提出了前所未有的要求,他們必須在提供先進的性能與管理運營復雜性和成本以及 AI 基礎設施之間取得平衡。 NVIDIA 正在為開發者提供涵蓋芯片、系統和軟件的全棧創新,重新定義 AI 推理 的可能性,使其比以往更快、更高效、更具可擴展性。 六年前,NVIDIA 著手打造 AI 推理服務器,專為構建高吞吐量、延遲關鍵型生產應用的開發者而設計。當時,許多開發者都在努力使用定制的、特定于框架的服務器,這些服務器增加了復雜性,增加了運營成本,并且難以滿足嚴格的服務水平協議(service-level agreements)關于延遲和吞吐量的要求。 為解決這一問題,NVIDIA 開發了 NVIDIA Triton Inference Server ,這是一個開源平臺,能夠為來自任何 AI 框架的模型提供服務。通過整合特定于框架的推理服務器,

Source

]]>
12923
NVIDIA?TensorRT-LLM?現支持?Recurrent Drafting,實現?LLM?推理優化 http://www.open-lab.net/zh-cn/blog/nvidia-tensorrt-llm-now-supports-recurrent-drafting-for-optimizing-llm-inference/ Wed, 18 Dec 2024 08:20:20 +0000 http://www.open-lab.net/zh-cn/blog/?p=12404 Continued]]> Recurrent Drafting (簡稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發并開源的一種新型推測解碼技術,該技術現在可與 NVIDIA TensorRT-LLM 一起使用。ReDrafter 幫助開發者大幅提升了 NVIDIA GPU 上的 LLM 工作負載性能。NVIDIA TensorRT-LLM 是一個 LLM 推理優化庫,提供了一個易于使用的 Python API 來定義 LLM 和構建 NVIDIA TensorRT 引擎,這些引擎具有頂尖的優化功能,可在 GPU 上高效執行推理。優化功能包括自定義 Attention Kernel、Inflight Batching、Paged KV Caching、量化技術 (FP8、INT4 AWQ、INT8 SmoothQuant) 等。 推測解碼 (Speculative decoding)…

Source

]]>
12404
借助 NVIDIA TensorRT-LLM 預測解碼,將 Llama 3.3 的推理吞吐量提升 3 倍 http://www.open-lab.net/zh-cn/blog/boost-llama-3-3-70b-inference-throughput-3x-with-nvidia-tensorrt-llm-speculative-decoding/ Tue, 17 Dec 2024 04:36:12 +0000 http://www.open-lab.net/zh-cn/blog/?p=12513 Continued]]> 隨著近期新增的 Llama 3.3 70B (一種純文本指令調整模型),Meta 的開放 大語言模型 (LLMs) 集合將繼續增長。Llama 3.3 相對于較舊的 Llama 3.1 70B 模型提供了增強的性能,甚至可以在數學、推理、編碼和多語種支持等多項任務中匹配更大、計算成本更高的 Llama 3.1 405B 模型的功能。 NVIDIA TensorRT-LLM 是一款功能強大的推理引擎,可在最新的 LLM 上提供先進的性能,并整合了許多優化措施,可提供出色的 Llama 3.3 70B 推理吞吐量。其中包括在飛批處理、 KV 緩存 、 自定義 FP8 量化 、推測解碼等,可實現快速、經濟高效的 LLM 服務。 動態批處理默認作為運行時配置參數激活,TensorRT-LLM 支持同時批處理多個不同的請求,從而提高服務吞吐量。通過在上下文和生成階段交錯處理請求,

Source

]]>
12513
人人超碰97caoporen国产