TensorRT – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 22 May 2025 07:49:58 +0000
zh-CN
hourly
1
196178272 -
NVIDIA TensorRT for RTX 在 Windows 11 上推出優化的推理 AI 庫
http://www.open-lab.net/zh-cn/blog/nvidia-tensorrt-for-rtx-introduces-an-optimized-inference-ai-library-on-windows/
Mon, 19 May 2025 05:35:42 +0000
http://www.open-lab.net/zh-cn/blog/?p=13929
Continued]]>
在 Windows 上,創意、游戲和生產力應用方面的 AI 體驗正在迅速擴展。有各種框架可用于在臺式機、筆記本電腦或工作站上本地加速這些應用中的 AI 推理。開發者需要適應廣泛的生態系統。他們必須在特定于硬件的庫或跨供應商框架 (如 DirectML) 之間進行選擇,以實現最高性能。DirectML 可簡化 CPU、GPU 和 NPU 之間的部署,但并不總是充分發揮每個設備的潛力。在性能和兼容性之間取得適當平衡對于開發者至關重要。 今天,我們宣布推出適用于 RTX 的 NVIDIA TensorRT ,以應對這些挑戰。它作為 Windows ML 的一部分在 Windows 11 上提供,Windows ML 是 Microsoft 在 Microsoft Build 上新發布的 AI 推理框架 。它們共同通過標準化 API 為開發者提供經 NVIDIA 優化的加速,
Source
]]>
13929
-
聚焦:Perfect Corp. 利用 NVIDIA TensorRT 和 NVENC 實現個性化的數字化美妝體驗
http://www.open-lab.net/zh-cn/blog/spotlight-perfect-corp-delivers-personalized-digital-beauty-experiences-using-nvidia-tensorrt-and-nvenc/
Sun, 18 May 2025 06:00:34 +0000
http://www.open-lab.net/zh-cn/blog/?p=13938
Continued]]>
增強現實 (AR) 和 AI 通過提供從虛擬試用到 AI 驅動的造型推薦等超個性化體驗,正在徹底改變美妝和時尚行業。這些創新解決了一個長期難題:彌合數字購物與店內體驗之間的差距。它們可以幫助消費者做出自信的購買決策,而無需親自嘗試產品。 實現這種逼真程度帶來了諸多挑戰,例如確保逼真的色彩表現、適應不同的膚色以及提供無縫的實時性能。這需要在 GPU 加速和 AI 驅動的計算機視覺、深度學習和 AR 渲染方面取得進步。 Perfect Corp. 是一家領先的 AI 和 AR 美妝與時尚技術解決方案 SaaS 提供商,借助 NVIDIA 技術使這一切成為可能。這家成立于臺灣、在紐約證券交易所上市的公司榮獲了 40 多個行業獎項,在全球擁有超過 1 billion 次應用程序下載量,使消費者能夠輕松地在虛擬環境中試用產品。其創新的 AI 和 AR 服務受到 650…
Source
]]>
13938
-
NVIDIA TensorRT 解鎖 NVIDIA Blackwell GeForce RTX 50 系列 GPU 的 FP4 圖像生成
http://www.open-lab.net/zh-cn/blog/nvidia-tensorrt-unlocks-fp4-image-generation-for-nvidia-blackwell-geforce-rtx-50-series-gpus/
Wed, 14 May 2025 07:41:19 +0000
http://www.open-lab.net/zh-cn/blog/?p=13997
Continued]]>
NVIDIA Blackwell 平臺的推出開啟了生成式 AI 技術進步的新時代。其最前沿是新推出的 GeForce RTX 50 系列 GPU,適用于 PC 和工作站,配備具有 4 位浮點計算 (FP4) 的第五代 Tensor Cores,是加速 Black Forest Labs 的 FLUX 等高級生成式 AI 模型的必備。 隨著新的圖像生成模型力求達到速度、準確性、更高分辨率和復雜的提示依從性,它們變得越來越大、越來越復雜。要在 PC 和工作站的本地推理中部署這些大型復雜模型,超越 16 位和 8 位計算的優勢在于。 Blackwell 與 NVIDIA TensorRT 推理工具軟件生態系統相結合,可提供易于使用的庫,這些庫支持用于推理的 FP4 量化和部署,具有出色的性能和質量。 實現這一目標并非易事。為了利用 Blackwell 中的 4 位硬件創新,
Source
]]>
13997
-
使用 NVIDIA NIM 對游戲進行代理式 LLM 和 VLM 推理基準測試
http://www.open-lab.net/zh-cn/blog/benchmarking-agentic-llm-and-vlm-reasoning-for-gaming-with-nvidia-nim/
Thu, 24 Apr 2025 04:08:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=13726
Continued]]>
這是 LLM 基準測試系列的第一篇文章,介紹了在使用 NVIDIA NIM 部署 Meta Llama 3 模型時,如何使用 GenAI-Perf 進行基準測試。 來自倫敦大學學院 (UCL) 決策、行動和推理知識 (DARK) 實驗室的研究人員在其全新的基于游戲的基準測試套件 Benchmarking Agentic LLM 和 VLM Reasoning On Games (BALROG) 中利用了 NVIDIA NIM 微服務。BALROG 經過專門設計,可使用各種游戲環境評估模型在具有挑戰性的長距交互式任務中的代理能力。 來自 DARK Lab 的團隊利用 NVIDIA NIM 簡化了詳盡的基準測試流程。在 DeepSeek-R1 NIM 發布時 ( 2025 年 2 月底) ,他們能夠使用 DeepSeek-R1,這是一個包含 671 億個參數的大型模型。
Source
]]>
13726
-
使用 NVIDIA TensorRT 優化基于 Transformer 的擴散模型以生成視頻
http://www.open-lab.net/zh-cn/blog/optimizing-transformer-based-diffusion-models-for-video-generation-with-nvidia-tensorrt/
Mon, 21 Apr 2025 06:03:20 +0000
http://www.open-lab.net/zh-cn/blog/?p=13623
Continued]]>
先進的圖像擴散模型需要數十秒才能處理單張圖像。這使得視頻擴散更具挑戰性,需要大量計算資源和高昂成本。通過在搭載 NVIDIA TensorRT 的 NVIDIA Hopper GPU 上利用最新的 FP8 量化功能,可以顯著降低推理成本,并以更少的 GPU 為更多用戶提供服務。雖然量化擴散器的部署可能比較復雜,但 TensorRT 背后的完整生態系統可以幫助克服這些挑戰。 借助此方法,Adobe 將延遲降低了 60%,TCO 降低了近 40%,從而加快了推理速度并提高了響應速度。使用在由 Hopper GPU 加速的 Amazon Web Services (AWS) EC2 P5/P5en 上運行的 TensorRT 進行的優化部署,提高了可擴展性,以更少的 GPU 為更多用戶提供服務。 本文將探討為增強 Adobe Firefly 視頻生成模型的性能而實施的策略和優化,
Source
]]>
13623
-
NVIDIA 加速推理 Meta Llama 4 Scout 與 Maverick 模型
http://www.open-lab.net/zh-cn/blog/nvidia-accelerates-inference-on-meta-llama-4-scout-and-maverick/
Sat, 05 Apr 2025 06:37:58 +0000
http://www.open-lab.net/zh-cn/blog/?p=13527
Continued]]>
最新一代熱門 Llama AI 模型現已支持 Llama 4 Scout 和 Llama 4 Maverick。它們由 NVIDIA 開源軟件加速,在 NVIDIA Blackwell B200 GPU 上每秒可實現超過 40K 輸出 token,并可作為 NVIDIA NIM 微服務 進行試用。 Llama 4 模型現在采用混合專家 (MoE) 架構,原生支持多模態和多語言。Llama 4 模型提供各種多模態功能,推動規模、速度和效率的提升,使您能夠打造更加個性化的體驗。 Llama 4 Scout 是一個 109B 參數模型,每個令牌活躍 17B,由 16 位專家組成,擁有 10M 上下文長度的窗口,并針對單個 NVIDIA H100 GPU 優化和量化為 int4。這支持各種用例,包括多文檔摘要、解析大量用戶活動以執行個性化任務,以及對大量代碼庫進行推理。
Source
]]>
13527
-
NVIDIA Blackwell 在 MLPerf Inference v5.0 中實現巨大的性能飛躍
http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-massive-performance-leaps-in-mlperf-inference-v5-0/
Wed, 02 Apr 2025 05:32:46 +0000
http://www.open-lab.net/zh-cn/blog/?p=13408
Continued]]>
在不斷增長的模型大小、實時延遲要求以及最近的 AI 推理的推動下, 大語言模型 (LLM) 推理的計算需求正在快速增長。與此同時,隨著 AI 采用率的增長, AI 工廠 能否為盡可能多的用戶提供服務,同時保持良好的每位用戶體驗,是更大限度地提高其價值的關鍵。要在最新模型上實現高推理吞吐量和低推理延遲,需要在涵蓋芯片、網絡系統和軟件的整個技術堆棧中表現出色。 MLPerf Inference v5.0 是長期運行的基準套件中的最新版本,可測量一系列不同模型和用例的推理吞吐量。于 2019 年首次推出的 MLPerf Inference 不斷更新新的模型和場景,以確保它仍然是衡量 AI 計算平臺推理性能的有用工具。 本輪測試新增三個新的基準測試: 這些新基準測試加入了涵蓋各種模型和用例的眾多返回基準測試:ResNet-50、RetinaNet、3D U-Net、DLRMv2、
Source
]]>
13408
-
NVIDIA Blackwell 實現世界紀錄的 DeepSeek-R1 推理性能
http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-world-record-deepseek-r1-inference-performance/
Tue, 18 Mar 2025 05:30:54 +0000
http://www.open-lab.net/zh-cn/blog/?p=13327
Continued]]>
NVIDIA 在 NVIDIA GTC 2025 上宣布了創下世界紀錄的 DeepSeek-R1 推理性能 。 搭載 8 個 NVIDIA Blackwell GPU 的單個 NVIDIA DGX 系統 ,在具有 671 億個參數的先進大型 DeepSeek-R1 模型上,每個用戶每秒可實現超過 250 個 token,或每秒超過 30,000 個 token 的最大吞吐量。得益于 NVIDIA 開放生態系統的推理開發者工具的改進 (現已針對 NVIDIA Blackwell 架構進行優化) ,這些性能頻譜兩端的快速性能提升得以實現。 隨著 NVIDIA 平臺不斷突破最新 NVIDIA Blackwell Ultra GPU 和 NVIDIA Blackwell GPU 的推理極限,這些性能記錄將會得到改善。 單個 DGX B200 8-GPU 系統和單個 DGX…
Source
]]>
13327
-
借助 NVIDIA DGX 云無服務器推理在云環境中無縫擴展人工智能
http://www.open-lab.net/zh-cn/blog/seamlessly-scale-ai-across-cloud-environments-with-nvidia-dgx-cloud-serverless-inference/
Tue, 18 Mar 2025 02:07:41 +0000
http://www.open-lab.net/zh-cn/blog/?p=13272
Continued]]>
NVIDIA DGX Cloud Serverless Inference 是一種自動擴展 AI 推理解決方案,可實現快速可靠的應用部署。 DGX Cloud Serverless Inference 由 NVIDIA Cloud Functions (NVCF) 提供支持,可在多云和本地環境中提取多集群基礎設施設置,以處理 GPU 加速的工作負載。 無論是管理 AI 工作負載、高性能計算 (HPC) 、AI 模擬,還是容器化應用程序,該平臺都能讓您在抽象底層基礎設施的同時進行全球擴展。一次部署,隨處擴展。 獨立軟件供應商 (ISV) 在部署和擴展 AI 應用時經常面臨挑戰。這些應用程序需要在全球范圍內或更接近客戶基礎設施所在的位置進行部署。這可能需要在多個云、數據中心和地理區域進行部署,從而導致復雜的基礎設施運營。Serverless AI 推理通過在云、
Source
]]>
13272
-
借助 NVIDIA DriveOS LLM SDK 簡化自動駕駛汽車應用的 LLM 部署
http://www.open-lab.net/zh-cn/blog/streamline-llm-deployment-for-autonomous-vehicle-applications-with-nvidia-driveos-llm-sdk/
Mon, 10 Mar 2025 06:57:15 +0000
http://www.open-lab.net/zh-cn/blog/?p=13098
Continued]]>
大語言模型 (LLMs) 在自然語言處理 (NLP) 中表現出非凡的泛化能力。它們廣泛應用于翻譯、數字助理、推薦系統、上下文分析、代碼生成、網絡安全等。汽車應用對基于 LLMs 的自動駕駛和座艙功能解決方案的需求與日俱增。在通常資源受限的汽車平臺上部署 LLMs 和 視覺語言模型 (VLMs) 已成為一項嚴峻的挑戰。 本文將介紹 NVIDIA DriveOS LLM SDK,該庫旨在優化自動駕駛汽車 DRIVE AGX 平臺 上先進 LLM 和 VLM 的推理。它是基于 NVIDIA TensorRT 推理引擎構建的輕量級工具包。它整合了針對 LLM 的特定優化,例如自定義注意力內核和量化技術,以便在汽車平臺上部署 LLM。 該工具包提供易于使用的 C++ 庫和示例代碼,用于導出、構建 TensorRT 引擎、執行推理,以及使用完整的端到端工作流對 LLM 進行基準測試。
Source
]]>
13098
-
聚焦:NAVER Place 利用 NVIDIA TensorRT-LLM 優化 SLM 基礎的垂直服務
http://www.open-lab.net/zh-cn/blog/spotlight-naver-place-optimizes-slm-based-vertical-services-with-nvidia-tensorrt-llm/
Fri, 28 Feb 2025 06:40:09 +0000
http://www.open-lab.net/zh-cn/blog/?p=13155
Continued]]>
NAVER 是一家韓國熱門搜索引擎公司,提供 Naver Place ,這是一項基于地理的服務,可提供有關韓國數百萬家企業和興趣點的詳細信息。用戶可以搜索不同的地點、發表評論,以及實時進行預訂或下單。 NAVER Place 垂直服務基于小語言模型 (SLMs) 來提高可用性,并專門針對 Place、Map 和 Travel。本文分享了 NVIDIA 和 NAVER 如何使用 NVIDIA TensorRT-LLM 優化 SLM 推理性能,從而在 NVIDIA Triton Inference Server 上實現基于 SLM 的垂直服務。如需詳細了解 NAVER 如何使用 AI,請參閱 NAVER Place AI 開發團隊簡介 。 與 大語言模型(LLMs) 相比,小語言模型(SLMs)是能夠以更少的參數理解自然語言的 AI 模型。眾所周知,
Source
]]>
13155
-
為 NVIDIA Blackwell GeForce RTX 50 系列 GPU 發布全新 AI SDK 和工具
http://www.open-lab.net/zh-cn/blog/new-ai-sdks-and-tools-released-for-nvidia-blackwell-geforce-rtx-50-series-gpus/
Thu, 30 Jan 2025 05:23:17 +0000
http://www.open-lab.net/zh-cn/blog/?p=12907
Continued]]>
NVIDIA 最近宣布推出 新一代 PC GPU – GeForce RTX 50 系列 ,以及面向開發者的全新 AI 賦能 SDK 和工具。GeForce RTX 50 系列由 NVIDIA Blackwell 架構 、第五代 Tensor Cores 和第四代 RT Cores 提供動力支持,在神經著色器、數字人技術、幾何圖形和照明等 AI 驅動渲染方面實現了突破。 今天,NVIDIA 發布了第一波適用于 GeForce RTX 50 Series GPUs 的 SDK。作為開發者,您可以開始將這些更新集成到您的應用中,以確保與 NVIDIA Blackwell RTX GPUs 的軟件兼容性和最佳性能,并展示 GeForce RTX 50 Series GPUs 的新功能。 本文詳細介紹了新的和更新的 SDK,這些 SDK 可助力開發者充分利用 NVIDIA…
Source
]]>
12907
-
借助 NVIDIA 全棧解決方案提升 AI 推理性能
http://www.open-lab.net/zh-cn/blog/optimize-ai-inference-performance-with-nvidia-full-stack-solutions/
Tue, 24 Dec 2024 05:43:02 +0000
http://www.open-lab.net/zh-cn/blog/?p=12923
Continued]]>
AI 驅動的應用的爆炸式發展對開發者提出了前所未有的要求,他們必須在提供先進的性能與管理運營復雜性和成本以及 AI 基礎設施之間取得平衡。 NVIDIA 正在為開發者提供涵蓋芯片、系統和軟件的全棧創新,重新定義 AI 推理 的可能性,使其比以往更快、更高效、更具可擴展性。 六年前,NVIDIA 著手打造 AI 推理服務器,專為構建高吞吐量、延遲關鍵型生產應用的開發者而設計。當時,許多開發者都在努力使用定制的、特定于框架的服務器,這些服務器增加了復雜性,增加了運營成本,并且難以滿足嚴格的服務水平協議(service-level agreements)關于延遲和吞吐量的要求。 為解決這一問題,NVIDIA 開發了 NVIDIA Triton Inference Server ,這是一個開源平臺,能夠為來自任何 AI 框架的模型提供服務。通過整合特定于框架的推理服務器,
Source
]]>
12923
-
NVIDIA?TensorRT-LLM?現支持?Recurrent Drafting,實現?LLM?推理優化
http://www.open-lab.net/zh-cn/blog/nvidia-tensorrt-llm-now-supports-recurrent-drafting-for-optimizing-llm-inference/
Wed, 18 Dec 2024 08:20:20 +0000
http://www.open-lab.net/zh-cn/blog/?p=12404
Continued]]>
Recurrent Drafting (簡稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發并開源的一種新型推測解碼技術,該技術現在可與 NVIDIA TensorRT-LLM 一起使用。ReDrafter 幫助開發者大幅提升了 NVIDIA GPU 上的 LLM 工作負載性能。NVIDIA TensorRT-LLM 是一個 LLM 推理優化庫,提供了一個易于使用的 Python API 來定義 LLM 和構建 NVIDIA TensorRT 引擎,這些引擎具有頂尖的優化功能,可在 GPU 上高效執行推理。優化功能包括自定義 Attention Kernel、Inflight Batching、Paged KV Caching、量化技術 (FP8、INT4 AWQ、INT8 SmoothQuant) 等。 推測解碼 (Speculative decoding)…
Source
]]>
12404
-
NVIDIA TensorRT-LLM 現支持動態批處理加速編碼器 – 解碼器模型
http://www.open-lab.net/zh-cn/blog/nvidia-tensorrt-llm-now-accelerates-encoder-decoder-models-with-in-flight-batching/
Wed, 11 Dec 2024 06:33:05 +0000
http://www.open-lab.net/zh-cn/blog/?p=12380
Continued]]>
NVIDIA 最近宣布, NVIDIA TensorRT-LLM 現可加速編碼器 – 解碼器模型架構 。TensorRT-LLM 是一個開源庫,可針對各種模型架構優化推理,包括: 編碼器-解碼器模型支持的添加進一步擴展了 TensorRT-LLM 功能,為 NVIDIA GPUs 上更廣泛的生成式 AI 應用提供高度優化的推理。 TensorRT-LLM 使用 NVIDIA TensorRT 深度學習編譯器。它包含經過最新優化的內核,可在前沿實現用于 LLM 模型執行的不同注意力機制。它還在一個簡單的開源 API 中包含預處理和后處理步驟以及多 GPU/多節點通信基元,可在 GPU 上實現突破性的 LLM 推理性能。 TensorRT-LLM 可處理編碼器 – 解碼器模型系列 (例如 T5 、 mT5 、Flan-T5、 BART 、 mBART 、
Source
]]>
12380
人人超碰97caoporen国产