Justin Xin – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 10 Jul 2025 06:53:42 +0000
zh-CN
hourly
1
196178272 -
通過低精度量化優化用于圖像編輯的 FLUX.1 Kontext
http://www.open-lab.net/zh-cn/blog/optimizing-flux-1-kontext-for-image-editing-with-low-precision-quantization/
Wed, 02 Jul 2025 06:48:13 +0000
http://www.open-lab.net/zh-cn/blog/?p=14553
Continued]]>
FLUX.1 Kontext 是 Black Forest Labs 最近發布的模型,是對社區圖像生成模型的一項令人著迷的補充。本文重點介紹的開放式權重 FLUX.1 Kontext [dev] 變體是一個針對圖像到圖像轉換任務精心優化的模型。這一開創性工具因其增量圖像編輯功能而脫穎而出,在指導生成過程方面實現了范式轉變。 與依賴制作復雜提示并集成難以獲取的蒙版或深度圖和邊緣圖的傳統方法不同,FLUX.1 Kontext [dev] 為用戶提供了一種更直觀、更靈活的方法。通過將增量編輯與用于提高擴散模型推理性能的前沿優化技術無縫集成,這一新模型能夠提供截然不同的圖形編輯用戶體驗。 NVIDIA 與 Black Forest Labs 合作,使用 NVIDIA TensorRT 和量化優化 NVIDIA RTX GPU 的 FLUX.1 Kontext [dev],
Source
]]>
14553
-
NVIDIA TensorRT 解鎖 NVIDIA Blackwell GeForce RTX 50 系列 GPU 的 FP4 圖像生成
http://www.open-lab.net/zh-cn/blog/nvidia-tensorrt-unlocks-fp4-image-generation-for-nvidia-blackwell-geforce-rtx-50-series-gpus/
Wed, 14 May 2025 07:41:19 +0000
http://www.open-lab.net/zh-cn/blog/?p=13997
Continued]]>
NVIDIA Blackwell 平臺的推出開啟了生成式 AI 技術進步的新時代。其最前沿是新推出的 GeForce RTX 50 系列 GPU,適用于 PC 和工作站,配備具有 4 位浮點計算 (FP4) 的第五代 Tensor Cores,是加速 Black Forest Labs 的 FLUX 等高級生成式 AI 模型的必備。 隨著新的圖像生成模型力求達到速度、準確性、更高分辨率和復雜的提示依從性,它們變得越來越大、越來越復雜。要在 PC 和工作站的本地推理中部署這些大型復雜模型,超越 16 位和 8 位計算的優勢在于。 Blackwell 與 NVIDIA TensorRT 推理工具軟件生態系統相結合,可提供易于使用的庫,這些庫支持用于推理的 FP4 量化和部署,具有出色的性能和質量。 實現這一目標并非易事。為了利用 Blackwell 中的 4 位硬件創新,
Source
]]>
13997
-
NVIDIA Blackwell 實現世界紀錄的 DeepSeek-R1 推理性能
http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-world-record-deepseek-r1-inference-performance/
Tue, 18 Mar 2025 05:30:54 +0000
http://www.open-lab.net/zh-cn/blog/?p=13327
Continued]]>
NVIDIA 在 NVIDIA GTC 2025 上宣布了創下世界紀錄的 DeepSeek-R1 推理性能 。 搭載 8 個 NVIDIA Blackwell GPU 的單個 NVIDIA DGX 系統 ,在具有 671 億個參數的先進大型 DeepSeek-R1 模型上,每個用戶每秒可實現超過 250 個 token,或每秒超過 30,000 個 token 的最大吞吐量。得益于 NVIDIA 開放生態系統的推理開發者工具的改進 (現已針對 NVIDIA Blackwell 架構進行優化) ,這些性能頻譜兩端的快速性能提升得以實現。 隨著 NVIDIA 平臺不斷突破最新 NVIDIA Blackwell Ultra GPU 和 NVIDIA Blackwell GPU 的推理極限,這些性能記錄將會得到改善。 單個 DGX B200 8-GPU 系統和單個 DGX…
Source
]]>
13327
-
NVIDIA TensorRT 模型優化器 v0.15 提高推理性能擴展模型支持能力
http://www.open-lab.net/zh-cn/blog/nvidia-tensorrt-model-optimizer-v0-15-boosts-inference-performance-and-expands-model-support/
Thu, 15 Aug 2024 08:58:32 +0000
http://www.open-lab.net/zh-cn/blog/?p=11049
Continued]]>
NVIDIA 宣布推出新版 v0.15 NVIDIA TensorRT 模型優化器,這是一種先進的模型優化技術量化工具包,包含量化、稀疏和剪枝。這些技術可降低模型復雜性,使 NVIDIA TensorRT-LLM 和 NVIDIA TensorRT 等下游推理框架能夠更有效地優化生成式 AI 模型的推理速度。 本文將概述近期 TensorRT Model Optimizer 版本的一些主要特性和升級,包括緩存擴散、使用 NVIDIA NeMo 的全新量化感知訓練工作流程以及 QLoRA 支持。 以前,TensorRT Model Optimizer(簡稱‘Model Optimizer’)利用其 8 位訓練后量化(PTQ)技術強效助力 NVIDIA TensorRT,為 Stable Diffusion XL 的性能設立了標桿。為進一步普及擴散模型的快速推理,
Source
]]>
11049
-
NVIDIA TensorRT 通過 8 位預訓練量化將 Stable Diffusion 的速度提升近 2 倍
http://www.open-lab.net/zh-cn/blog/tensorrt-accelerates-stable-diffusion-nearly-2x-faster-with-8-bit-post-training-quantization/
Thu, 07 Mar 2024 08:28:49 +0000
http://www.open-lab.net/zh-cn/blog/?p=9239
Continued]]>
在生成式 AI 的動態領域,擴散模型脫穎而出,成為使用文本提示生成高質量圖像的功能強大的架構 .Stable Diffusion 等模型徹底改變了創意應用。 但是,由于需要執行迭代降噪步驟,擴散模型的推理過程非常計算密集。這對致力于實現最佳端到端推理速度的公司和開發者帶來了嚴峻挑戰。 首先,NVIDIA TensorRT 9.2.0 引入了一款出色的量化工具包,支持FP8 或 INT8 預訓練量化 (PTQ),顯著提升了在 NVIDIA 硬件上部署擴散模型的速度,同時保持圖像質量。TensorRT 的 8 位量化功能已成為眾多生成式 AI 公司的首選解決方案,特別是對于領先的創意視頻編輯應用程序提供商。 在本文中,我們討論了 TensorRT 與 Stable Diffusion XL 的性能。我們介紹了支持 TensorRT 成為低延遲 Stable Diffusion…
Source
]]>
9239
人人超碰97caoporen国产