圖像生成 – NVIDIA 技術博客

NVIDIA TensorRT 解鎖 NVIDIA Blackwell GeForce RTX 50 系列 GPU 的 FP4 圖像生成

Wed, 14 May 2025 07:41:19 +0000

NVIDIA Blackwell 平臺的推出開啟了生成式 AI 技術進步的新時代。其最前沿是新推出的 GeForce RTX 50 系列 GPU，適用于 PC 和工作站，配備具有 4 位浮點計算 (FP4) 的第五代 Tensor Cores，是加速 Black Forest Labs 的 FLUX 等高級生成式 AI 模型的必備。隨著新的圖像生成模型力求達到速度、準確性、更高分辨率和復雜的提示依從性，它們變得越來越大、越來越復雜。要在 PC 和工作站的本地推理中部署這些大型復雜模型，超越 16 位和 8 位計算的優勢在于。 Blackwell 與 NVIDIA TensorRT 推理工具軟件生態系統相結合，可提供易于使用的庫，這些庫支持用于推理的 FP4 量化和部署，具有出色的性能和質量。實現這一目標并非易事。為了利用 Blackwell 中的 4 位硬件創新，

Source

]]>

借助 NVIDIA NIM 微服務，在 RTX AI PC 和工作站上開啟您的 AI 之旅

Tue, 25 Mar 2025 09:11:53 +0000

隨著數字人、智能體、播客、圖像和視頻生成等新興用例的出現，生成式 AI 正在改變我們與 PC 的交互方式。這種范式轉變要求我們以新的方式與生成式 AI 模型進行交互和編程。然而，對于 PC 開發者和 AI 愛好者而言，入門可能會非常困難。今天，NVIDIA 在 NVIDIA RTX AI PC 上發布了一套 NVIDIA NIM 微服務，以在 PC 上快速啟動 AI 開發和實驗。NIM 微服務目前處于 beta 階段，提供涵蓋語言、語音、動畫、內容生成和視覺功能的 AI 基礎模型。這些易于使用的行業標準 API 可幫助您在 NVIDIA RTX AI PC 上使用 NVIDIA NIM，開啟從實驗到構建的 AI 之旅。它們易于下載和運行，涵蓋 PC 開發的主流模式，并與主流生態系統應用程序和工具兼容。將 AI 引入 PC 會帶來獨特的挑戰。

Source

]]>

通過文本實現實時圖像編輯的快速反演

Fri, 30 Aug 2024 05:06:18 +0000

文本到圖像的擴散模型可以根據用戶提供的文本提示生成多樣化、高保真的圖像。這些模型的操作方法是：通過一系列降噪步驟，在用戶提供的文本提示符的條件下，從高維空間映射隨機樣本。這將導致相應圖像的表示。這些模型還可用于更復雜的任務，例如圖像編輯、學習描繪個性化概念或語義數據增強。在這種情況下，圖像編輯是指根據文本提示對給定圖像進行局部更改的任務，而圖像的其他部分保持不變。所有這些附加任務都涉及一個名為”inversion“的過程：給定圖像表征及其相應的文本提示，您會尋找噪聲種子，當輸入降噪過程時，該種子會生成重建的圖像。最近提出了 Regularized Newton-Raphson Inversion (RNRI)，這是一種新的反演技術。RNRI 在快速收斂與出色的準確性、執行時間和內存效率之間取得平衡，首次實現了實時圖像編輯，優于現有的反演方法。

Source

]]>

了解 Stable Diffusion 模型：面向 AEC 專業人員的基本指南

Wed, 10 Jul 2024 06:20:11 +0000

生成式 AI、算法處理各種類型的輸入—例如文本、圖像、音頻、視頻和代碼—并生成新內容的能力正在以前所未有的速度發展。雖然這項技術在多個行業都取得了重大進展，但建筑、工程和施工 (AEC) 行業將從中受益匪淺。歷史上，AEC 公司一直在與支離破碎的數據系統作斗爭。這導致各個部門或項目階段的重要信息被隔離，從而導致效率低下、解釋錯誤和增加項目成本。隨著生成式 AI 的出現，AEC 行業正處于轉型的邊緣。這項前沿技術通過集成數據、自動執行設計任務和增強協作，有可能徹底改變 AEC 行業，從而打造更高效、更創新和更可持續的項目。自推出生成式 AI 以來，GPT-4 等大型語言模型 (LLM) 一直處于前沿，以其在自然語言處理、機器翻譯和內容創建方面的通用性而聞名。除此之外，OpenAI 的 DALL-E、Google 的 Imagen、

Source

]]>

NVIDIA 在 MLPerf Training v4.0 中創造了新的生成式 AI 性能和規模記錄

Wed, 12 Jun 2024 06:26:36 +0000

生成式 AI 模型具有多種用途，例如幫助編寫計算機代碼、創作故事、作曲、生成圖像、制作視頻等。而且，隨著這些模型的大小不斷增加，并且使用更多數據進行訓練，它們將產生更高質量的輸出。構建和部署這些更智能的模型需要非常大的計算量，需要許多高性能處理器并行工作，并由高效、通用的軟件進行編排。例如，Meta 宣布訓練其最新的 Llama 3 系列中的大語言模型(LLMs)，使用搭載 24,576 個 NVIDIA H100 Tensor Core GPUs 的人工智能集群。模型越大，Llama 3 70B 就需要總計6.4 million H100 GPU-hours進行訓練。預訓練 LLM 后，可以通過各種技術包括模型微調，以提高特定任務的準確性。隨著企業開始在各種應用中采用 LLM，LLM 微調正迅速成為核心行業工作負載。 AI 訓練是一項全棧挑戰，

Source

]]>

借助由 NVIDIA RTX GPU 優化的 Firebase Genkit 強效助力生成式 AI 開發

Mon, 20 May 2024 05:03:14 +0000

在 Google I/O 2024 大會上，Google 宣布了 Firebase Genkit，這是一個新的開源框架，旨在供開發者使用諸如 Google Gemini 和 Google Gemma 等技術。借助 Firebase Genkit，您可以構建集成智能代理、自動化客戶支持、使用語義搜索的應用，并將非結構化數據轉換為見解。此外，Genkit 還包含開發者 UI，使您能夠在本地開發者環境中對 AI 功能進行原型設計、開發和測試。 Google 與 NVIDIA 合作，共同優化 Google Gemma 模型的推理性能。此外，NVIDIA RTX 專業 GPU 和NVIDIA GeForce RTX GPU 也可以提高推理性能，從而提高開發者的工作效率，使您的解決方案更加流暢。借助 Firebase Genkit，您可以通過在 NVIDIA GPU 上本地運行…

Source

]]>

生成式 AI 研究聚焦：個性化文本轉圖像模型

Tue, 06 Feb 2024 07:33:25 +0000

視覺效果生成式 AI是一個根據文本提示創建圖像的過程。該技術基于在互聯網規模的數據上預訓練的視覺語言基礎模型。通過提供多模態表示，這些基礎模型可以應用于許多領域。例如，包括圖像字幕和視頻檢索、創意3D和2D圖像合成以及機器人操作。所有這些任務都得益于視覺語言基礎模型的“開放世界”能力，從而能夠使用豐富、自由形式的文本和視覺類別的“長尾”。借助這些強大的表征，我們將面臨新的挑戰。也就是說，如何將這些模型與用戶特定的或個性化的視覺概念結合使用。如何教會這些模型將此類用戶特定的概念與他們之前從海量數據集中學到的知識相結合？例如，玩具品牌的創意總監正在計劃圍繞新的玩具熊產品開展廣告活動，并希望在不同的場景中展示玩具，這些場景包括扮演超級英雄或巫師的角色。或者，孩子希望創作家庭狗的搞笑動畫片。或者，室內設計師希望在使用傳家寶家庭沙發設計房間。所有這些個性化用例都需要合成新場景，

Source

]]>

使用 NVIDIA TensorRT 加速的全新 Stable Diffusion 模型

Mon, 08 Jan 2024 05:41:51 +0000

在 CES 上， NVIDIA 分享道，SDXL Turbo、LCM-LoRA 和 Stable Video Diffusion 均由 NVIDIA TensorRT 加速。這些增強功能使 GeForce RTX GPU 用戶能夠實時生成圖像，并節省生成視頻的時間，從而大幅改善工作流程。 SDXL Turbo 利用新的蒸餾技術實現先進的性能，能夠實現單步圖像生成。由 Tensor Core 和 TensorRT 加速的 NVIDIA 硬件每秒可生成多達四張圖像，使您能夠首次體驗到實時 SDXL 圖像生成功能。有關非商業用途和商業用途的更多信息，請參閱 Stability AI 會員資格頁面。下載 SDXL Turbo 模型以生成面部表情。 Low-Rank Adaptation (LoRA) 是一種用于微調 Stable Diffusion…

Source

]]>

使用 NVIDIA AI 基礎模型構建自定義企業級生成式 AI

Wed, 15 Nov 2023 07:14:09 +0000

在構建企業級生成式 AI 和大型語言模型 (LLM) 時，需要收集高質量數據、搭建加速基礎架構以及擁有優化模型的專業知識。開發者可以從預訓練模型開始，并根據其用例對其進行微調，從而節省時間，并使其解決方案更快地投入市場。開發者需要一種簡單的方法來嘗試模型，并通過 API 集成模型來評估其功能。這有助于他們確定最適合其應用的模型。 NVIDIA AI 基礎模型是一組經過精心策劃的社區模型和 NVIDIA 構建的模型，它們針對峰值性能進行了優化。開發者可以直接通過 API 或 * 圖形用戶界面從瀏覽器中快速使用這些模型，無需任何設置。模型 * 通過 NVIDIA TensorRT-LLM 和激活感知型權重量化 (AWQ) 進行配置，以實現最高吞吐量和最低延遲，并在 NVIDIA 加速計算堆棧上大規模運行。我們的 NVIDIA Nemotron-3 8B…

Source

]]>

借助 NVIDIA TensorRT，在 Stable Diffusion Web UI 中更快地生成圖像

Tue, 17 Oct 2023 06:06:11 +0000

Stable Diffusion 是一款開源軟件，生成式人工智能基于圖像的模型，使用戶能夠生成包含簡單文本描述的圖像。它在開發者中越來越受歡迎，為熱門應用程序提供支持，例如 Wombo 和 Lensa。最終用戶通常通過將模型與用戶界面和一組工具打包在一起的發行版訪問模型。最流行的發行版是 Automatic 1111 Stable Diffusion Web UI。本文介紹了如何利用 NVIDIA TensorRT 可以將模型的性能提高一倍。它采用了一個使用 Automatic 1111 Stable Diffusion Web UI 的示例。 Stable Diffusion 是一種深度學習模型，它使用擴散過程根據輸入的文本和圖像生成圖像。雖然它可以成為增強創作者工作流程的有用工具，但該模型的計算量很大。在 CPU 等非專用硬件上，生成單批四張圖像需要幾分鐘時間，

Source

]]>

選擇大型語言模型定制技術

Thu, 10 Aug 2023 05:12:36 +0000

大語言模型（LLM）正在成為企業不可或缺的工具，用于改善他們的運營、客戶互動和決策過程。然而，由于行業特定的術語、領域專業知識或獨特的要求，現成的 LLM 往往無法滿足企業的特定需求。這就是自定義 LLM 發揮作用的地方。企業需要自定義模型來根據其特定的用例和領域知識定制語言處理能力。自定義 LLM 使企業能夠在特定行業或組織環境中更高效、更準確地生成和理解文本。定制模型使企業能夠創建符合其品牌聲音的個性化解決方案，優化工作流程，提供更精確的見解，并提供增強的用戶體驗，最終推動市場競爭優勢。這篇文章介紹了各種模型定制技術以及何時使用它們。 NVIDIA NeMo 支持許多方法。 NVIDIA NeMo 是一個端到端的云原生框架，用于在任何地方構建、定制和部署生成人工智能模型。它包括訓練和推理框架、護欄工具包、數據管理工具和預訓練模型，

Source

]]>