Stable Diffusion – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 29 Aug 2024 07:21:36 +0000 zh-CN hourly 1 196178272 RTX AI PC 和工作站上部署多樣化 AI 應用支持 Multi-LoRA http://www.open-lab.net/zh-cn/blog/deploy-diverse-ai-apps-with-multi-lora-support-on-rtx-ai-pcs-and-workstations/ Wed, 28 Aug 2024 07:15:06 +0000 http://www.open-lab.net/zh-cn/blog/?p=11095 Continued]]> 今天的大型語言模型(LLMs)在許多用例中都取得了前所未有的成果。然而,由于基礎模型的通用性,應用程序開發者通常需要定制和調整這些模型,以便專門針對其用例開展工作。 完全微調需要大量數據和計算基礎設施,從而更新模型權重。此方法需要在GPU顯存上托管和運行模型的多個實例,以便在單個設備上提供多個用例。 示例用例包括多語言翻譯助手,用戶需要同時獲得多種語言的結果。這可能會給設備上的 AI 帶來挑戰,因為內存限制。 在設備顯存上同時托管多個LLM幾乎是不可能的,尤其是在考慮運行合適的延遲和吞吐量要求以與用戶進行交互時另一方面,用戶通常在任何給定時間運行多個應用和任務,在應用之間共享系統資源。 低秩適配(LoRA)等高效的參數微調技術可幫助開發者將自定義適配器連接到單個 LLM,以服務于多個用例。這需要盡可能減少額外的內存,同時仍可提供特定于任務的 AI 功能。

Source

]]>
11095
了解 Stable Diffusion 模型:面向 AEC 專業人員的基本指南 http://www.open-lab.net/zh-cn/blog/understanding-diffusion-models-an-essential-guide-for-aec-professionals/ Wed, 10 Jul 2024 06:20:11 +0000 http://www.open-lab.net/zh-cn/blog/?p=10585 Continued]]> 生成式 AI、算法處理各種類型的輸入—例如文本、圖像、音頻、視頻和代碼—并生成新內容的能力正在以前所未有的速度發展。雖然這項技術在多個行業都取得了重大進展,但建筑、工程和施工 (AEC) 行業將從中受益匪淺。 歷史上,AEC 公司一直在與支離破碎的數據系統作斗爭。這導致各個部門或項目階段的重要信息被隔離,從而導致效率低下、解釋錯誤和增加項目成本。隨著 生成式 AI 的出現,AEC 行業正處于轉型的邊緣。 這項前沿技術通過集成數據、自動執行設計任務和增強協作,有可能徹底改變 AEC 行業,從而打造更高效、更創新和更可持續的項目。 自推出生成式 AI 以來,GPT-4 等大型語言模型 (LLM) 一直處于前沿,以其在自然語言處理、機器翻譯和內容創建方面的通用性而聞名。除此之外,OpenAI 的 DALL-E、Google 的 Imagen、

Source

]]>
10585
借助 NVIDIA TensorRT 輕量級引擎,為 AI 應用提供卓越性能和最小占用空間 http://www.open-lab.net/zh-cn/blog/maximum-performance-and-minimum-footprint-for-ai-apps-with-nvidia-tensorrt-weight-stripped-engines/ Tue, 11 Jun 2024 06:45:32 +0000 http://www.open-lab.net/zh-cn/blog/?p=10343 Continued]]> NVIDIA TensorRT一個成熟的數據中心推理庫,已迅速成為 NVIDIA GeForce RTX 和 NVIDIA RTX GPU 的理想推理后端。現在,部署 TensorRT 借助預構建的 TensorRT 引擎,應用變得更加簡單。 新發布的重量去除 TensorRT 10.0 引擎提供了一種獨特的解決方案,通過將其縮小到僅執行代碼來最大限度地減少引擎出貨量,從而實現 > 95%的引擎尺寸壓縮。 在本文中,我們將討論如何構建輕量級引擎,以及如何使用 TensorRT 40MB 精簡運行時直接在最終用戶設備上對其進行改裝。 TensorRT 10.0 中引入的權重剝離引擎包含無權重的執行代碼 (CUDA 內核).在構建階段啟用權重剝離后,引擎的體積比傳統引擎小 95%以上,并且僅保留必要的權重以優化性能。 這些引擎支持 ONNX 模型和其他網絡定義,

Source

]]>
10343
NVIDIA TensorRT 模型優化器加速生成人工智能推理性能,現已公開 http://www.open-lab.net/zh-cn/blog/accelerate-generative-ai-inference-performance-with-nvidia-tensorrt-model-optimizer-now-publicly-available/ Wed, 08 May 2024 04:49:34 +0000 http://www.open-lab.net/zh-cn/blog/?p=9822 Continued]]> 在快速發展的環境中,生成人工智能的發展對加速推理速度的需求仍然是一個緊迫的問題。隨著模型規模和復雜性的指數級增長,對快速生成結果以同時服務于眾多用戶的需求也在持續增長。NVIDIA 平臺站在這一努力的前沿,通過芯片、系統、軟件和算法等全技術堆棧的創新,實現永久的性能飛躍。 NVIDIA 正在擴展其推理產品 NVIDIA TensorRT 模型優化器,一個集成了最先進的后期訓練和環中訓練模型優化技術的綜合庫。這些技術包括量化和稀疏性,旨在降低模型復雜性,以實現更高效的下游推理庫,如 NVIDIA TensorRT LLM,從而更有效地優化深度學習模型的推理速度。 作為 NVIDIA TensorRT 生態系統的一部分,NVIDIA TensorRT 模型優化器(簡稱模型優化器)可用于多種流行的體系結構,包括 NVIDIA Hopper、NVIDIA Ampere 和 NVIDIA…

Source

]]>
9822
NVIDIA TensorRT 通過 8 位預訓練量化將 Stable Diffusion 的速度提升近 2 倍 http://www.open-lab.net/zh-cn/blog/tensorrt-accelerates-stable-diffusion-nearly-2x-faster-with-8-bit-post-training-quantization/ Thu, 07 Mar 2024 08:28:49 +0000 http://www.open-lab.net/zh-cn/blog/?p=9239 Continued]]> 在生成式 AI 的動態領域,擴散模型脫穎而出,成為使用文本提示生成高質量圖像的功能強大的架構 .Stable Diffusion 等模型徹底改變了創意應用。 但是,由于需要執行迭代降噪步驟,擴散模型的推理過程非常計算密集。這對致力于實現最佳端到端推理速度的公司和開發者帶來了嚴峻挑戰。 首先,NVIDIA TensorRT 9.2.0 引入了一款出色的量化工具包,支持FP8 或 INT8 預訓練量化 (PTQ),顯著提升了在 NVIDIA 硬件上部署擴散模型的速度,同時保持圖像質量。TensorRT 的 8 位量化功能已成為眾多生成式 AI 公司的首選解決方案,特別是對于領先的創意視頻編輯應用程序提供商。 在本文中,我們討論了 TensorRT 與 Stable Diffusion XL 的性能。我們介紹了支持 TensorRT 成為低延遲 Stable Diffusion…

Source

]]>
9239
人人超碰97caoporen国产