視頻處理 – NVIDIA 技術博客

借助 GliaCloud 和 NVIDIA Omniverse 庫加速視頻制作和定制

Thu, 10 Jul 2025 07:06:13 +0000

生成式 AI 視頻模型的激增以及這些模型引入的新工作流程，顯著提高了創意和營銷技術行業的生產效率，并提高了輸出質量。 GliaCloud 是一家總部位于臺北的 AI 初創公司，參與了 NVIDIA 初創加速計劃，專注于自主營銷內容創作。此擴展程序模板將 NVIDIA Omniverse 中渲染的視覺數據 (包括 RGB 圖像、法線貼圖、深度圖、實例 ID 分割和語義分割) 與 ComfyUI 連接起來，以增強 AI 圖像處理工作流。創建 Omniverse-ComfyUI 橋接器的想法首先源于 GliaCloud 團隊在 ComfyUI 中試驗各種視頻到視頻 (v2v) 生成式 AI 模型的經驗。他們認識到，當前的生成式 AI 工作流對深度圖和分割輸出等詳細視覺數據的需求與日俱增。 GliaCloud 首席執行官兼聯合創始人 David Chen 表示：“我們發現，

Source

]]>

通過 NVIDIA Holoscan for Media 上的全新 AI 應用實例，實現實時 AI 媒體效果增強

Tue, 17 Jun 2025 05:03:25 +0000

直播媒體工作流越來越多地使用 AI 微服務來增強制作能力。然而，先進的 AI 模型大多托管在云端，由于網絡延遲、帶寬和實時可擴展性方面的限制，處理高比特率、未壓縮的媒體流變得很困難。 NVIDIA 發布了新的 AI 參考應用，有助于簡化 AI 開發。這些技術可以與未壓縮的 ST 2110 流交互，并以極低的延遲實現實時媒體效果。 Holoscan for Media 上提供的最新 AI 參考應用為構建專為直播媒體工作流定制的實時 AI 解決方案提供了強大的起點。 AI 虛擬攝像頭使用 PyTorch 和 NVIDIA DeepStream SDK 構建的簡單應用可為視頻中的每位演講者創建虛擬攝像頭。在檢測并追蹤高分辨率、未壓縮的 ST 2110 輸入流中存在的個體后，該參考應用會創建多個針對已檢測個體的裁剪虛擬攝像頭輸出。借助 AI 生成的攝像頭源，

Source

]]>

通過 NVIDIA NeMo 框架的最新功能全鏈路加速視頻基礎模型的訓練和微調

Tue, 07 Jan 2025 06:10:49 +0000

生成式 AI 已經從基于文本的模型發展到多模態模型，最近還擴展到了視頻領域，為各行各業開辟了新的潛在用途。視頻模型可以為用戶創造新的體驗，以及大規模模擬場景來訓練自主代理。它們正在幫助包括機器人技術、自動駕駛汽車和娛樂業在內的多個行業實現變革。由于視頻數據的龐大和多樣性，視頻基礎模型的開發面臨著獨特的挑戰。這也凸顯了可擴展的數據管理流程和訓練框架的必要性，以此來理解時間和空間動態的模型。我們發布了 NVIDIA NeMo 框架中全新的視頻基礎模型功能，這是一個端到端的訓練框架，用于預訓練和微調您的專屬視頻基礎模型。該框架包括高吞吐量的數據管理、高效的多模態數據加載功能、可擴展的模型訓練，以及并行化的框架內推理。高吞吐量視頻數據處理鏈路 NVIDIA NeMo Curator 通過高效處理和準備高質量的數據（包括大型視頻數據集），

Source

]]>

借助 NVIDIA NeMo 開發前沿的多模態生成式 AI 模型

Wed, 06 Nov 2024 03:41:07 +0000

生成式 AI 已從基于文本的模型迅速發展為多模態功能。這些模型執行圖像字幕和視覺問答等任務，反映了向更接近人類的 AI 的轉變。該社區目前正在從文本和圖像擴展到視頻，為各行各業帶來了新的可能性。視頻 AI 模型將徹底改變機器人、汽車和零售等行業。在機器人領域，它們可增強在復雜、不斷變化的環境中的自主導航，這對于制造和倉儲管理等行業至關重要。在汽車行業，視頻 AI 正在推動自動駕駛，提升車輛感知、安全性和預測性維護，從而提高效率。要構建圖像和視頻基礎模型，開發者必須整理和預處理大量訓練數據，以高保真度標記生成的高質量數據，高效、大規模地訓練或定制預訓練模型，然后在推理過程中生成高質量的圖像和視頻。 NVIDIA NeMo 是一個端到端平臺，用于開發、定制和部署生成式 AI 模型。 NVIDIA 剛剛宣布擴展 NeMo，以支持開發多模態模型的端到端流程。

Source

]]>

NVIDIA 視頻編解碼器 SDK 加速了新的視頻創建和流媒體功能

Wed, 24 May 2023 05:02:12 +0000

十多年來， NVIDIA GPU 一直采用稱為NVENC 和 NVDEC。它們具有高度并行化的架構，支持流行的編解碼器格式，并提供對 GPU 存儲器的直接訪問，以優化編碼和解碼操作。 GPU – 加速視頻意味著將視頻處理卸載到 NVENC 和 NVDEC ，減少 CPU 周期，并利用更優化的硬件單元。為了啟用 GPU 加速， NVIDIA 提供Video Codec SDK：支持高性能編碼和解碼的豐富 API 。去年， NVIDIA 推出了Ada Lovelace 架構，采用新的第八代 NVENC 。視頻編解碼器 SDK 已更新以支持AV1 encode在 NVIDIA Ada Lovelace 上，以及拆分編碼，以同時利用多個 NVENC 的功率。 Video Codec SDK 12.1是最新版本，現已上市。這篇文章重點介紹了 12 . 1 版本中支持的新功能，

Source

]]>

使用 CV-CUDA 提高基于人工智能的計算機視覺的吞吐量并降低成本

Thu, 04 May 2023 03:41:08 +0000

涉及基于人工智能的實時云規模應用程序計算機視覺正在迅速增長。用例包括圖像理解、內容創建、內容審核、映射、推薦系統和視頻會議。然而，由于對處理復雜性的需求增加，這些工作負載的計算成本也在增長。從靜止圖像到視頻的轉變現在也正在成為消費者互聯網流量的主要組成部分。鑒于這些趨勢，迫切需要構建高性能但具有成本效益的計算機視覺工作負載。基于人工智能的計算機視覺管道通常涉及圍繞人工智能推理模型的數據預處理和后處理步驟，這可能占整個工作負載的 50-80% 。這些步驟中常見的運算符包括以下內容：雖然開發人員可能會使用 NVIDIA GPU 來顯著加速他們管道中的人工智能模型推理，但預處理和后處理仍然通常使用基于 CPU 的庫來實現。這導致整個人工智能管道的性能出現瓶頸。通常是人工智能圖像或視頻處理管道一部分的解碼和編碼過程也可能在 CPU 上受到瓶頸，影響整體性能。

Source

]]>