使用 NVIDIA AI Blueprint 進行視頻搜索和摘要，推動視頻分析 AI 智能體的發展

與傳統的 Computer Vision (CV) 模型相比， Vision Language Models (VLMs) 實現了更廣泛的感知和更豐富的上下文理解，從而改變了視頻分析。然而，上下文長度有限和缺乏音頻轉錄等挑戰仍然存在，限制了 VLM 一次可以處理的視頻數量。

為克服這一問題，適用于視頻搜索和摘要 (VSS) 的 NVIDIA AI Blueprint 將 VLM、LLM 和檢索增強生成 (RAG) 與高效的提取、檢索和存儲機制相集成，從而實現存儲和實時視頻分析。視覺 AI 智能體可應用于監控智能空間、倉庫自動化和 SOP 驗證等眾多用例。

NVIDIA 宣布推出適用于視頻搜索和摘要的 NVIDIA AI Blueprint 新版本并全面推出 (GA) 。此版本包含多項新功能，包括多實時流、突發模式提取、可自定義 CV 流程和音頻轉錄。這些更新進一步簡化了視頻分析 AI 代理的開發，為長篇視頻理解提供全面的解決方案。

本文是在上一篇文章“ 使用 NVIDIA AI Blueprint 構建視頻搜索和摘要智能體 ”之后的文章，其中概述了此 NVIDIA AI Blueprint 的基礎功能。

視頻 1。了解如何使用由 NVIDIA NIM 和 NVIDIA Metropolis 加速的 AI 代理推進視頻分析

用于高級視頻分析的 AI agents

VSS 通過使用 VLM、大語言模型 (LLM) 以及最新的 RAG 技術和視頻提取工作流提供長視頻理解的方法，加速視頻分析 AI 智能體的開發。搶先體驗版 (v2.0.0) 允許視覺代理提取流式傳輸和錄制的視頻，提供摘要、執行問答并發送警報。

此正式發布版本 (v2.3.0) 包含以下主要功能。圖 1 展示了反映這些增強功能的更新架構圖。

單 GPU 部署和硬件支持擴展 ：根據您的性能要求，VSS 現在可在各種不同的硬件配置中進行部署。對于較小的工作負載，我們現在還支持在 NVIDIA A100、H100 和 H200 GPU 上進行單 GPU 部署。
多直播和突發剪輯模式：同時處理數百個直播或預先錄制的視頻文件。
音頻轉錄：將語音轉換為文本，以多模態理解場景。這對于音頻是關鍵組成部分的用例很有用，例如教學視頻、主題演講、團隊會議或公司培訓內容。
計算機視覺工作流 ：通過零樣本物體檢測跟蹤場景中的物體，并使用邊界框和分割蒙版與 Set-of-Mark (SoM)來提高準確性，從而使用預定義的一組參考點或標簽來指導視覺語言模型，從而改進檢測。
提升上下文感知型 RAG (CA-RAG) 和 GraphRAG 的準確性和性能 ：通過批量匯總和實體提取、在數據塊提取期間創建動態圖形，以及在具有獨立事件循環的專用進程中運行 CA-RAG，顯著降低延遲并提高可擴展性，從而提高性能。

An architecture diagram shows two new blocks for audio processing and CV pipeline, compared to the previous architecture. These new blocks are optional and must be enabled during deployment. — *圖 1。VSS GA 版本的高級架構*

單 GPU 部署?

引入了使用低內存模式和較小 LLM 的單 GPU 部署方案。它可在 NVIDIA H100、H200 和 A100 (80 GB 以上，HBM) 機器上使用，并即將支持其他 GPU。此設置非常適合不需要多 GPU 環境的較小工作負載，可顯著節省成本并簡化部署。

此部署在單個 GPU 上本地運行 VLM、LLM、embedding 和 reranker 模型。配置詳情如下：

模型分配： 所有模型 ( VSS、LLM、嵌入、重排序) 均配置為共享單個 GPU。
顯存優化 ：為 LLM 啟用了低顯存模式和寬松的顯存限制，以確保高效利用 GPU 資源。
模型選擇：使用專為在單個 GPU 部署上實現最佳性能而選擇的較小 LLM 模型 (Llama 3.1 8B Instruct) 。 VSS 引擎設置為使用 NVILA 模型執行視覺任務。
服務初始化：配置適當的 init 容器，以確保服務按照正確的順序啟動。

多實時串流和 Burst Clip 模式

隨著對實時視頻分析的需求不斷增長，以及需要同時處理大量視頻片段，最新功能可確保部署的 AI 智能體可以管理多個直播和突發片段，從而擴展視頻分析解決方案。

在此次更新中，VSS 后端負責并行處理多個流的排隊和調度請求。在 CA-RAG 的幫助下，它還會分別維護每個來源的上下文。跨不同的線程或進程針對各種視頻文件或直播并行調用任意 API，包括 Summarization (POST/summarize) 和 Q&A (POST/chat/completions)。

為促進多流處理，每個數據塊（無論是 VLM 生成的描述還是提取的實體）都用唯一的 Stream ID 進行標記。此 Stream ID 可用作關鍵標識符，確保所有相關描述、實體和關系始終與其各自的流相關聯。

用戶可以通過設置 multi_channel: true 靈活查詢所有流，或通過設置 multi_channel: false 將查詢限制在特定流，從而實現廣泛和有針對性的分析。

視頻 2。VSS 支持多實時團隊和 burst clip 模式，可并行處理直播或錄制的視頻流

音頻轉錄?

NVIDIA 為藍圖生成的視覺智能體提供了聆聽能力，從而提高了對上下文的理解，并解鎖了視頻未捕獲的信息。此功能可顯著提高主題演講、講座、視頻會議和視角鏡頭等媒體的準確性。

為了將音頻集成到 VSS 中，我們應用了與視頻處理方法類似的技術來處理給定視頻的音頻。在對視頻進行分塊以跨 GPU 并行提取后，我們通過以下方式處理音頻：

從視頻剪輯中分割音頻 ：從視頻中創建單獨的音頻文件。
解碼音頻 ：然后將每個音頻塊轉換為 16 kHz 單聲道音頻。
使用自動語音識別 (ASR) 進行處理：然后將轉換后的音頻傳遞給 NVIDIA Riva ASR NIM 微服務，該微服務會為數據塊生成音頻轉錄。
合并音頻和視頻信息： 對于每個數據塊，VLM 的視頻描述和 ASR 服務的音頻轉錄以及時間戳信息等其他元數據將發送到檢索工作流，以供進一步處理和索引。

在初始化期間，可以啟用或禁用 VSS 中的音頻處理功能。每個摘要請求也可以配置為啟用或禁用音頻轉錄。這種靈活性支持在批量處理視頻文件以及在線處理直播時進行音頻轉錄。

通過使用 RIVA ASR NIM 微服務，我們可以在 NIM 微服務中引入先進的音頻功能。這些自定義功能可確保您可以根據特定需求定制音頻處理功能，從而增強 VSS 的整體功能和適應性。

此功能已有效用于在 NVIDIA GTC 主題演講上進行聊天，使用戶能夠通過音頻轉錄實時互動和討論內容。

計算機視覺工作流?

將特定的 CV 模型與 VLM 集成可提供物體的詳細元數據（包括其位置、遮罩和追蹤 ID），從而增強視頻分析。SoM 提示可實現有效的視覺基礎，允許 VLM 根據單個物體而非整體場景生成響應，這對于涉及多個物體的復雜查詢以及使用物體 ID 了解物體在較長時間內的時間行為尤為有用。

視頻 3。觀看帶和不帶 CV metadata 的提示的對比

VSS 中的 CV 和跟蹤工作流旨在為視頻和直播生成全面的 CV 元數據。此元數據包含視頻中物體的詳細信息，例如其位置、遮罩和追蹤 ID。管道通過以下方式實現這一點：

物體檢測： 每個區塊都會使用零樣本物體檢測器 (Grounding DINO) 進行物體檢測。這可根據文本提示識別物體，從而規范多個物體類別和檢測置信度值。
蒙版生成和追蹤 ：在識別物體后，GPU 加速的多物體追蹤器使用 NVIDIA DeepStream 的 NvDCF 追蹤器來追蹤所有物體。此多目標跟蹤器集成了 Meta 的 SAM2 模型，用于生成實例分割掩碼和提高精度。
元數據融合：CV 處理中的一個主要挑戰是，同一對象可能會出現在不同的數據塊中，并被分配到不同的 ID。為了解決這一問題，VSS 包含 CV Metadata Fusion 模塊，該模塊可將每個數據塊中的 CV 元數據合并到一個全面的元數據集，就像從連續視頻文件中生成一樣。
數據處理流程 ：然后將融合的 CV 元數據傳遞給數據處理流程，由其生成 CV 元數據疊加輸入幀，供 VLM 執行 SoM 提示。
密集描述生成 ：生成融合的 CV 元數據和 VLM 生成的密集描述。

舉個例子。在交通監控方面，啟用具有用戶指定目標類別 (例如“vehicle, truck”) 的 CV 管道可在視頻中檢測和跟蹤這些目標。每個視頻塊均由 VLM 模型處理，并使用對象 ID 和分割遮罩覆蓋已采樣的幀。VLM 模型使用這些 ID 來生成密集描述并促進問答交互。例如，如果在一段很長的交叉路口視頻中出現多輛紅色汽車，則指定確切的對象 ID 可確保清晰識別所提及的車輛 (圖 2) 。

A sample frame of traffic intersection video shows a CV overlay that includes object IDs and segmentation masks. An example Q&A text box shows how labeled IDs provide more contextual answers. The query says, “Do you see any abnormal events in the video clip? If so, which cars are involved?” The response says, “Yes, I see an abnormal event in the video clip, which is a collision between two cars. The cars involved are a red car (labeled 20) and a yellow car (labeled 21). The collision occurs at the intersection and is described in Event 1: Collision.” — 圖 2。帶有 Object IDs 和 Segmentation Masks 的示例幀，以及 QA

按照 VLM、音頻和 CV 工作流，VLM 視頻描述、音頻轉錄、邊界框和分割遮罩以及時間戳信息等其他元數據將發送到檢索工作流，以進行進一步處理和索引，如圖 3 所示。

The diagram shows three different modality outputs from a basketball video: dense captions, CV and tracking metadata, and the audio transcript. All are sent over to the databases (vector DB and graph DB). — *圖 3。一個籃球視頻的多種模式樣本輸出*

這些融合數據被嵌入并存儲在向量數據庫以及要在檢索管道期間訪問的圖形數據庫。這使得智能體能夠在場景中的實體之間形成時間和空間關系，同時增強其基于音頻轉錄的視覺理解。

通過 CA-RAG 優化智能體檢索

CA-RAG 是視頻搜索和摘要智能體中的一個專用模塊，可增強從視頻數據中檢索和生成符合上下文的準確信息的能力。

CA-RAG 從每個塊的 VLM 響應中提取有用信息，并聚合這些信息以執行有用的任務，例如摘要、問答和警報。有關各項任務的更多信息，請參閱使用 NVIDIA AI Blueprint 構建視頻搜索和摘要智能體。

它支持的功能包括：

時間推理：理解不同時間的事件序列。
多跳推理：連接多個信息片段來回答復雜的查詢。
異常檢測：識別視頻內容中的異常模式或行為。
可擴展性 ：高效處理大量視頻數據集。

為提高性能和效率，我們對 CA-RAG 進行了幾項關鍵改進：

批量摘要和實體提取
GraphRAG 優化
獨立進程

批量摘要和實體提取

CA-RAG 現在采用內置的 Batcher 實現來優化性能。此方法通過將文檔分批整理以進行異步處理來處理亂序視頻塊描述。

當所有批量完成后，最終任務（例如 summarization aggregation）可以繼續執行，從而提高效率并降低延遲。

GraphRAG 優化?

以前，CA-RAG 會在構建圖形之前等待所有 VLM 標題，這會導致延遲。

現在，CA-RAG 會在提取數據塊的同時動態創建圖形，從而實現圖形創建和摘要的并行處理。這可縮短總體處理時間并提高可擴展性。

獨立進程?

CA-RAG 現在在自己的專用進程中運行，具有用于處理異步請求的獨立事件循環。這一變化消除了共享執行上下文中的瓶頸，實現了數據處理工作流與 CA-RAG 之間的真正并行。

其結果是提高了系統響應速度、降低了延遲，并更大限度地提高了大規模工作負載的資源利用率。

VSS 藍圖性能?

VSS Blueprint 針對 NVIDIA GPU 進行了高度優化，可將視頻摘要任務的速度提升高達 100 倍。它專為實現靈活性而設計，可以部署在針對特定用例定制的各種拓撲中，確保優化資源利用率。

對于單個流輸入，性能由完成摘要請求所需的延遲來衡量。相比之下，對于突發視頻文件輸入，性能取決于可以并發處理的指定長度的視頻片段的最大數量，以實現可接受的延遲。對于給定的部署拓撲，影響延遲的主要因素包括：

視頻長度
數據塊大小
聚合批量大小
啟用 VectorRAG 或 GraphRAG

視頻長度和 chunk size 都會影響需要處理的視頻塊總數，而這決定了提取視頻所需的 VLM 和 LLM 調用數量。Aggregation batch size 決定了將在單個 LLM 請求中組合的 VLM 輸出數量：

$\text{Video Chunks} = \frac{\text{Video Length}}{\text{Chunk Size}}$

$\text{VLM Calls} = \text{Number of Video Chunks}$

$\text{LLM Calls} = \frac{\text{Number of Video Chunks}}{\text{Aggregation Batch Size}} +?1$

$\text{LLM Calls (with GraphRAG)} = \frac{\text{Number of Video Chunks}}{\text{Aggregation Batch Size}} + \text{Number of Video Chunks} +?1$

摘要會話的總體延遲可定義為端到端 (E2E) 延遲：

$\text{E2E latency} = \left(\frac{\text{Upload latency}}{\text{Streaming latency}}\right) + \text{Summarization latency}$

上傳或流式傳輸延遲取決于網絡。摘要延遲現在包括將視頻分割成多個塊，為每個塊生成 VLM 描述，以及 LLM 調用聚合和最終摘要生成，如上述方程中所述。

圖 4 比較了各種拓撲和模型中使用 10 秒數據塊大小的 60 分鐘視頻的 summarization latency。圖 5 展示了在給定輸入視頻長度的情況下，1 分鐘內可處理的視頻片段數量，并展示了突發文件輸入的系統吞吐量。

Bar graph showing time to summarize a 60-minute video using 10-second chunk size, across different GPU deployments: 8xH100, 8xH200, 4xH100, 8xA100 (80GB), 8xL40S, 1xH100. — *圖 4* 。在不同的 GPU 部署中匯總 60 分鐘視頻 (數據塊大小為 10 秒) 所需的時間

Bar graphs showing burst file throughput, with number of videos processed in 1 minute on the y-axis, and varying lengths of input videos on the x-axis. — *圖 5。Burst file throughput，顯示 1 分鐘內針對不同長度的輸入視頻處理的視頻數量*

最佳 chunk size 取決于視頻的動態以及摘要或問答輸出所需的詳細程度。小 chunk size 會增加時間粒度，從而可以捕獲快速移動的物體、事件或動作，例如汽車在高速公路上超速行駛。但是，如果感興趣的事件移動緩慢并隨著時間的推移而分散 (例如檢測野火蔓延) ，則可以使用更大的 chunk size 來減少冗余處理。

開發和部署選項

得益于模塊化藍圖，NVIDIA 提供了各種部署選項來滿足不同需求。這種靈活性支持輕松配置和定制，確保這些解決方案可以根據您的特定要求進行定制。

NVIDIA API Catalog
NVIDIA 可啟動內容
Docker 或 Helm chart 部署
云部署

NVIDIA API Catalog?

如需了解有關該藍圖的更多信息并試用一些示例，請參閱 build.nvidia.com 上的 VSS 藍圖演示。

NVIDIA 可啟動內容?

NVIDIA Launchables 可在云端提供經過全面優化的預配置計算和軟件環境。

本次部署使用 docker compose 方法搭建 VSS 藍圖，提供精簡高效的部署流程。部署 VSS 藍圖，在您自己的視頻中試用。

Docker 或 Helm chart 部署

NVIDIA 使用 docker compose 和一鍵式 Helm 圖表提供部署選項。這些方法可以針對更精細的部署 (例如交換模型) 進行單獨配置。有關更多信息，請參閱 VSS 部署指南。

云部署?

VSS 包含一系列部署腳本，可為跨多個云平臺部署應用提供穩健、靈活且安全的方法。目前支持 AWS，即將推出 Azure 和 GCP 支持。

這個全面的工具包支持在不同的云環境中進行一致部署。有關 AWS 部署的更多信息，請參閱 VSS Cloud 部署指南。

模塊化架構由以下層組成：

基礎架構：處理云提供商特定的設置。
平臺：管理 Kubernetes 和相關平臺組件。
應用程序：部署實際的應用程序工作負載。

總結?

下載藍圖，并使用您的 NVIDIA 開發者帳戶開始開發。有關更多信息，請參閱以下資源：

預覽 VSS 藍圖
NVIDIA Launchable 上的 VSS (使用您自己的視頻)
NVIDIA-AI-Blueprints/視頻搜索和摘要 GitHub 資料庫
視覺 AI 智能體論壇

如需了解更多信息，請與 NVIDIA 創始人兼首席執行官 Jensen Huang 一起參加 COMPUTEX 2025 主題演講，并在 COMPUTEX 2025 上參加 GTC Taipei 分會，時間截止至 5 月 23 日。

訂閱我們的時事通訊，并在 LinkedIn、Instagram、X 和 Facebook 上關注 NVIDIA AI，及時了解最新動態。探索 NVIDIA 文檔和 YouTube 頻道，并加入 NVIDIA Developer Vision AI 論壇。