Bhushan Rupde – NVIDIA 技術博客

使用 NVIDIA AI Blueprint 進行視頻搜索和摘要，推動視頻分析 AI 智能體的發展

Sun, 18 May 2025 05:39:36 +0000

與傳統的 Computer Vision (CV) 模型相比， Vision Language Models (VLMs) 實現了更廣泛的感知和更豐富的上下文理解，從而改變了視頻分析。然而，上下文長度有限和缺乏音頻轉錄等挑戰仍然存在，限制了 VLM 一次可以處理的視頻數量。為克服這一問題，適用于視頻搜索和摘要 (VSS) 的 NVIDIA AI Blueprint 將 VLM、LLM 和檢索增強生成 (RAG) 與高效的提取、檢索和存儲機制相集成，從而實現存儲和實時視頻分析。視覺 AI 智能體可應用于監控智能空間、倉庫自動化和 SOP 驗證等眾多用例。 NVIDIA 宣布推出適用于視頻搜索和摘要的 NVIDIA AI Blueprint 新版本并全面推出 (GA) 。此版本包含多項新功能，包括多實時流、突發模式提取、可自定義 CV 流程和音頻轉錄。

Source

]]>

利用 NVIDIA AI Blueprint 搭建視頻搜索和摘要智能代理

Mon, 04 Nov 2024 06:33:13 +0000

本文最初于 2024 年 7 月 29 日發布，但已根據 NVIDIA AI Blueprint 信息進行了大量修改。傳統的視頻分析應用及其開發工作流通常基于功能固定的、有限的模型構建，這些模型旨在僅檢測和識別一組預定義的對象。借助生成式 AI 、NVIDIA NIM 微服務和基礎模型，您現在可以使用更少的模型構建具有廣泛感知和豐富上下文理解的應用程序。新型生成式 AI 模型，即視覺語言模型（VLM），為視覺 AI 智能體提供支持，這些智能體可以理解自然語言提示并執行視覺問答。通過結合 VLM、LLM 和最新的 Graph-RAG 技術，您可以構建功能強大的視覺 AI 智能體，從而實現對視頻的長篇理解。這些可視化 AI 智能體將部署在工廠、倉庫、零售商店、機場、交叉路口等地。它們將幫助運營團隊利用從自然交互中生成的更豐富的見解做出更明智的決策。

Source

]]>

使用 NVIDIA NIM 和 NVIDIA VIA 微服務構建 VLM 驅動的視覺 AI 代理

Mon, 29 Jul 2024 07:09:19 +0000

傳統的視頻分析應用程序及其開發工作流通常基于固定功能且受限的模型構建，這些模型旨在僅檢測和識別一組選定的預定義對象。借助生成式 AI、NVIDIA NIM 微服務和基礎模型，您現在可以使用更少的模型構建具有廣泛感知和豐富語境理解的應用程序。新型生成式 AI 模型即視覺語言模型 (VLM) 為視覺 AI 智能體提供支持，這些智能體可以理解自然語言提示并執行視覺問答。視覺 AI 智能體解鎖了完全的應用可能性，顯著簡化了應用開發工作流程，并提供了變革性的新感知功能，如圖像或視頻摘要、交互式視覺問答和視覺警報。這些視覺 AI 智能體將部署在工廠、倉庫、零售商店、機場、交通交叉路口等地。它們將幫助運營團隊使用從自然交互中生成的更豐富的見解做出更明智的決策。 NVIDIA NIM 和 NVIDIA VIA 微服務旨在加速視覺 AI 代理的開發。在本文中，

Source

]]>

使用 NVIDIA DeepStream 5.0 構建智能視頻分析應用程序（已為 GA 更新）

Sat, 01 Aug 2020 07:01:59 +0000

無論是希望平衡產品分布和優化交通的倉庫，工廠裝配線檢查，還是醫院管理，確保員工和護理人員在護理患者時使用個人防護設備（ PPE ），高級智能視頻分析（ IVA ）都非常有用。在基礎層，全球各地的城市、體育場館、工廠和醫院部署了數十億臺攝像頭和物聯網傳感器，每天產生數 PB 的數據。隨著數據爆炸，使用人工智能來簡化和執行有效的 IVA 是非常必要的。許多公司和開發人員都在努力構建可管理的 IVA 管道，因為這些工作需要人工智能專業知識、高效的硬件、可靠的軟件和廣泛的資源來大規模部署。 NVIDIA 構建了 DeepStream 軟件開發工具包來消除這些障礙，并使每個人都能夠輕松高效地創建基于人工智能的 GPU 加速應用程序，用于視頻分析。 DeepStream SDK 是一個可擴展的框架，用于為 edge 構建高性能、可管理的 IVA 應用程序。

Source

]]>