Metropolis – NVIDIA 技術博客

Metropolis – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞和內容。 Thu, 22 May 2025 05:57:26 +0000 zh-CN hourly 1 196178272 使用 NVIDIA AI Blueprint 進行視頻搜索和摘要，推動視頻分析 AI 智能體的發展 http://www.open-lab.net/zh-cn/blog/advance-video-analytics-ai-agents-using-the-nvidia-ai-blueprint-for-video-search-and-summarization/ Sun, 18 May 2025 05:39:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=13932 Continued]]> 與傳統的 Computer Vision (CV) 模型相比， Vision Language Models (VLMs) 實現了更廣泛的感知和更豐富的上下文理解，從而改變了視頻分析。然而，上下文長度有限和缺乏音頻轉錄等挑戰仍然存在，限制了 VLM 一次可以處理的視頻數量。為克服這一問題，適用于視頻搜索和摘要 (VSS) 的 NVIDIA AI Blueprint 將 VLM、LLM 和檢索增強生成 (RAG) 與高效的提取、檢索和存儲機制相集成，從而實現存儲和實時視頻分析。視覺 AI 智能體可應用于監控智能空間、倉庫自動化和 SOP 驗證等眾多用例。 NVIDIA 宣布推出適用于視頻搜索和摘要的 NVIDIA AI Blueprint 新版本并全面推出 (GA) 。此版本包含多項新功能，包括多實時流、突發模式提取、可自定義 CV 流程和音頻轉錄。

]]>

13932

工業設施數字孿生中的機器人仿真 http://www.open-lab.net/zh-cn/blog/simulating-robots-in-industrial-facility-digital-twins/ Mon, 31 Mar 2025 08:20:44 +0000 http://www.open-lab.net/zh-cn/blog/?p=13443 Continued]]> 工業企業正在采用物理 AI 和自主系統來實現運營轉型。這涉及在工廠和倉庫中部署異構機器人車隊，包括移動機器人、人形助手、智能攝像頭和 AI 智能體。為了充分利用這些支持物理 AI 的系統的全部潛力，公司依賴于其設施的數字孿生，即用于模擬和優化自主系統交互方式以及執行復雜任務的虛擬環境。這種 simulation-first 方法使企業能夠在實際部署之前驗證其機器人車隊是否能夠在動態環境中進行協調和適應，從而加速向真正自主的工業運營過渡。借助 Mega NVIDIA Omniverse Blueprint ，企業能夠加速物理 AI 在工廠、倉庫和工業設施中的開發和部署。該工作流使開發者能夠利用傳感器仿真和合成數據生成來模擬復雜的自主操作，并在實際部署之前驗證工業數字孿生中物理 AI 系統的性能。本文將介紹該藍圖的組件，

]]>

13443

使用 NVIDIA AI Blueprint 構建實時多模態 XR 應用以進行視頻搜索和摘要 http://www.open-lab.net/zh-cn/blog/build-real-time-multimodal-xr-apps-with-nvidia-ai-blueprint-for-video-search-and-summarization/ Tue, 11 Mar 2025 06:43:16 +0000 http://www.open-lab.net/zh-cn/blog/?p=13357 Continued]]> 隨著生成式 AI 和視覺基礎模型的最新進展，VLM 呈現了新一波視覺計算浪潮，其中模型能夠實現高度復雜的感知和深度上下文理解。這些智能解決方案為增強 XR 設置中的語義理解提供了一種很有前景的方法。通過集成 VLM，開發者可以顯著改進 XR 應用解釋用戶操作以及與用戶操作交互的方式，使其響應速度更快、更直觀。本文將向您介紹如何利用 NVIDIA AI Blueprint 進行視頻搜索和摘要，以及如何增強 Blueprint 以支持 XR 環境中的音頻。我們介紹了實時語音識別和沉浸式交互的分步過程——從設置環境到無縫集成。借助對話式 AI 功能增強 XR 應用，為用戶帶來更加身臨其境的體驗。通過創建在 XR 環境中提供 Q&A 功能的生成式 AI 智能體，用戶可以更自然地進行交互并獲得即時幫助。多模態 AI 智能體處理并合成多種輸入模式，例如視覺數據 (例如 XR…

]]>

13357

圖像和視頻理解的視覺語言模型提示工程實踐指南 http://www.open-lab.net/zh-cn/blog/vision-language-model-prompt-engineering-guide-for-image-and-video-understanding/ Wed, 26 Feb 2025 06:49:25 +0000 http://www.open-lab.net/zh-cn/blog/?p=13030 Continued]]> 視覺語言模型 (VLMs) 正在以極快的速度發展。2020 年，首批 VLMs 通過使用視覺編碼器將視覺理解引入大語言模型 (LLMs) ，徹底改變了生成式 AI 格局。這些初始 VLMs 能力有限，只能理解文本和單張圖像輸入。幾年后，VLM 現在能夠理解多圖像和視頻輸入，以執行高級視覺語言任務，例如視覺問答 (VQA)、字幕、搜索和摘要。通過調整提示和模型權重，可以提高特定用例的 VLM 準確性。可以使用 PEFT 等高效技術微調模型權重，但仍需要足夠的數據和計算。但是， prompt engineering 和上下文學習也可用于提高輸出質量，并且與在運行時調整模型的文本輸入一樣簡單。本文將為您介紹 VLM 的演變，以及如何有效地提示 VLM 以用于了解單張圖像、多張圖像和視頻的用例。如需了解有關 VLM 和視覺 AI 智能體的更多信息，

]]>

13030

利用 NVIDIA AI Blueprint 搭建視頻搜索和摘要智能代理 http://www.open-lab.net/zh-cn/blog/build-a-video-search-and-summarization-agent-with-nvidia-ai-blueprint/ Mon, 04 Nov 2024 06:33:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=11837 Continued]]> 本文最初于 2024 年 7 月 29 日發布，但已根據 NVIDIA AI Blueprint 信息進行了大量修改。傳統的視頻分析應用及其開發工作流通常基于功能固定的、有限的模型構建，這些模型旨在僅檢測和識別一組預定義的對象。借助生成式 AI 、NVIDIA NIM 微服務和基礎模型，您現在可以使用更少的模型構建具有廣泛感知和豐富上下文理解的應用程序。新型生成式 AI 模型，即視覺語言模型（VLM），為視覺 AI 智能體提供支持，這些智能體可以理解自然語言提示并執行視覺問答。通過結合 VLM、LLM 和最新的 Graph-RAG 技術，您可以構建功能強大的視覺 AI 智能體，從而實現對視頻的長篇理解。這些可視化 AI 智能體將部署在工廠、倉庫、零售商店、機場、交叉路口等地。它們將幫助運營團隊利用從自然交互中生成的更豐富的見解做出更明智的決策。

]]>

11837

基于 NVIDIA NIM 的多模態視覺 AI 智能體構建解決方案 http://www.open-lab.net/zh-cn/blog/build-multimodal-visual-ai-agents-powered-by-nvidia-nim/ Thu, 31 Oct 2024 09:20:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=11846 Continued]]> 視覺數據（從圖像到 PDF 再到流式視頻）呈指數級增長，這使得人工審查和分析幾乎不可能實現。組織正在努力將這些數據大規模轉換為切實可行的見解，從而導致錯失機會并增加風險。為了應對這一挑戰，視覺語言模型（VLMs）正在成為強大的工具，將圖像和視頻的視覺感知與基于文本的推理相結合。與僅處理文本的傳統大語言模型（LLMs）不同，VLMs 使您能夠構建視覺 AI 智能體，以便理解和處理復雜的多模態數據，并對其采取行動，從而實現實時決策和自動化。想象一下，擁有一個智能 AI 智能體，它可以分析遠程攝像頭鏡頭以檢測野火的早期跡象，或者掃描業務文檔以提取隱藏在圖表、表格和圖像中的關鍵信息——這一切都可以自動完成。借助 NVIDIA NIM 微服務，構建這些先進的視覺 AI 智能體比以往更容易、更高效。NIM 微服務提供靈活的自定義、簡化的 API 集成和流暢的部署，

]]>

11846

簡化攝像頭校準，提高 AI 驅動的多攝像頭跟蹤能力 http://www.open-lab.net/zh-cn/blog/simplifying-camera-calibration-to-enhance-ai-powered-multi-camera-tracking/ Tue, 27 Aug 2024 07:21:55 +0000 http://www.open-lab.net/zh-cn/blog/?p=11098 Continued]]> 這篇文章是關于構建多攝像頭追蹤視覺AI應用的系列文章中的第三篇。我們將在第一部分和第二部分中介紹整體端到端工作流程和微調流程，以提高系統準確性。 NVIDIA Metropolis 是一個應用框架和一套開發者工具，可利用 AI 進行各行各業的視覺數據分析。其多攝像頭追蹤參考 AI 工作流由云原生 NVIDIA Metropolis 微服務提供支持，可跨多個攝像頭實現高級物體追蹤和定位。本文討論了攝像頭校準、如何使用 NVIDIA Metropolis 攝像頭校準工具包校準真實攝像頭，以及如何使用 NVIDIA Omniverse 擴展程序校準合成攝像頭。攝像頭校正是確定特定攝像頭參數或估計攝像頭特征的過程。攝像頭校正可以將攝像頭在 2D 中看到的內容轉換為真實的坐標系統，它是許多基于視覺的應用程序的基礎。例如，在創建多攝像頭跟蹤應用程序時，

]]>

11098

使用 NVIDIA NIM 和 NVIDIA VIA 微服務構建 VLM 驅動的視覺 AI 代理 http://www.open-lab.net/zh-cn/blog/build-vlm-powered-visual-ai-agents-using-nvidia-nim-and-nvidia-via-microservices/ Mon, 29 Jul 2024 07:09:19 +0000 http://www.open-lab.net/zh-cn/blog/?p=10806 Continued]]> 傳統的視頻分析應用程序及其開發工作流通常基于固定功能且受限的模型構建，這些模型旨在僅檢測和識別一組選定的預定義對象。借助生成式 AI、NVIDIA NIM 微服務和基礎模型，您現在可以使用更少的模型構建具有廣泛感知和豐富語境理解的應用程序。新型生成式 AI 模型即視覺語言模型 (VLM) 為視覺 AI 智能體提供支持，這些智能體可以理解自然語言提示并執行視覺問答。視覺 AI 智能體解鎖了完全的應用可能性，顯著簡化了應用開發工作流程，并提供了變革性的新感知功能，如圖像或視頻摘要、交互式視覺問答和視覺警報。這些視覺 AI 智能體將部署在工廠、倉庫、零售商店、機場、交通交叉路口等地。它們將幫助運營團隊使用從自然交互中生成的更豐富的見解做出更明智的決策。 NVIDIA NIM 和 NVIDIA VIA 微服務旨在加速視覺 AI 代理的開發。在本文中，

]]>

10806

為邊緣開發生成式 AI 驅動的視覺 AI 代理 http://www.open-lab.net/zh-cn/blog/develop-generative-ai-powered-visual-ai-agents-for-the-edge/ Wed, 17 Jul 2024 05:04:23 +0000 http://www.open-lab.net/zh-cn/blog/?p=10648 Continued]]> AI 技術領域的一項令人興奮的突破是視覺語言模型（VLM），它為視頻分析提供了一種更動態、更靈活的方法。VLM 使用戶能夠使用自然語言與圖像和視頻輸入進行交互，使技術更具可訪問性和適應性。這些模型可以在 NVIDIA Jetson Orin 邊緣 AI 平臺上運行，也可以通過 NIM 在獨立的 GPU 上運行。本文將探討如何構建基于 VLM 的視覺 AI 代理，以便從邊緣到云端運行。視覺 AI 智能體由 VLM 提供支持，在其中您可以使用自然語言提出各種問題，并在錄制或直播視頻中獲得反映真實意圖和上下文的見解。這些智能體可以通過易于使用的 REST API 進行交互，并與其他服務甚至移動應用集成。新一代視覺 AI 智能體具有多種功能，包括總結場景、創建各種警報，以及使用自然語言從視頻中提取可行見解。 NVIDIA Metropolis 帶來了視覺 AI 代理工作流，

]]>

10648

利用合成數據微調 AI 模型提升多攝像頭跟蹤精度 http://www.open-lab.net/zh-cn/blog/enhance-multi-camera-tracking-accuracy-by-fine-tuning-ai-models-with-synthetic-data/ Wed, 10 Jul 2024 06:51:40 +0000 http://www.open-lab.net/zh-cn/blog/?p=10592 Continued]]> 針對特定用例的大規模合成數據在現實世界的計算機視覺和 AI 工作流程中變得越來越重要。這是因為數字孿生是一種強大的方式，可以為工廠、零售空間和其他資產創建基于物理性質的虛擬副本，從而實現真實環境的精確模擬。 NVIDIA Isaac Sim 基于 NVIDIA Omniverse 構建，是一款完全可擴展的參考應用，用于設計、模擬、測試和訓練支持 AI 的機器人。 Omni.Replicator.Agent (ORA) 是 Isaac Sim 中的一個擴展，用于生成合成數據，以便專門用于訓練計算機視覺模型，例如 TAO PeopleNet Transformer 和 TAO ReIdentificationNet Transformer. 本文是關于構建多攝像頭追蹤視覺 AI 應用的系列文章的第二篇。在第一篇文章中，我們提供了端到端多攝像頭追蹤工作流程的高級視圖，涵蓋模型的模擬、

]]>

10592

NVIDIA Metropolis Microservices 和 NVIDIA Isaac Sim 的實時視覺 AI 從數字孿生到云原生部署 http://www.open-lab.net/zh-cn/blog/real-time-vision-ai-from-digital-twins-to-cloud-native-deployment-with-nvidia-metropolis-microservices-and-nvidia-isaac-sim/ Mon, 24 Jun 2024 05:35:32 +0000 http://www.open-lab.net/zh-cn/blog/?p=10434 Continued]]> 隨著視覺人工智能復雜性的增加，精簡的部署解決方案對優化空間和流程至關重要。NVIDIA 通過 NVIDIA Metropolis AI 工作流和微服務加速開發，將想法在數周而非數月內轉化為現實。在這篇文章中，我們將探討Metropolis 微服務的功能：視頻 1。從數字孿生到多攝像機跟蹤的端到端工作流程使用人工智能管理和自動化基礎設施具有挑戰性，尤其是對于超市、倉庫、機場、港口和城市等大型復雜空間。這不僅僅是為了擴大攝像頭的數量，而是構建視覺人工智能應用程序，可以智能地監控、提取見解，并在數萬或數十萬平方英尺空間內數百或數千臺攝像頭中突出顯示異常情況。微服務架構通過將復雜的多攝像頭 AI 應用程序分解為更小、獨立的單元，并通過定義良好的 API 進行交互，從而實現其可擴展性、靈活性和彈性，

]]>

10434

利用多攝像頭追蹤工作流程優化大型空間的流程 http://www.open-lab.net/zh-cn/blog/optimize-processes-for-large-spaces-with-the-multi-camera-tracking-workflow/ Sun, 02 Jun 2024 08:25:30 +0000 http://www.open-lab.net/zh-cn/blog/?p=10235 Continued]]> 倉庫、工廠、體育場和機場等大片區域通常由數百個攝像頭進行監控，以提高安全性并優化運營。通過這些攝像頭準確跟蹤物體和測量活動稱為多攝像頭跟蹤，可讓您有效地監控和管理空間。例如，零售商店可以使用多攝像頭跟蹤來了解客戶如何在通道中導航，并改善商店布局，以獲得更好的購物體驗。倉庫可以監控設備、材料和人員的移動，以提高安全性、提高交付速度并降低成本。機場可以跟蹤人員流動，以增強安全性和出行體驗。然而，實施多攝像頭追蹤系統可能具有挑戰性。首先，從不同的角度和視圖在多個攝像頭源中匹配受試者需要先進的算法和 AI 模型，準確訓練可能需要數月時間。特別是，真值訓練數據集很少，因為標記需要一個人或多達一個小組審查來自多個攝像頭的所有流，以實現一致的識別和跟蹤，從而延遲 AI 模型訓練。其次，實時多攝像頭跟蹤需要構建用于實時數據流、多流融合、行為分析和異常檢測的專用模塊，

]]>

10235

NVIDIA DeepStream 7.0 里程碑式發布，用于下一代視覺 AI 開發 http://www.open-lab.net/zh-cn/blog/nvidia-deepstream-7-0-milestone-release-for-next-gen-vision-ai-development/ Tue, 14 May 2024 06:35:57 +0000 http://www.open-lab.net/zh-cn/blog/?p=9984 Continued]]> NVIDIA DeepStream 是一個功能強大的 SDK，可以解鎖 GPU 加速的構建塊，以構建端到端的視覺 AI 管道。憑借 40 多個現成的插件，您可以輕松部署具有尖端 AI 推理、對象跟蹤和流行的物聯網消息代理（如 REDIS、Kafka 和 MQTT）無縫集成的完全優化的管道。 DeepStream 提供直觀的 REST API 來控制您的 AI 管道，無論是部署在遠端還是云端。 DeepStream 7.0 的最新版本是我們迄今為止最重要的版本之一，旨在為您在生成人工智能時代提供突破性的功能。此版本包含旨在加速下一代應用程序開發的創新功能。發布亮點包括以下內容：立即下載 DeepStream 7.0 版。在構建視覺人工智能應用程序時，業務的首要任務是優化人工智能管道，以獲得一流的性能。無論你是一名經驗豐富的職業選手，

]]>

9984

在 NVIDIA DeepStream 中使用單視圖 3D 跟蹤緩解視覺感知障礙 http://www.open-lab.net/zh-cn/blog/mitigating-occlusions-in-visual-perception-using-single-view-3d-tracking-in-nvidia-deepstream/ Wed, 08 May 2024 06:16:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=9846 Continued]]> 當涉及到智能視頻分析（IVA）應用程序（如交通監控、倉庫安全和零售購物者分析）的感知時，最大的挑戰之一是閉塞。例如，人們可能會移動到結構障礙物后面，零售購物者可能由于貨架單元而無法完全看到，汽車可能會隱藏在大型卡車后面。本文將解釋如何利用 NVIDIA DeepStream SDK 解決現實生活中 IVA 部署中常見的視覺感知遮擋問題。在我們的物理世界中，通過相機鏡頭觀察到的一些物體的運動可能看起來不穩定。這是由于相機對 3D 世界的 2D 表示。水星和火星等行星的逆行就是一個例子，這讓古希臘天文學家感到困惑。他們無法解釋為什么行星有時會向后移動（圖 1）。所感知到的明顯退行是由于恒星和行星在夜空中的軌跡造成的。這些是宇宙三維空間中軌道運動在夜空二維畫布上的投影。如果古代天文學家知道三維空間的運動模式，他們就可以預測這些行星在二維夜空中的出現。

]]>

9846

如何通過四個步驟將 RAG 應用程序從試點階段轉變為生產階段 http://www.open-lab.net/zh-cn/blog/how-to-take-a-rag-application-from-pilot-to-production-in-four-steps/ Mon, 18 Mar 2024 07:06:29 +0000 http://www.open-lab.net/zh-cn/blog/?p=9399 Continued]]> 生成式 AI 具有改變各個行業的巨大潛力。人類工作者已經開始使用大型語言模型(LLM) 來解釋、推理和解決復雜的認知任務。檢索增強生成(RAG) 將 LLM 與數據連接起來，通過允許 LLM 訪問準確和最新的信息，擴展了 LLM 的功能。許多企業已經開始探索 RAG 如何幫助他們實現業務流程自動化和挖掘數據以獲取見解。盡管大多數企業已經啟動了多個與生成式 AI 用例一致的試點，據估計，其中 90%的模型在不久的將來不會超出評估階段。將引人入勝的 RAG 演示轉化為可提供真正商業價值的生產服務仍然具有挑戰性。在這篇博客中，我們將介紹 NVIDIA AI 如何通過四個步驟幫助您將 RAG 應用從試點階段遷移到生產階段。開發和部署生產就緒型企業 RAG 工作流會遇到許多障礙。 IT 管理員面臨著與 LLM 安全性、可用性、可移植性和數據治理相關的挑戰。

]]>

9399

人人超碰97caoporen国产