智慧城市/空間 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 22 May 2025 06:19:33 +0000 zh-CN hourly 1 196178272 使用 OpenUSD 和 SimReady 資產構建 AI 工廠 http://www.open-lab.net/zh-cn/blog/designing-ai-factories-using-openusd-and-simready-assets/ Sun, 18 May 2025 06:09:21 +0000 http://www.open-lab.net/zh-cn/blog/?p=13941 Continued]]> 適用于 AI 工廠 數字孿生的 NVIDIA Omniverse Blueprint 在 COMPUTEX 2025 上發布 ,現已支持 OpenUSD 模式 。該藍圖采用新工具,可在電力、冷卻和網絡基礎設施方面模擬數據中心設計的更多方面。工程團隊現在可以在逼真的虛擬世界中設計和測試整個 AI 工廠,幫助他們及早發現問題,從而構建更智能、更可靠的設施。 此藍圖的核心是 SimReady 標準化工作流程的首次亮相,該框架用于映射實現 SimReady 資產和功能所需的基本流程、角色、文檔和技術。 NVIDIA 的開發初衷是幫助內部團隊應對圍繞專為多個模擬運行時設計的 OpenUSD 資產構建新規范的獨特挑戰,現在,NVIDIA 正在公開提供這種“生命資源”。通過與更廣泛的生態系統分享經驗,NVIDIA 旨在幫助開發者簡化其工作流程,

Source

]]>
13941
使用 NVIDIA AI Blueprint 進行視頻搜索和摘要,推動視頻分析 AI 智能體的發展 http://www.open-lab.net/zh-cn/blog/advance-video-analytics-ai-agents-using-the-nvidia-ai-blueprint-for-video-search-and-summarization/ Sun, 18 May 2025 05:39:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=13932 Continued]]> 與傳統的 Computer Vision (CV) 模型相比, Vision Language Models (VLMs) 實現了更廣泛的感知和更豐富的上下文理解,從而改變了視頻分析。然而,上下文長度有限和缺乏音頻轉錄等挑戰仍然存在,限制了 VLM 一次可以處理的視頻數量。 為克服這一問題,適用于視頻搜索和摘要 (VSS) 的 NVIDIA AI Blueprint 將 VLM、LLM 和 檢索增強生成 (RAG) 與高效的提取、檢索和存儲機制相集成,從而實現存儲和實時視頻分析。視覺 AI 智能體可應用于監控智能空間、倉庫自動化和 SOP 驗證等眾多用例。 NVIDIA 宣布推出適用于視頻搜索和摘要的 NVIDIA AI Blueprint 新版本并全面推出 (GA) 。此版本包含多項新功能,包括多實時流、突發模式提取、可自定義 CV 流程和音頻轉錄。

Source

]]>
13932
使用 OpenUSD 實現模塊化和可擴展的機器人仿真和開發 http://www.open-lab.net/zh-cn/blog/using-openusd-for-modular-and-scalable-robotic-simulation-and-development/ Tue, 18 Mar 2025 04:25:42 +0000 http://www.open-lab.net/zh-cn/blog/?p=13305 Continued]]> 在 物理 AI 飛速發展的推動下 ,機器人領域正在經歷重大變革。這一演變加快了新機器人解決方案的上市時間,增強了人們對其安全能力的信心,并有助于 為工廠和倉庫中的物理 AI 提供動力支持 。 在 GTC 上宣布推出的 Newton 是一款開源、可擴展的物理引擎,由 NVIDIA、Google DeepMind 和 Disney Research 共同開發,旨在推動機器人學習和開發。 NVIDIA Cosmos 作為基于開放模型許可的世界基礎模型 (WFM) 平臺推出,旨在加速自動駕駛汽車和機器人等自主機器的物理 AI 開發。 最新發布的 NVIDIA Omniverse Kit SDK 107 是機器人應用的另一個重要里程碑。它升級到 OpenUSD 版本 24.05,同時更新了 Python、C++和 Linux ABI。NVIDIA Isaac Sim 5.0…

Source

]]>
13305
使用 NVIDIA AI Blueprint 構建實時多模態 XR 應用以進行視頻搜索和摘要 http://www.open-lab.net/zh-cn/blog/build-real-time-multimodal-xr-apps-with-nvidia-ai-blueprint-for-video-search-and-summarization/ Tue, 11 Mar 2025 06:43:16 +0000 http://www.open-lab.net/zh-cn/blog/?p=13357 Continued]]> 隨著 生成式 AI 和視覺基礎模型的最新進展,VLM 呈現了新一波視覺計算浪潮,其中模型能夠實現高度復雜的感知和深度上下文理解。這些智能解決方案為增強 XR 設置中的語義理解提供了一種很有前景的方法。通過集成 VLM,開發者可以顯著改進 XR 應用解釋用戶操作以及與用戶操作交互的方式,使其響應速度更快、更直觀。 本文將向您介紹如何利用 NVIDIA AI Blueprint 進行視頻搜索和摘要 ,以及如何增強 Blueprint 以支持 XR 環境中的音頻。我們介紹了實時語音識別和沉浸式交互的分步過程——從設置環境到無縫集成。 借助對話式 AI 功能增強 XR 應用,為用戶帶來更加身臨其境的體驗。通過創建在 XR 環境中提供 Q&A 功能的生成式 AI 智能體,用戶可以更自然地進行交互并獲得即時幫助。多模態 AI 智能體處理并合成多種輸入模式,例如視覺數據 (例如 XR…

Source

]]>
13357
圖像和視頻理解的視覺語言模型提示工程實踐指南 http://www.open-lab.net/zh-cn/blog/vision-language-model-prompt-engineering-guide-for-image-and-video-understanding/ Wed, 26 Feb 2025 06:49:25 +0000 http://www.open-lab.net/zh-cn/blog/?p=13030 Continued]]> 視覺語言模型 (VLMs) 正在以極快的速度發展。2020 年,首批 VLMs 通過使用視覺編碼器將視覺理解引入大語言模型 (LLMs) ,徹底改變了生成式 AI 格局。這些初始 VLMs 能力有限,只能理解文本和單張圖像輸入。 幾年后,VLM 現在能夠理解多圖像和視頻輸入,以執行高級視覺語言任務,例如視覺問答 (VQA)、字幕、搜索和摘要。 通過調整提示和模型權重,可以提高特定用例的 VLM 準確性。可以使用 PEFT 等高效技術微調模型權重,但仍需要足夠的數據和計算。 但是, prompt engineering 和上下文學習也可用于提高輸出質量,并且與在運行時調整模型的文本輸入一樣簡單。 本文將為您介紹 VLM 的演變,以及如何有效地提示 VLM 以用于了解單張圖像、多張圖像和視頻的用例。如需了解有關 VLM 和視覺 AI 智能體的更多信息,

Source

]]>
13030
AI 視覺技術助力綠色回收工廠智能化 http://www.open-lab.net/zh-cn/blog/ai-vision-helps-green-recycling-plants/ Thu, 19 Dec 2024 09:05:16 +0000 http://www.open-lab.net/zh-cn/blog/?p=12480 Continued]]> 全球每年僅回收約 13% 的 20 多億噸城市垃圾。到 2050 年,全球每年的城市廢棄物量將達到 3.88 億噸。 但全球回收行業的效率遠遠不夠。每年,價值高達 120 億美元的可回收塑料 (更不用說紙張或金屬了) 最終進入垃圾填埋場,而不是使用回收材料制造的新產品。 英國的初創公司 Greyparrot 開發了一款由 AI 驅動的小型設備,可提供“廢棄物智能”功能,旨在幫助回收工廠變得更高效、更環保。 這款名為 Greyparrot Analyzer 的兩英尺方形時尚設備使用嵌入式攝像頭來識別和區分流經回收工廠的傳送帶上的材料。 該分析器使用機器學習物體檢測模型(ODM)連接到回收工廠,并幫助改造其基礎設施。ODM 根據數千萬張廢棄物圖像進行訓練,捕獲和分析快速廢棄物圖像只需不到 60 毫秒。 分析器的 ODM 使用 NVIDIA H100 Tensor…

Source

]]>
12480
利用 NVIDIA AI Blueprint 搭建視頻搜索和摘要智能代理 http://www.open-lab.net/zh-cn/blog/build-a-video-search-and-summarization-agent-with-nvidia-ai-blueprint/ Mon, 04 Nov 2024 06:33:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=11837 Continued]]> 本文最初于 2024 年 7 月 29 日發布,但已根據 NVIDIA AI Blueprint 信息進行了大量修改。 傳統的視頻分析應用及其開發工作流通常基于功能固定的、有限的模型構建,這些模型旨在僅檢測和識別一組預定義的對象。 借助 生成式 AI 、NVIDIA NIM 微服務和基礎模型,您現在可以使用更少的模型構建具有廣泛感知和豐富上下文理解的應用程序。 新型生成式 AI 模型,即視覺語言模型(VLM),為 視覺 AI 智能體 提供支持,這些智能體可以理解自然語言提示并執行視覺問答。通過結合 VLM、LLM 和最新的 Graph-RAG 技術,您可以構建功能強大的視覺 AI 智能體,從而實現對視頻的長篇理解。 這些可視化 AI 智能體將部署在工廠、倉庫、零售商店、機場、交叉路口等地。它們將幫助運營團隊利用從自然交互中生成的更豐富的見解做出更明智的決策。

Source

]]>
11837
基于 NVIDIA NIM 的多模態視覺 AI 智能體構建解決方案 http://www.open-lab.net/zh-cn/blog/build-multimodal-visual-ai-agents-powered-by-nvidia-nim/ Thu, 31 Oct 2024 09:20:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=11846 Continued]]> 視覺數據(從圖像到 PDF 再到流式視頻)呈指數級增長,這使得人工審查和分析幾乎不可能實現。組織正在努力將這些數據大規模轉換為切實可行的見解,從而導致錯失機會并增加風險。 為了應對這一挑戰,視覺語言模型(VLMs)正在成為強大的工具,將圖像和視頻的視覺感知與基于文本的推理相結合。與僅處理文本的 傳統大語言模型 (LLMs)不同,VLMs 使您能夠構建 視覺 AI 智能體 ,以便理解和處理復雜的多模態數據,并對其采取行動,從而實現實時決策和自動化。 想象一下,擁有一個智能 AI 智能體,它可以分析遠程攝像頭鏡頭以檢測野火的早期跡象,或者掃描業務文檔以提取隱藏在圖表、表格和圖像中的關鍵信息——這一切都可以自動完成。 借助 NVIDIA NIM 微服務 ,構建這些先進的視覺 AI 智能體比以往更容易、更高效。NIM 微服務提供靈活的自定義、簡化的 API 集成和流暢的部署,

Source

]]>
11846
AI 驅動的設備追蹤嚎叫以拯救狼群 http://www.open-lab.net/zh-cn/blog/ai-powered-devices-track-howls-to-save-wolves/ Tue, 29 Oct 2024 05:23:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=11776 Continued]]> 一種可部署在廣大偏遠地區的手機大小的新型設備正在使用人工智能識別和地理定位野生動物,以幫助保護主義者追蹤瀕危物種,包括黃石國家公園周圍的狼群。 這款名為 GrizCams 的電池供電設備由蒙大拿州的一家小型初創公司 Grizzly Systems 設計。他們與生物學家合作,在整個大黃石生態系統中部署一系列設備,以錄制有關狼或狼群叫的時間和地點的音頻和視頻。 一旦完全部署,這些數據可以幫助科學家和環保人士更好地了解狼的行為,并制定新的策略來阻止狼攻擊牲畜。 環保人士每隔幾個月就會在遠程錄音機上從 SD 卡中檢索音頻數據。這些數據由使用數 TB 的狼嚎叫數據訓練的 AI 模型輸入和分析。該模型是一種卷積神經網絡,可將音頻轉換為頻譜圖,然后分析數據,識別狼嚎叫的不同方面,并對聲音的來源進行地理定位。 Grizzly Systems 使用 Azure 云中的 NVIDIA…

Source

]]>
11776
AI 加速電動汽車充電優化,實現規模化提速和成本節省 http://www.open-lab.net/zh-cn/blog/ai-research-revs-up-ev-charging-for-large-scale-optimization-speed-and-savings/ Mon, 14 Oct 2024 04:57:51 +0000 http://www.open-lab.net/zh-cn/blog/?p=11749 Continued]]> 電動汽車(EV)充電正在獲得一項創新的人工智能算法的推動,這項算法提高了效率,降低了成本,并防止電網在壓力下短路。 該實時智能解決方案 由加拿大皇家軍事學院(RMC)的研究團隊開發,優化了大型停車場的充電時間表,平衡快速充電和能源可用性。通過提高充電速度、成本和可用性,人工智能驅動的算法可以幫助為更廣泛地采用電動汽車鋪平道路,電動汽車是減少排放和實現氣候目標的更清潔選擇。 RMC 電氣和計算機工程系教授 Vincent Roberge 表示:“在智能停車場中優化電動汽車的充電時間表,不僅會對消費者產生巨大的影響,因為他們最終會支付更低的價格,而且會在用電量充足時對環境產生巨大的影響。” 電動汽車的普及程度與日俱增,而汽車充電站的可用性則是其中的一個主要缺陷。預測和管理該技術對電網的依賴對于保持駕駛員滿意度和能源基礎設施穩定至關重要。這一點在大型停車場尤為重要,

Source

]]>
11749
NVIDIA TAO 5.5 帶來新基礎模型和增強訓練功能 http://www.open-lab.net/zh-cn/blog/new-foundational-models-and-training-capabilities-with-nvidia-tao-5-5/ Wed, 28 Aug 2024 06:23:45 +0000 http://www.open-lab.net/zh-cn/blog/?p=11078 Continued]]> NVIDIA TAO 是一個旨在簡化和加速 AI 模型開發和部署的框架。它使您能夠使用預訓練模型,使用自己的數據微調模型,并針對特定用例優化模型,而無需深入的 AI 專業知識。 TAO 與 NVIDIA 硬件和軟件生態系統無縫集成,提供用于高效 AI 模型訓練、部署和推理的工具,并加速 AI 驅動應用程序的上市時間。 圖 1 顯示 TAO 支持 PyTorch、TensorFlow 和 ONNX 等框架。訓練可以在多個平臺上完成,而生成的模型可以部署在 GPU、CPU、MCU 和 DLA 等各種推理平臺上。 NVIDIA 剛剛發布了 TAO 5.5,引入了先進的基礎模型和突破性功能,可增強任何 AI 模型開發。新的功能包括以下內容: 在本文中,我們將更詳細地討論 TAO 5.5 的新功能。 NVIDIA TAO 集成了開源、基礎和專有模型,

Source

]]>
11078
簡化攝像頭校準,提高 AI 驅動的多攝像頭跟蹤能力 http://www.open-lab.net/zh-cn/blog/simplifying-camera-calibration-to-enhance-ai-powered-multi-camera-tracking/ Tue, 27 Aug 2024 07:21:55 +0000 http://www.open-lab.net/zh-cn/blog/?p=11098 Continued]]> 這篇文章是關于構建多攝像頭追蹤視覺AI應用的系列文章中的第三篇。我們將在第一部分和第二部分中介紹整體端到端工作流程和微調流程,以提高系統準確性。 NVIDIA Metropolis 是一個應用框架和一套開發者工具,可利用 AI 進行各行各業的視覺數據分析。其多攝像頭追蹤參考 AI 工作流由云原生 NVIDIA Metropolis 微服務提供支持,可跨多個攝像頭實現高級物體追蹤和定位。本文討論了攝像頭校準、如何使用 NVIDIA Metropolis 攝像頭校準工具包校準真實攝像頭,以及如何使用 NVIDIA Omniverse 擴展程序校準合成攝像頭。 攝像頭校正是確定特定攝像頭參數或估計攝像頭特征的過程。攝像頭校正可以將攝像頭在 2D 中看到的內容轉換為真實的坐標系統,它是許多基于視覺的應用程序的基礎。例如,在創建多攝像頭跟蹤應用程序時,

Source

]]>
11098
使用 NVIDIA NIM 和 NVIDIA VIA 微服務構建 VLM 驅動的視覺 AI 代理 http://www.open-lab.net/zh-cn/blog/build-vlm-powered-visual-ai-agents-using-nvidia-nim-and-nvidia-via-microservices/ Mon, 29 Jul 2024 07:09:19 +0000 http://www.open-lab.net/zh-cn/blog/?p=10806 Continued]]> 傳統的視頻分析應用程序及其開發工作流通常基于固定功能且受限的模型構建,這些模型旨在僅檢測和識別一組選定的預定義對象。 借助生成式 AI、NVIDIA NIM 微服務和基礎模型,您現在可以使用更少的模型構建具有廣泛感知和豐富語境理解的應用程序。 新型生成式 AI 模型即視覺語言模型 (VLM) 為視覺 AI 智能體提供支持,這些智能體可以理解自然語言提示并執行視覺問答。視覺 AI 智能體 解鎖了完全的應用可能性,顯著簡化了應用開發工作流程,并提供了變革性的新感知功能,如圖像或視頻摘要、交互式視覺問答和視覺警報。 這些視覺 AI 智能體將部署在工廠、倉庫、零售商店、機場、交通交叉路口等地。它們將幫助運營團隊使用從自然交互中生成的更豐富的見解做出更明智的決策。 NVIDIA NIM 和 NVIDIA VIA 微服務旨在加速視覺 AI 代理的開發。在本文中,

Source

]]>
10806
利用合成數據微調 AI 模型提升多攝像頭跟蹤精度 http://www.open-lab.net/zh-cn/blog/enhance-multi-camera-tracking-accuracy-by-fine-tuning-ai-models-with-synthetic-data/ Wed, 10 Jul 2024 06:51:40 +0000 http://www.open-lab.net/zh-cn/blog/?p=10592 Continued]]> 針對特定用例的大規模合成數據在現實世界的計算機視覺和 AI 工作流程中變得越來越重要。這是因為數字孿生是一種強大的方式,可以為工廠、零售空間和其他資產創建基于物理性質的虛擬副本,從而實現真實環境的精確模擬。 NVIDIA Isaac Sim 基于 NVIDIA Omniverse 構建,是一款完全可擴展的參考應用,用于設計、模擬、測試和訓練支持 AI 的機器人。 Omni.Replicator.Agent (ORA) 是 Isaac Sim 中的一個擴展,用于生成合成數據,以便專門用于訓練計算機視覺模型,例如 TAO PeopleNet Transformer 和 TAO ReIdentificationNet Transformer. 本文是關于構建多攝像頭追蹤視覺 AI 應用的系列文章的第二篇。在第一篇文章中,我們提供了端到端多攝像頭追蹤工作流程的高級視圖,涵蓋模型的模擬、

Source

]]>
10592
NVIDIA Metropolis Microservices 和 NVIDIA Isaac Sim 的實時視覺 AI 從數字孿生到云原生部署 http://www.open-lab.net/zh-cn/blog/real-time-vision-ai-from-digital-twins-to-cloud-native-deployment-with-nvidia-metropolis-microservices-and-nvidia-isaac-sim/ Mon, 24 Jun 2024 05:35:32 +0000 http://www.open-lab.net/zh-cn/blog/?p=10434 Continued]]> 隨著視覺人工智能復雜性的增加,精簡的部署解決方案對優化空間和流程至關重要。NVIDIA 通過 NVIDIA Metropolis AI 工作流和微服務 加速開發,將想法在數周而非數月內轉化為現實。 在這篇文章中,我們將探討Metropolis 微服務的功能: 視頻 1。從數字孿生到多攝像機跟蹤的端到端工作流程 使用人工智能管理和自動化基礎設施具有挑戰性,尤其是對于超市、倉庫、機場、港口和城市等大型復雜空間。這不僅僅是為了擴大攝像頭的數量,而是構建視覺人工智能應用程序,可以智能地監控、提取見解,并在數萬或數十萬平方英尺空間內數百或數千臺攝像頭中突出顯示異常情況。 微服務架構通過將復雜的多攝像頭 AI 應用程序分解為更小、獨立的單元,并通過定義良好的 API 進行交互,從而實現其可擴展性、靈活性和彈性,

Source

]]>
10434
人人超碰97caoporen国产