]]>12480利用 NVIDIA AI Blueprint 搭建視頻搜索和摘要智能代理
http://www.open-lab.net/zh-cn/blog/build-a-video-search-and-summarization-agent-with-nvidia-ai-blueprint/
Mon, 04 Nov 2024 06:33:13 +0000http://www.open-lab.net/zh-cn/blog/?p=11837Continued]]>本文最初于 2024 年 7 月 29 日發布,但已根據 NVIDIA AI Blueprint 信息進行了大量修改。 傳統的視頻分析應用及其開發工作流通常基于功能固定的、有限的模型構建,這些模型旨在僅檢測和識別一組預定義的對象。 借助 生成式 AI 、NVIDIA NIM 微服務和基礎模型,您現在可以使用更少的模型構建具有廣泛感知和豐富上下文理解的應用程序。 新型生成式 AI 模型,即視覺語言模型(VLM),為 視覺 AI 智能體 提供支持,這些智能體可以理解自然語言提示并執行視覺問答。通過結合 VLM、LLM 和最新的 Graph-RAG 技術,您可以構建功能強大的視覺 AI 智能體,從而實現對視頻的長篇理解。 這些可視化 AI 智能體將部署在工廠、倉庫、零售商店、機場、交叉路口等地。它們將幫助運營團隊利用從自然交互中生成的更豐富的見解做出更明智的決策。
]]>11837基于 NVIDIA NIM 的多模態視覺 AI 智能體構建解決方案
http://www.open-lab.net/zh-cn/blog/build-multimodal-visual-ai-agents-powered-by-nvidia-nim/
Thu, 31 Oct 2024 09:20:00 +0000http://www.open-lab.net/zh-cn/blog/?p=11846Continued]]>視覺數據(從圖像到 PDF 再到流式視頻)呈指數級增長,這使得人工審查和分析幾乎不可能實現。組織正在努力將這些數據大規模轉換為切實可行的見解,從而導致錯失機會并增加風險。 為了應對這一挑戰,視覺語言模型(VLMs)正在成為強大的工具,將圖像和視頻的視覺感知與基于文本的推理相結合。與僅處理文本的 傳統大語言模型 (LLMs)不同,VLMs 使您能夠構建 視覺 AI 智能體 ,以便理解和處理復雜的多模態數據,并對其采取行動,從而實現實時決策和自動化。 想象一下,擁有一個智能 AI 智能體,它可以分析遠程攝像頭鏡頭以檢測野火的早期跡象,或者掃描業務文檔以提取隱藏在圖表、表格和圖像中的關鍵信息——這一切都可以自動完成。 借助 NVIDIA NIM 微服務 ,構建這些先進的視覺 AI 智能體比以往更容易、更高效。NIM 微服務提供靈活的自定義、簡化的 API 集成和流暢的部署,
]]>11749NVIDIA TAO 5.5 帶來新基礎模型和增強訓練功能
http://www.open-lab.net/zh-cn/blog/new-foundational-models-and-training-capabilities-with-nvidia-tao-5-5/
Wed, 28 Aug 2024 06:23:45 +0000http://www.open-lab.net/zh-cn/blog/?p=11078Continued]]>NVIDIA TAO 是一個旨在簡化和加速 AI 模型開發和部署的框架。它使您能夠使用預訓練模型,使用自己的數據微調模型,并針對特定用例優化模型,而無需深入的 AI 專業知識。 TAO 與 NVIDIA 硬件和軟件生態系統無縫集成,提供用于高效 AI 模型訓練、部署和推理的工具,并加速 AI 驅動應用程序的上市時間。 圖 1 顯示 TAO 支持 PyTorch、TensorFlow 和 ONNX 等框架。訓練可以在多個平臺上完成,而生成的模型可以部署在 GPU、CPU、MCU 和 DLA 等各種推理平臺上。 NVIDIA 剛剛發布了 TAO 5.5,引入了先進的基礎模型和突破性功能,可增強任何 AI 模型開發。新的功能包括以下內容: 在本文中,我們將更詳細地討論 TAO 5.5 的新功能。 NVIDIA TAO 集成了開源、基礎和專有模型,
]]>11098使用 NVIDIA NIM 和 NVIDIA VIA 微服務構建 VLM 驅動的視覺 AI 代理
http://www.open-lab.net/zh-cn/blog/build-vlm-powered-visual-ai-agents-using-nvidia-nim-and-nvidia-via-microservices/
Mon, 29 Jul 2024 07:09:19 +0000http://www.open-lab.net/zh-cn/blog/?p=10806Continued]]>傳統的視頻分析應用程序及其開發工作流通常基于固定功能且受限的模型構建,這些模型旨在僅檢測和識別一組選定的預定義對象。 借助生成式 AI、NVIDIA NIM 微服務和基礎模型,您現在可以使用更少的模型構建具有廣泛感知和豐富語境理解的應用程序。 新型生成式 AI 模型即視覺語言模型 (VLM) 為視覺 AI 智能體提供支持,這些智能體可以理解自然語言提示并執行視覺問答。視覺 AI 智能體 解鎖了完全的應用可能性,顯著簡化了應用開發工作流程,并提供了變革性的新感知功能,如圖像或視頻摘要、交互式視覺問答和視覺警報。 這些視覺 AI 智能體將部署在工廠、倉庫、零售商店、機場、交通交叉路口等地。它們將幫助運營團隊使用從自然交互中生成的更豐富的見解做出更明智的決策。 NVIDIA NIM 和 NVIDIA VIA 微服務旨在加速視覺 AI 代理的開發。在本文中,
]]>10806利用合成數據微調 AI 模型提升多攝像頭跟蹤精度
http://www.open-lab.net/zh-cn/blog/enhance-multi-camera-tracking-accuracy-by-fine-tuning-ai-models-with-synthetic-data/
Wed, 10 Jul 2024 06:51:40 +0000http://www.open-lab.net/zh-cn/blog/?p=10592Continued]]>針對特定用例的大規模合成數據在現實世界的計算機視覺和 AI 工作流程中變得越來越重要。這是因為數字孿生是一種強大的方式,可以為工廠、零售空間和其他資產創建基于物理性質的虛擬副本,從而實現真實環境的精確模擬。 NVIDIA Isaac Sim 基于 NVIDIA Omniverse 構建,是一款完全可擴展的參考應用,用于設計、模擬、測試和訓練支持 AI 的機器人。 Omni.Replicator.Agent (ORA) 是 Isaac Sim 中的一個擴展,用于生成合成數據,以便專門用于訓練計算機視覺模型,例如 TAO PeopleNet Transformer 和 TAO ReIdentificationNet Transformer. 本文是關于構建多攝像頭追蹤視覺 AI 應用的系列文章的第二篇。在第一篇文章中,我們提供了端到端多攝像頭追蹤工作流程的高級視圖,涵蓋模型的模擬、