Samuel Ochoa – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Fri, 28 Feb 2025 06:54:41 +0000 zh-CN hourly 1 196178272 圖像和視頻理解的視覺語言模型提示工程實踐指南 http://www.open-lab.net/zh-cn/blog/vision-language-model-prompt-engineering-guide-for-image-and-video-understanding/ Wed, 26 Feb 2025 06:49:25 +0000 http://www.open-lab.net/zh-cn/blog/?p=13030 Continued]]> 視覺語言模型 (VLMs) 正在以極快的速度發展。2020 年,首批 VLMs 通過使用視覺編碼器將視覺理解引入大語言模型 (LLMs) ,徹底改變了生成式 AI 格局。這些初始 VLMs 能力有限,只能理解文本和單張圖像輸入。 幾年后,VLM 現在能夠理解多圖像和視頻輸入,以執行高級視覺語言任務,例如視覺問答 (VQA)、字幕、搜索和摘要。 通過調整提示和模型權重,可以提高特定用例的 VLM 準確性。可以使用 PEFT 等高效技術微調模型權重,但仍需要足夠的數據和計算。 但是, prompt engineering 和上下文學習也可用于提高輸出質量,并且與在運行時調整模型的文本輸入一樣簡單。 本文將為您介紹 VLM 的演變,以及如何有效地提示 VLM 以用于了解單張圖像、多張圖像和視頻的用例。如需了解有關 VLM 和視覺 AI 智能體的更多信息,

Source

]]>
13030
利用 NVIDIA AI Blueprint 搭建視頻搜索和摘要智能代理 http://www.open-lab.net/zh-cn/blog/build-a-video-search-and-summarization-agent-with-nvidia-ai-blueprint/ Mon, 04 Nov 2024 06:33:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=11837 Continued]]> 本文最初于 2024 年 7 月 29 日發布,但已根據 NVIDIA AI Blueprint 信息進行了大量修改。 傳統的視頻分析應用及其開發工作流通常基于功能固定的、有限的模型構建,這些模型旨在僅檢測和識別一組預定義的對象。 借助 生成式 AI 、NVIDIA NIM 微服務和基礎模型,您現在可以使用更少的模型構建具有廣泛感知和豐富上下文理解的應用程序。 新型生成式 AI 模型,即視覺語言模型(VLM),為 視覺 AI 智能體 提供支持,這些智能體可以理解自然語言提示并執行視覺問答。通過結合 VLM、LLM 和最新的 Graph-RAG 技術,您可以構建功能強大的視覺 AI 智能體,從而實現對視頻的長篇理解。 這些可視化 AI 智能體將部署在工廠、倉庫、零售商店、機場、交叉路口等地。它們將幫助運營團隊利用從自然交互中生成的更豐富的見解做出更明智的決策。

Source

]]>
11837
基于 NVIDIA NIM 的多模態視覺 AI 智能體構建解決方案 http://www.open-lab.net/zh-cn/blog/build-multimodal-visual-ai-agents-powered-by-nvidia-nim/ Thu, 31 Oct 2024 09:20:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=11846 Continued]]> 視覺數據(從圖像到 PDF 再到流式視頻)呈指數級增長,這使得人工審查和分析幾乎不可能實現。組織正在努力將這些數據大規模轉換為切實可行的見解,從而導致錯失機會并增加風險。 為了應對這一挑戰,視覺語言模型(VLMs)正在成為強大的工具,將圖像和視頻的視覺感知與基于文本的推理相結合。與僅處理文本的 傳統大語言模型 (LLMs)不同,VLMs 使您能夠構建 視覺 AI 智能體 ,以便理解和處理復雜的多模態數據,并對其采取行動,從而實現實時決策和自動化。 想象一下,擁有一個智能 AI 智能體,它可以分析遠程攝像頭鏡頭以檢測野火的早期跡象,或者掃描業務文檔以提取隱藏在圖表、表格和圖像中的關鍵信息——這一切都可以自動完成。 借助 NVIDIA NIM 微服務 ,構建這些先進的視覺 AI 智能體比以往更容易、更高效。NIM 微服務提供靈活的自定義、簡化的 API 集成和流暢的部署,

Source

]]>
11846
為邊緣開發生成式 AI 驅動的視覺 AI 代理 http://www.open-lab.net/zh-cn/blog/develop-generative-ai-powered-visual-ai-agents-for-the-edge/ Wed, 17 Jul 2024 05:04:23 +0000 http://www.open-lab.net/zh-cn/blog/?p=10648 Continued]]> AI 技術領域的一項令人興奮的突破是視覺語言模型(VLM),它為視頻分析提供了一種更動態、更靈活的方法。VLM 使用戶能夠使用自然語言與圖像和視頻輸入進行交互,使技術更具可訪問性和適應性。這些模型可以在 NVIDIA Jetson Orin 邊緣 AI 平臺上運行,也可以通過 NIM 在獨立的 GPU 上運行。本文將探討如何構建基于 VLM 的視覺 AI 代理,以便從邊緣到云端運行。 視覺 AI 智能體由 VLM 提供支持,在其中您可以使用自然語言提出各種問題,并在錄制或直播視頻中獲得反映真實意圖和上下文的見解。這些智能體可以通過易于使用的 REST API 進行交互,并與其他服務甚至移動應用集成。新一代視覺 AI 智能體具有多種功能,包括總結場景、創建各種警報,以及使用自然語言從視頻中提取可行見解。 NVIDIA Metropolis 帶來了視覺 AI 代理工作流,

Source

]]>
10648
借助適用于 Jetson 的 NVIDIA Metropolis 微服務,將生成式 AI 引入邊緣 http://www.open-lab.net/zh-cn/blog/bringing-generative-ai-to-the-edge-with-nvidia-metropolis-microservices-for-jetson/ Tue, 23 Jan 2024 04:24:17 +0000 http://www.open-lab.net/zh-cn/blog/?p=8814 Continued]]> 適用于 Jetson 的 NVIDIA Metropolis 微服務提供了一套易于部署的服務,使您能夠使用最新的 AI 方法快速構建生產級視覺 AI 應用。 本文將介紹如何開發和部署生成式 AI 應用程序,這些應用程序在 NVIDIA Jetson 邊緣 AI 平臺上運行,并通過 Metropolis 微服務進行管理。您可以通過參考示例(這些示例可以作為構建任何模型的一般指南)來進行探索。 參考示例使用獨立的零射檢測 NanoOwl 應用,并將其與 適用于 Jetson 的 Metropolis 微服務 相結合,以便您可以在生產環境中快速構建原型并進行部署。 生成式 AI 是一種機器學習技術,它使模型能夠以比之前方法更開放的方式理解世界。 大多數生成式 AI 的核心是基于 Transformer 的模型,該模型已在互聯網規模的數據上進行訓練。

Source

]]>
8814
借助 NVIDIA TAO 和視覺 AI 模型變革工業缺陷檢測 http://www.open-lab.net/zh-cn/blog/transforming-industrial-defect-detection-with-nvidia-tao-and-vision-ai-models/ Mon, 20 Nov 2023 04:58:27 +0000 http://www.open-lab.net/zh-cn/blog/?p=8298 Continued]]> 效率在工業制造中至關重要,在工業制造中,即使是微小的收益也會產生重大的財務影響。據美國質量協會稱,“許多組織的真正質量相關成本將高達銷售收入的 15-20%,有些則高達總運營的 40%.”這些驚人的統計數據揭示了一個嚴峻的現實:工業應用中的缺陷不僅會損害產品質量,而且會消耗公司收入的很大一部分。 但是,如果公司能夠收回這些損失的利潤,并將其重新用于創新和擴展呢?這是 AI 潛力的亮點所在。 本文將探討如何使用 NVIDIA TAO 設計自定義 AI 模型,以找出工業應用中的缺陷,從而提高整體質量。 NVIDIA TAO 工具套件是基于 TensorFlow 和 PyTorch 構建的低代碼 AI 工具包。它通過抽象出 AI 模型和深度學習框架的復雜性來簡化和加速模型訓練過程。借助 TAO 工具套件,開發者可以使用預訓練模型,并針對特定用例對其進行微調。 在本文中,

Source

]]>
8298
人人超碰97caoporen国产