VLM – NVIDIA 技術博客

全新 NVIDIA Llama Nemotron Nano 視覺語言模型在 OCR 準確性基準測試中位居榜首

Tue, 03 Jun 2025 07:21:11 +0000

PDF、圖形、圖表和控制面板等文檔是豐富的數據源，在提取和整理時，可提供信息豐富的決策見解。從自動化財務報表處理到改進商業智能工作流程，智能文檔處理正在成為企業 AI 解決方案的核心組成部分。企業組織可以使用 NVIDIA Llama Nemotron Nano VL 加速 AI 開發流程。這種多模態視覺語言模型能夠以高精度和高效率讀取、理解和分析多種文檔類型。此生產就緒型模型為文檔理解設定了新的基準，專為可擴展的 AI 智能體而設計，能夠以無與倫比的速度從多模態文檔中讀取和提取見解，從而將視覺語言模型 (VLM) 引入企業數據處理的前沿。 Llama Nemotron Nano VL 是 NVIDIA Nemotron 系列的最新成員，是一種先進的 AI 模型，專為高級智能文檔處理和理解而設計。此模型可作為 NVIDIA NIM API 提供，

Source

]]>

使用 NVIDIA AI Blueprint 進行視頻搜索和摘要，推動視頻分析 AI 智能體的發展

Sun, 18 May 2025 05:39:36 +0000

與傳統的 Computer Vision (CV) 模型相比， Vision Language Models (VLMs) 實現了更廣泛的感知和更豐富的上下文理解，從而改變了視頻分析。然而，上下文長度有限和缺乏音頻轉錄等挑戰仍然存在，限制了 VLM 一次可以處理的視頻數量。為克服這一問題，適用于視頻搜索和摘要 (VSS) 的 NVIDIA AI Blueprint 將 VLM、LLM 和檢索增強生成 (RAG) 與高效的提取、檢索和存儲機制相集成，從而實現存儲和實時視頻分析。視覺 AI 智能體可應用于監控智能空間、倉庫自動化和 SOP 驗證等眾多用例。 NVIDIA 宣布推出適用于視頻搜索和摘要的 NVIDIA AI Blueprint 新版本并全面推出 (GA) 。此版本包含多項新功能，包括多實時流、突發模式提取、可自定義 CV 流程和音頻轉錄。

Source

]]>

構建應用程序以安全使用 KV 緩存

Tue, 29 Apr 2025 08:32:44 +0000

在與基于 Transformer 的模型 (如大語言模型 (LLM) 和視覺語言模型 (VLM)) 交互時，輸入結構會塑造模型的輸出。但提示通常不僅僅是簡單的用戶查詢。在實踐中，它們通過動態組合來自系統指令、上下文數據和用戶輸入等各種來源的數據來優化響應。在多租戶環境中，多個用戶共享同一應用程序基礎設施，這種動態提示結構可能會帶來意外的安全風險。其中一個風險來自 prefix caching 優化，如果處理不當，可能會跨用戶邊界泄露信息。本文將探討提示結構與緩存的交集，以及它們的交互如何在 LLM 驅動的應用中造成細微漏洞。通過了解這些機制，開發者可以設計出更安全的系統。如果您僅以聊天機器人用戶的身份與 LLM 進行交互，您可能會將提示視為如下所示：但在大多數真實應用中，此用戶查詢只是更大規模的動態構建輸入（即應用提示）的一部分。

Source

]]>

使用 NVIDIA NIM 對游戲進行代理式 LLM 和 VLM 推理基準測試

Thu, 24 Apr 2025 04:08:00 +0000

這是 LLM 基準測試系列的第一篇文章，介紹了在使用 NVIDIA NIM 部署 Meta Llama 3 模型時，如何使用 GenAI-Perf 進行基準測試。來自倫敦大學學院 (UCL) 決策、行動和推理知識 (DARK) 實驗室的研究人員在其全新的基于游戲的基準測試套件 Benchmarking Agentic LLM 和 VLM Reasoning On Games (BALROG) 中利用了 NVIDIA NIM 微服務。BALROG 經過專門設計，可使用各種游戲環境評估模型在具有挑戰性的長距交互式任務中的代理能力。來自 DARK Lab 的團隊利用 NVIDIA NIM 簡化了詳盡的基準測試流程。在 DeepSeek-R1 NIM 發布時 ( 2025 年 2 月底) ，他們能夠使用 DeepSeek-R1，這是一個包含 671 億個參數的大型模型。

Source

]]>

MONAI 集成先進的代理式架構，建立多模態醫療 AI 生態系統

Wed, 19 Mar 2025 08:50:12 +0000

醫療數據的數量和復雜性不斷增加，以及對早期疾病診斷和提高醫療效率的迫切需求，正在推動醫療 AI 取得前所未有的進步。該領域最具變革性的創新包括同時處理文本、圖像和視頻的多模態 AI 模型。與傳統的單模態系統相比，這些模型能夠更全面地理解患者數據。 MONAI 是發展最快的開源醫學影像框架，它正在不斷發展，以集成強大的多模態模型，從而徹底改變臨床工作流程和診斷精度。在過去五年中，MONAI 已成為領先的醫療 AI 平臺，也是影像 AI 研究的事實框架。它的下載量超過 4.5 萬次，出現在 3,000 多篇已發表的論文中。本文介紹了 MONAI 如何利用先進的代理式 AI (自主、工作流驅動的推理) ，將其從成像擴展到多模態生態系統。該生態系統集成了從 CT 和 MRI 到 EHR 和臨床文檔的各種醫療健康數據，以推動放射學、外科和病理學領域的研究開發和創新。

Source

]]>

借助 NVIDIA DriveOS LLM SDK 簡化自動駕駛汽車應用的 LLM 部署

Mon, 10 Mar 2025 06:57:15 +0000

大語言模型 (LLMs) 在自然語言處理 (NLP) 中表現出非凡的泛化能力。它們廣泛應用于翻譯、數字助理、推薦系統、上下文分析、代碼生成、網絡安全等。汽車應用對基于 LLMs 的自動駕駛和座艙功能解決方案的需求與日俱增。在通常資源受限的汽車平臺上部署 LLMs 和視覺語言模型 (VLMs) 已成為一項嚴峻的挑戰。本文將介紹 NVIDIA DriveOS LLM SDK，該庫旨在優化自動駕駛汽車 DRIVE AGX 平臺上先進 LLM 和 VLM 的推理。它是基于 NVIDIA TensorRT 推理引擎構建的輕量級工具包。它整合了針對 LLM 的特定優化，例如自定義注意力內核和量化技術，以便在汽車平臺上部署 LLM。該工具包提供易于使用的 C++ 庫和示例代碼，用于導出、構建 TensorRT 引擎、執行推理，以及使用完整的端到端工作流對 LLM 進行基準測試。

Source

]]>

使用 NVIDIA NIM 構建基于 VLM 的簡單多模態信息檢索系統

Wed, 26 Feb 2025 06:30:18 +0000

在當今數據驅動的世界中，即使是從少量數據中檢索準確信息的能力，對于尋求精簡、有效的快速部署、原型設計或實驗解決方案的開發者來說也至關重要。信息檢索領域的主要挑戰之一是管理非結構化數據集中的各種模式，包括文本、PDF、圖像、表格、音頻、視頻等。多模態 AI 模型通過同時處理多個數據模式來應對這一挑戰，以不同的形式生成連貫一致的全面輸出。 NVIDIA NIM 微服務可簡化 AI 基礎模型在語言、計算機視覺、語音、生物學等領域的安全可靠部署。 NIM 微服務可隨時隨地部署在 NVIDIA 加速基礎設施上，并提供行業標準 API，以快速集成應用和熱門 AI 開發框架 (包括 LangChain 和 LlamaIndex)。本文將幫助您著手構建基于視覺語言模型（VLM）的多模態信息檢索系統，該系統能夠回答涉及文本、圖像和表格的復雜查詢。

Source

]]>

NVIDIA JetPack 6.2 為 NVIDIA Jetson Orin Nano 和 Jetson Orin NX 模塊引入超級模式

Thu, 16 Jan 2025 06:11:18 +0000

NVIDIA Jetson Orin Nano 超級開發者套件的推出為小型邊緣設備開啟了生成式 AI 的新時代。新的超級模式在開發者套件上實現了前所未有的生成式 AI 性能提升，最高可達 1.7 倍，使其成為最經濟實惠的生成式 AI 超級計算機。 JetPack 6.2 現已支持 Jetson Orin Nano 和 Jetson Orin NX 生產模組的超級模式，可將生成式 AI 模型的性能提升高達 2 倍。現在，您可以為新的和現有的機器人和邊緣 AI 應用釋放更多價值并降低總體擁有成本。本文討論了 Super Mode 的詳細信息，包括新的功率模式、Jetson Orin Nano 和 Orin NX 模組上熱門生成式 AI 模型的基準測試、文檔更新，以及對支持 Super Mode 的 NPN 合作伙伴的見解。 JetPack 6.2…

Source

]]>

利用 NVIDIA AI Blueprint 搭建視頻搜索和摘要智能代理

Mon, 04 Nov 2024 06:33:13 +0000

本文最初于 2024 年 7 月 29 日發布，但已根據 NVIDIA AI Blueprint 信息進行了大量修改。傳統的視頻分析應用及其開發工作流通常基于功能固定的、有限的模型構建，這些模型旨在僅檢測和識別一組預定義的對象。借助生成式 AI 、NVIDIA NIM 微服務和基礎模型，您現在可以使用更少的模型構建具有廣泛感知和豐富上下文理解的應用程序。新型生成式 AI 模型，即視覺語言模型（VLM），為視覺 AI 智能體提供支持，這些智能體可以理解自然語言提示并執行視覺問答。通過結合 VLM、LLM 和最新的 Graph-RAG 技術，您可以構建功能強大的視覺 AI 智能體，從而實現對視頻的長篇理解。這些可視化 AI 智能體將部署在工廠、倉庫、零售商店、機場、交叉路口等地。它們將幫助運營團隊利用從自然交互中生成的更豐富的見解做出更明智的決策。

Source

]]>