• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 生成式人工智能/大語言模型

    全新 NVIDIA Llama Nemotron Nano 視覺語言模型在 OCR 準確性基準測試中位居榜首

    PDF、圖形、圖表和控制面板等文檔是豐富的數據源,在提取和整理時,可提供信息豐富的決策見解。從自動化財務報表處理到改進商業智能工作流程,智能文檔處理正在成為企業 AI 解決方案的核心組成部分。

    企業組織可以使用 NVIDIA Llama Nemotron Nano VL 加速 AI 開發流程。這種多模態視覺語言模型能夠以高精度和高效率讀取、理解和分析多種文檔類型。

    此生產就緒型模型為文檔理解設定了新的基準,專為可擴展的 AI 智能體而設計,能夠以無與倫比的速度從多模態文檔中讀取和提取見解,從而將視覺語言模型 (VLM) 引入企業數據處理的前沿。

    隆重推出 Llama Nemotron Nano VL,實現出色的文檔理解

    Llama Nemotron Nano VL 是 NVIDIA Nemotron 系列的最新成員,是一種先進的 AI 模型,專為高級智能文檔處理和理解而設計。此模型可作為 NVIDIA NIM API 提供,并可從 Hugging Face 下載,可在單個 GPU 上精確地從 PDF、圖形、圖表、表格、圖表和控制面板等復雜文檔中提取各種信息。

    通過集成先進的多模態功能,Llama Nemotron Nano VL 在多圖像理解方面表現出色,專注于智能文檔處理,以確保企業能夠從其業務文檔中快速獲得關鍵見解。

    無論是回答問題、提取表格,還是理解圖表等視覺元素,Llama Nemotron Nano VL 均經過優化,可處理各種文檔級理解任務,包括:

    • 問答 (Q/A)
    • 文本和表格處理
    • 圖表和圖形解析
    • 信息圖和圖表解釋

    由于此模型注重效率,企業可以部署復雜的文檔理解系統,而不會產生高昂的基礎設施成本。

    使用 VLM 實現高精度文檔智能

    ?

    ?

    OCRBench v2 基準測試數據集包含圖 1 中的以下功能和相關任務。

    Diagram showing eight testable text-reading capabilities in OCRBench v2. The figure maps each capability to its associated tasks, illustrating the distinct categories of text-reading skills evaluated by the benchmark.
    圖 1。OCRBenchV2 中八個文本閱讀功能和任務的概述,每種顏色表示一種能力類型。圖片來源:Chiang et al,LLM-as-a-Judge arXiv:2501.00321

    基準測試結果:智能文檔處理的新標準

    Llama Nemotron Nano VL OCRBench V2 基準測試結果反映了 NVIDIA 開源模型的性能,這些模型由用于提供尖端 AI 技術的 NVIDIA 工具和專業知識增強。通過使用 NeMo Retriever Parse 數據自定義 Llama-3.1 8B,并添加 C-RADIO 視覺 Transformer,Llama Nemotron Nano VL 能夠出色地解析文本,并從復雜的視覺布局中提取有意義的見解。通過結合這些技術,Llama Nemotron Nano VL 可提供高性能的智能文檔處理,使其成為希望自動化和擴展文檔處理操作的企業的強大工具。

    The OCRBenchV2 leaderboard showing that Llama Nemotron Nano VL performs better than other models.
    圖 2OCRBenchV2 排行榜展示 Llama Nemotron Nano VL 在文本識別、文本引用和文本識別方面的表現

    OCRBench v2 和 OCR 評估

    OCRBench v2 是一個高級基準測試,用于測試 VLM 中的 OCR 和文檔理解能力。其綜合評估框架可確保模型在與真實企業用例產生共鳴的任務上接受嚴格測試,例如:

    • 發票和收據處理
    • 合規性文檔分析
    • 合同和法律文件審查
    • 銀行和財務報表自動化
    • 醫療健康和保險文檔處理
    • 財務報告、趨勢分析

    OCRBench v2 的數據集包括 10000 個人工驗證的問答對,用于對多種文檔類型的模型性能進行細致入微的評估。OCRBench v2 涵蓋 31 個真實場景,可確保在其上測試的模型能夠應對企業文檔處理工作流程中通常面臨的各種復雜挑戰。

    基于出色 NVIDIA 研究打造的行業領先性能

    首款 NVIDIA Nemotron VLM 是 NVIDIA 研究人員多年努力的成果。Llama Nemotron Nano VL 的行業領先性能得益于以下幾個關鍵因素。

    • 用于文檔智能的高質量數據,該數據基于 NeMo Retriever Parse (基于 VLM 的 OCR 解決方案) 構建。該模型提供文本和表格解析以及接地功能,使 Llama Nemotron Nano VL 能夠在文檔理解任務中達到行業領先水平。
    • 高質量的多模態數據集對于 Llama Nemotron Nano VL文檔理解方面表現良好以及作為通用 VLM 發揮作用至關重要。為了將 VLM 泛化到現實世界,我們基于 VILA、Eagle 和 NVLM 研究團隊開發的高質量數據集和工具而構建。
    • ?
    • 基于 C-RADIO v2 視覺編碼器的強大基礎視覺編碼。這是一款使用先進的多教師蒸餾技術開發的尖端視覺 Transformer 模型。這種方法結合了多個領先 AI 模型的優勢,創建了一個高效而強大的系統,擅長理解復雜的視覺內容。C-RADIO v2 旨在處理高分辨率圖像、圖表、圖表和表格 (即使質量各不相同) ,確保從復雜文檔中可靠地提取視覺信息。

    Llama Nemotron Nano VL 在文本識別和視覺推理等任務中表現出色,并展示了先進的圖表理解能力。在面向文檔的關鍵任務 (如圖表理解、圖表推理和 OCR) 中,它超越了同類 VLM,凸顯了其在復雜文檔分析中的強大性能。對于企業而言,這意味著更快、更準確地大規模處理文檔。

    Llama Nemotron Nano VL 的出色智能文檔處理用例

    Llama Nemotron Nano VL 專為需要深入理解眾多行業文檔的用例而設計。無論您的目標是實現文檔處理自動化還是增強業務分析,此模型都能提供構建生產就緒型解決方案所需的性能。

    Key use cases include:

    使用案例 先進智能文檔處理的影響
    發票和收據處理 自動從發票和收據中提取關鍵數據點,如細列項目、總額和日期,用于會計、費用管理和企業資源規劃 (ERP) 集成。
    合規性和身份文件分析 從護照、ID 卡和報稅表等文檔中提取結構化數據,以了解您的客戶 (KYC) 并確保合規性。
    合同和法律文件審查 解析合同和法律協議,以確定風險評估和合同管理的關鍵條款、義務和日期。
    醫療健康和保險自動化 處理醫療記錄和保險表格,以提取患者數據、索賠信息以及醫療健康管理和保險索賠的政策詳情。
    客服 匯總圖表和控制面板,從長產品手冊中提取正確的內容,解釋裝配步驟,并將文本與控制面板中的圖表等可視化功能關聯起來。
    科技文檔解析 從科學論文和技術報告中提取表格、圖表和公式,為研究和知識管理提供幫助。
    銀行和財務報表自動化 自動從銀行對賬單、抵押表格和薪酬存根中提取數據,用于財務分析和貸款處理。
    零售目錄管理 匯總圖表和控制面板,從長產品手冊中提取正確的內容,解釋裝配步驟,并將文本與控制面板中的圖表等可視化功能關聯起來。

    開始使用 Llama Nemotron Nano VL

    Llama Nemotron Nano VL 的發布代表著智能文檔處理的重大突破,為開發者提供了大規模自動化文檔處理所需的工具。憑借 OCRBench v2 上突破基準的性能、先進的 VLM 功能和行業領先的效率,該模型是希望在文檔工作流中利用 AI 的企業的理想解決方案。

    build.nvidia.com 上探索 NIM API 預覽,開始將 Llama Nemotron Nano VL 用于您自己的 AI 應用。

    ?

    ?

    0

    標簽

    人人超碰97caoporen国产