圖像/視頻檢測與識別 – NVIDIA 技術博客

NVIDIA 加速推理 Meta Llama 4 Scout 與 Maverick 模型

Sat, 05 Apr 2025 06:37:58 +0000

最新一代熱門 Llama AI 模型現已支持 Llama 4 Scout 和 Llama 4 Maverick。它們由 NVIDIA 開源軟件加速，在 NVIDIA Blackwell B200 GPU 上每秒可實現超過 40K 輸出 token，并可作為 NVIDIA NIM 微服務進行試用。 Llama 4 模型現在采用混合專家 (MoE) 架構，原生支持多模態和多語言。Llama 4 模型提供各種多模態功能，推動規模、速度和效率的提升，使您能夠打造更加個性化的體驗。 Llama 4 Scout 是一個 109B 參數模型，每個令牌活躍 17B，由 16 位專家組成，擁有 10M 上下文長度的窗口，并針對單個 NVIDIA H100 GPU 優化和量化為 int4。這支持各種用例，包括多文檔摘要、解析大量用戶活動以執行個性化任務，以及對大量代碼庫進行推理。

Source

]]>

在 NVIDIA GPU 上訓練的 Microsoft Phi SLM 的多模態最新進展

Wed, 26 Feb 2025 06:19:58 +0000

大語言模型（LLMs）已滲透到各行各業，并改變了技術潛力。但是，由于規模龐大，它們對于許多公司目前面臨的資源限制來說并不切實際。小語言模型（SLMs）的興起通過創建資源占用更小的模型，將質量和成本聯系起來。SLMs 是語言模型的一個子集，這些模型傾向于專注于特定領域，并使用更簡單的神經架構構建。隨著模型的發展模仿人類感知周圍環境的方式，模型必須接受多種形式的多模態數據。 Microsoft 宣布在 Phi 系列中推出新一代開放式 SLM，并新增兩項功能： Phi-4-multimodal 是第一個加入該系列的多模態模型，接受文本、音頻和圖像數據輸入。這些模型足夠小，可以在設備上部署。此版本基于 2024 年 12 月發布的 Phi-4 14B 參數 SLM 的研究版本構建而成，可用于兩個新的較小模型的商業用途。

Source

]]>

基于 NVIDIA NIM 的多模態視覺 AI 智能體構建解決方案

Thu, 31 Oct 2024 09:20:00 +0000

視覺數據（從圖像到 PDF 再到流式視頻）呈指數級增長，這使得人工審查和分析幾乎不可能實現。組織正在努力將這些數據大規模轉換為切實可行的見解，從而導致錯失機會并增加風險。為了應對這一挑戰，視覺語言模型（VLMs）正在成為強大的工具，將圖像和視頻的視覺感知與基于文本的推理相結合。與僅處理文本的傳統大語言模型（LLMs）不同，VLMs 使您能夠構建視覺 AI 智能體，以便理解和處理復雜的多模態數據，并對其采取行動，從而實現實時決策和自動化。想象一下，擁有一個智能 AI 智能體，它可以分析遠程攝像頭鏡頭以檢測野火的早期跡象，或者掃描業務文檔以提取隱藏在圖表、表格和圖像中的關鍵信息——這一切都可以自動完成。借助 NVIDIA NIM 微服務，構建這些先進的視覺 AI 智能體比以往更容易、更高效。NIM 微服務提供靈活的自定義、簡化的 API 集成和流暢的部署，

Source

]]>