圖像/視頻檢測與識別 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Fri, 11 Apr 2025 06:40:37 +0000 zh-CN hourly 1 196178272 NVIDIA 加速推理 Meta Llama 4 Scout 與 Maverick 模型 http://www.open-lab.net/zh-cn/blog/nvidia-accelerates-inference-on-meta-llama-4-scout-and-maverick/ Sat, 05 Apr 2025 06:37:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=13527 Continued]]> 最新一代熱門 Llama AI 模型現已支持 Llama 4 Scout 和 Llama 4 Maverick。它們由 NVIDIA 開源軟件加速,在 NVIDIA Blackwell B200 GPU 上每秒可實現超過 40K 輸出 token,并可作為 NVIDIA NIM 微服務 進行試用。 Llama 4 模型現在采用混合專家 (MoE) 架構,原生支持多模態和多語言。Llama 4 模型提供各種多模態功能,推動規模、速度和效率的提升,使您能夠打造更加個性化的體驗。 Llama 4 Scout 是一個 109B 參數模型,每個令牌活躍 17B,由 16 位專家組成,擁有 10M 上下文長度的窗口,并針對單個 NVIDIA H100 GPU 優化和量化為 int4。這支持各種用例,包括多文檔摘要、解析大量用戶活動以執行個性化任務,以及對大量代碼庫進行推理。

Source

]]>
13527
在 NVIDIA GPU 上訓練的 Microsoft Phi SLM 的多模態最新進展 http://www.open-lab.net/zh-cn/blog/latest-multimodal-addition-to-microsoft-phi-slms-trained-on-nvidia-gpus/ Wed, 26 Feb 2025 06:19:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=13020 Continued]]> 大語言模型(LLMs)已滲透到各行各業,并改變了技術潛力。但是,由于規模龐大,它們對于許多公司目前面臨的資源限制來說并不切實際。 小語言模型 (SLMs)的興起通過創建資源占用更小的模型,將質量和成本聯系起來。SLMs 是語言模型的一個子集,這些模型傾向于專注于特定領域,并使用更簡單的神經架構構建。隨著模型的發展模仿人類感知周圍環境的方式,模型必須接受多種形式的多模態數據。 Microsoft 宣布在 Phi 系列中推出新一代開放式 SLM,并新增兩項功能: Phi-4-multimodal 是第一個加入該系列的多模態模型,接受文本、音頻和圖像數據輸入。 這些模型足夠小,可以在設備上部署。此版本基于 2024 年 12 月發布的 Phi-4 14B 參數 SLM 的研究版本構建而成,可用于兩個新的較小模型的商業用途。

Source

]]>
13020
基于 NVIDIA NIM 的多模態視覺 AI 智能體構建解決方案 http://www.open-lab.net/zh-cn/blog/build-multimodal-visual-ai-agents-powered-by-nvidia-nim/ Thu, 31 Oct 2024 09:20:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=11846 Continued]]> 視覺數據(從圖像到 PDF 再到流式視頻)呈指數級增長,這使得人工審查和分析幾乎不可能實現。組織正在努力將這些數據大規模轉換為切實可行的見解,從而導致錯失機會并增加風險。 為了應對這一挑戰,視覺語言模型(VLMs)正在成為強大的工具,將圖像和視頻的視覺感知與基于文本的推理相結合。與僅處理文本的 傳統大語言模型 (LLMs)不同,VLMs 使您能夠構建 視覺 AI 智能體 ,以便理解和處理復雜的多模態數據,并對其采取行動,從而實現實時決策和自動化。 想象一下,擁有一個智能 AI 智能體,它可以分析遠程攝像頭鏡頭以檢測野火的早期跡象,或者掃描業務文檔以提取隱藏在圖表、表格和圖像中的關鍵信息——這一切都可以自動完成。 借助 NVIDIA NIM 微服務 ,構建這些先進的視覺 AI 智能體比以往更容易、更高效。NIM 微服務提供靈活的自定義、簡化的 API 集成和流暢的部署,

Source

]]>
11846
人人超碰97caoporen国产