計算機視覺/視頻分析 – NVIDIA 技術博客

計算機視覺/視頻分析 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞和內容。 Wed, 14 May 2025 08:24:07 +0000 zh-CN hourly 1 196178272 借助 3DGUT 在 gsplat 中革新神經重建和渲染 http://www.open-lab.net/zh-cn/blog/revolutionizing-neural-reconstruction-and-rendering-in-gsplat-with-3dgut/ Thu, 08 May 2025 06:17:59 +0000 http://www.open-lab.net/zh-cn/blog/?p=13819 Continued]]> 從訓練自動駕駛汽車 (AV) 到為機器人和數字孿生提供支持，逼真的 3D 仿真正在成為現代 AI 和圖形的基石。NeRF 和 3D Gaussian Splatting (3DGS) 等神經渲染技術徹底改變了根據原始傳感器數據重建和可視化 3D 場景的方式。在本文中，我們將介紹 3D Gaussian Unscented Transform (3DGUT) 的實現，這是一種先進的方法，可增強 gsplat 庫中的神經渲染，并支持現實世界的攝像頭效果。通過這種集成，開發者和研究人員可以更輕松地獲得性能和保真度優勢，為自主機器、機器人和其他物理 AI 應用創建豐富的虛擬世界。 3DGUT 正在徹底改變 3D 渲染和場景重建。3DGUT 基于廣泛采用的 3DGS 框架構建，以更靈活的 Unscented Transform 取代傳統的 Elliptical…

]]>

13819

使用 NVIDIA NIM 對游戲進行代理式 LLM 和 VLM 推理基準測試 http://www.open-lab.net/zh-cn/blog/benchmarking-agentic-llm-and-vlm-reasoning-for-gaming-with-nvidia-nim/ Thu, 24 Apr 2025 04:08:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=13726 Continued]]> 這是 LLM 基準測試系列的第一篇文章，介紹了在使用 NVIDIA NIM 部署 Meta Llama 3 模型時，如何使用 GenAI-Perf 進行基準測試。來自倫敦大學學院 (UCL) 決策、行動和推理知識 (DARK) 實驗室的研究人員在其全新的基于游戲的基準測試套件 Benchmarking Agentic LLM 和 VLM Reasoning On Games (BALROG) 中利用了 NVIDIA NIM 微服務。BALROG 經過專門設計，可使用各種游戲環境評估模型在具有挑戰性的長距交互式任務中的代理能力。來自 DARK Lab 的團隊利用 NVIDIA NIM 簡化了詳盡的基準測試流程。在 DeepSeek-R1 NIM 發布時 ( 2025 年 2 月底) ，他們能夠使用 DeepSeek-R1，這是一個包含 671 億個參數的大型模型。

]]>

13726

AI 生成的熱圖可保護老年人及其隱私 http://www.open-lab.net/zh-cn/blog/ai-generated-heat-maps-keep-seniors-and-their-privacy-safe/ Wed, 16 Apr 2025 05:08:34 +0000 http://www.open-lab.net/zh-cn/blog/?p=13563 Continued]]> 到 2030 年，超過五分之一的美國人將年滿 65 歲，成為美國有史以來最大的老年人群體。位于硅谷的初創公司 Butlr 開發了一個 AI 平臺，旨在保護老年人的安全，同時保護他們的隱私。他們基于 AI 的平臺使用神經網絡來解釋不同的溫度數據，這些數據由戰略性地放置在老年人護理設施中的傳感器獲取。然后，該模型會創建人員的實時紅外圖像，這些圖像雖然基本沒有特征且模糊不清，但足夠詳細，可以幫助老年人護理機構的助手密切關注患者。 “我們要做的是利用邊緣溫度數據來拯救生命，利用智能來保護個人信息的隱私，”Butlr 首席執行官兼聯合創始人 Honghao Deng 說。 Butlr 設計其 AI 解決方案的目的是與老年人護理助手合作，而不是取代他們。該模型可以檢測患者是否跌倒或躺在床上太長時間，并在發現緊急情況時自動提醒護理人員。此外，

]]>

13563

AI 利用標準 MRI 掃描提高帕金森病檢測能力 http://www.open-lab.net/zh-cn/blog/ai-advances-parkinsons-detection-using-standard-mri-scans/ Fri, 11 Apr 2025 06:00:03 +0000 http://www.open-lab.net/zh-cn/blog/?p=13587 Continued]]> 要想準確診斷帕金森癥，只需簡單的腦部掃描就可以了，這要歸功于 AI 驅動的新工具。這一進步可以幫助醫生加快檢測和治療速度，為患者提供所需的護理，并改善他們的生活質量。該機器學習模型由來自佛羅里達大學 (University of Florida) 和頂級醫療中心的團隊開發，可分析 MRI 掃描結果，以區分帕金森癥、多發性系統衰竭 (MSA) 和漸進性上核性麻痹 (PSP) 。這些情況在腦部掃描的早期階段通常看起來很相似，導致診斷變得復雜，并導致治療延遲。研究報告的資深作者、Parkinson’s Foundation 的醫療顧問兼佛羅里達大學醫學中心 Fixel 研究所所長 Michael S. Okun 表示：“這種基于 AI 的技術已經在朝著更實用、更令人興奮的方向發展。“醫生們經常訂購腦部 MRI 掃描，作為定期檢查潛在神經退行性疾病的一部分。AI 有可能改變這種情況，

]]>

13587

NVIDIA 加速推理 Meta Llama 4 Scout 與 Maverick 模型 http://www.open-lab.net/zh-cn/blog/nvidia-accelerates-inference-on-meta-llama-4-scout-and-maverick/ Sat, 05 Apr 2025 06:37:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=13527 Continued]]> 最新一代熱門 Llama AI 模型現已支持 Llama 4 Scout 和 Llama 4 Maverick。它們由 NVIDIA 開源軟件加速，在 NVIDIA Blackwell B200 GPU 上每秒可實現超過 40K 輸出 token，并可作為 NVIDIA NIM 微服務進行試用。 Llama 4 模型現在采用混合專家 (MoE) 架構，原生支持多模態和多語言。Llama 4 模型提供各種多模態功能，推動規模、速度和效率的提升，使您能夠打造更加個性化的體驗。 Llama 4 Scout 是一個 109B 參數模型，每個令牌活躍 17B，由 16 位專家組成，擁有 10M 上下文長度的窗口，并針對單個 NVIDIA H100 GPU 優化和量化為 int4。這支持各種用例，包括多文檔摘要、解析大量用戶活動以執行個性化任務，以及對大量代碼庫進行推理。

]]>

13527

工業設施數字孿生中的機器人仿真 http://www.open-lab.net/zh-cn/blog/simulating-robots-in-industrial-facility-digital-twins/ Mon, 31 Mar 2025 08:20:44 +0000 http://www.open-lab.net/zh-cn/blog/?p=13443 Continued]]> 工業企業正在采用物理 AI 和自主系統來實現運營轉型。這涉及在工廠和倉庫中部署異構機器人車隊，包括移動機器人、人形助手、智能攝像頭和 AI 智能體。為了充分利用這些支持物理 AI 的系統的全部潛力，公司依賴于其設施的數字孿生，即用于模擬和優化自主系統交互方式以及執行復雜任務的虛擬環境。這種 simulation-first 方法使企業能夠在實際部署之前驗證其機器人車隊是否能夠在動態環境中進行協調和適應，從而加速向真正自主的工業運營過渡。借助 Mega NVIDIA Omniverse Blueprint ，企業能夠加速物理 AI 在工廠、倉庫和工業設施中的開發和部署。該工作流使開發者能夠利用傳感器仿真和合成數據生成來模擬復雜的自主操作，并在實際部署之前驗證工業數字孿生中物理 AI 系統的性能。本文將介紹該藍圖的組件，

]]>

13443

使用 NVIDIA AI Blueprint 構建實時多模態 XR 應用以進行視頻搜索和摘要 http://www.open-lab.net/zh-cn/blog/build-real-time-multimodal-xr-apps-with-nvidia-ai-blueprint-for-video-search-and-summarization/ Tue, 11 Mar 2025 06:43:16 +0000 http://www.open-lab.net/zh-cn/blog/?p=13357 Continued]]> 隨著生成式 AI 和視覺基礎模型的最新進展，VLM 呈現了新一波視覺計算浪潮，其中模型能夠實現高度復雜的感知和深度上下文理解。這些智能解決方案為增強 XR 設置中的語義理解提供了一種很有前景的方法。通過集成 VLM，開發者可以顯著改進 XR 應用解釋用戶操作以及與用戶操作交互的方式，使其響應速度更快、更直觀。本文將向您介紹如何利用 NVIDIA AI Blueprint 進行視頻搜索和摘要，以及如何增強 Blueprint 以支持 XR 環境中的音頻。我們介紹了實時語音識別和沉浸式交互的分步過程——從設置環境到無縫集成。借助對話式 AI 功能增強 XR 應用，為用戶帶來更加身臨其境的體驗。通過創建在 XR 環境中提供 Q&A 功能的生成式 AI 智能體，用戶可以更自然地進行交互并獲得即時幫助。多模態 AI 智能體處理并合成多種輸入模式，例如視覺數據 (例如 XR…

]]>

13357

AI 模型為環保人士提供大規模保護漁業和野生動物的新工具 http://www.open-lab.net/zh-cn/blog/ai-model-offers-conservationists-new-tools-to-protect-fisheries-wildlife-at-scale/ Mon, 03 Mar 2025 06:06:54 +0000 http://www.open-lab.net/zh-cn/blog/?p=13143 Continued]]> 為了遏制非法捕撈，研究人員發布了一個新的開源 AI 模型，該模型可以準確識別世界上幾乎所有的航海船只的行為，包括船只是否可能非法捕撈。位于西雅圖的 Ai2 (Allen Institute for AI) 最近發布了一個名為 Atlantes 的輕量級模型，用于分析全球近 600,000 艘遠洋船每天發出的超過五億個 GPS 信號。該模型可以預測幾乎任何船只在任何時候的狀況，準確率約為 80%。該模型集成到 Ai2 更大的海洋監測平臺 Skylight 中，如果船只似乎正在釣魚，則可以向海岸護衛隊、巡邏船只或其他類似用戶發出警報，以檢查是否有非法活動。今年年初，在 Skylight 提醒一艘在其專屬經濟區內非法捕撈的船只出現可疑行為后，阿根廷海岸護衛隊攔截了該船只，并隨后對其實施了罰款。 Atlantes 是一個基于 4.7…

]]>

13143

圖像和視頻理解的視覺語言模型提示工程實踐指南 http://www.open-lab.net/zh-cn/blog/vision-language-model-prompt-engineering-guide-for-image-and-video-understanding/ Wed, 26 Feb 2025 06:49:25 +0000 http://www.open-lab.net/zh-cn/blog/?p=13030 Continued]]> 視覺語言模型 (VLMs) 正在以極快的速度發展。2020 年，首批 VLMs 通過使用視覺編碼器將視覺理解引入大語言模型 (LLMs) ，徹底改變了生成式 AI 格局。這些初始 VLMs 能力有限，只能理解文本和單張圖像輸入。幾年后，VLM 現在能夠理解多圖像和視頻輸入，以執行高級視覺語言任務，例如視覺問答 (VQA)、字幕、搜索和摘要。通過調整提示和模型權重，可以提高特定用例的 VLM 準確性。可以使用 PEFT 等高效技術微調模型權重，但仍需要足夠的數據和計算。但是， prompt engineering 和上下文學習也可用于提高輸出質量，并且與在運行時調整模型的文本輸入一樣簡單。本文將為您介紹 VLM 的演變，以及如何有效地提示 VLM 以用于了解單張圖像、多張圖像和視頻的用例。如需了解有關 VLM 和視覺 AI 智能體的更多信息，

]]>

13030

在 NVIDIA GPU 上訓練的 Microsoft Phi SLM 的多模態最新進展 http://www.open-lab.net/zh-cn/blog/latest-multimodal-addition-to-microsoft-phi-slms-trained-on-nvidia-gpus/ Wed, 26 Feb 2025 06:19:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=13020 Continued]]> 大語言模型（LLMs）已滲透到各行各業，并改變了技術潛力。但是，由于規模龐大，它們對于許多公司目前面臨的資源限制來說并不切實際。小語言模型（SLMs）的興起通過創建資源占用更小的模型，將質量和成本聯系起來。SLMs 是語言模型的一個子集，這些模型傾向于專注于特定領域，并使用更簡單的神經架構構建。隨著模型的發展模仿人類感知周圍環境的方式，模型必須接受多種形式的多模態數據。 Microsoft 宣布在 Phi 系列中推出新一代開放式 SLM，并新增兩項功能： Phi-4-multimodal 是第一個加入該系列的多模態模型，接受文本、音頻和圖像數據輸入。這些模型足夠小，可以在設備上部署。此版本基于 2024 年 12 月發布的 Phi-4 14B 參數 SLM 的研究版本構建而成，可用于兩個新的較小模型的商業用途。

]]>

13020

在 NVIDIA 視頻編解碼器 SDK 13.0 中使用 MV-HEVC 啟用立體和 3D 視圖 http://www.open-lab.net/zh-cn/blog/enabling-stereoscopic-and-3d-views-using-mv-hevc-in-nvidia-video-codec-sdk-13-0/ Mon, 24 Feb 2025 09:08:02 +0000 http://www.open-lab.net/zh-cn/blog/?p=13052 Continued]]> NVIDIA 宣布在最新的 NVIDIA 視頻編解碼器 SDK 版本 13.0 中實施多視圖高效視頻編碼 (MV-HEVC) 編碼器。這一重要更新標志著硬件加速的多視圖視頻壓縮技術實現了重大飛躍。與 simulcast 編碼相比，它為立體和 3D 視頻應用提供了更高的壓縮效率和質量。 MV-HEVC 是高效視頻編碼 (HEVC) 標準的擴展，旨在高效壓縮從不同有利位置拍攝的同一場景的多個視頻視圖。它解決了傳統視頻編碼方法 (如 simulcast 編碼) 的局限性，這些方法通常會導致多視圖內容的高比特率，并且缺乏高效的視圖間預測。 Video Codek SDK 13.0 中的 MV-HEVC 實現包括以下功能：這些功能為您提供靈活的多視圖內容編碼選項，同時保持高質量和高效率。 MV-HEVC 實現使用高級技術實現出色的壓縮：

]]>

13052

NVIDIA 視頻編解碼器 SDK 13.0 由 NVIDIA Blackwell 驅動 http://www.open-lab.net/zh-cn/blog/nvidia-video-codec-sdk-13-0-powered-by-nvidia-blackwell/ Mon, 24 Feb 2025 08:59:43 +0000 http://www.open-lab.net/zh-cn/blog/?p=13047 Continued]]> NVIDIA Video Codec SDK 13.0 的發布標志著重大升級，增加了對新一代 NVIDIA Blackwell GPU 的支持。此版本帶來了大量改進，旨在提升視頻編碼和解碼功能。從增強的壓縮效率到更好的吞吐量和編碼質量，SDK 13.0 可滿足視頻生態系統不斷變化的需求。以下是本次更新中引入的一些主要功能。編碼功能: 解碼功能: 以下是本次更新中有關關鍵編碼功能的詳細信息。 NVIDIA Blackwell 中的 NVIDIA 編碼器 (NVENC) 硬件包含許多用于提高壓縮效率的增強功能。其中包括改進運動估計，包括增強的子像素搜索和更好的速率失真優化（RDO），以及 HEVC 和 AV1。這些增強功能適用于所有預設，與 ADA 代 GPU 相比，可顯著提升質量。在前幾代產品中，NVENC 支持的格式包括 4:2:0 和…

]]>

13047

NVIDIA GTC 2025 上的人工智能促進氣候、能源和生態系統復原力 http://www.open-lab.net/zh-cn/blog/ai-for-climate-energy-and-ecosystem-resilience-at-nvidia-gtc-2025/ Thu, 20 Feb 2025 04:09:19 +0000 http://www.open-lab.net/zh-cn/blog/?p=12959 Continued]]> 從減緩氣候變化到改進災害響應和環境監測，AI 正在重塑我們應對重大全球挑戰的方式。快速、高分辨率的氣候預報、實時監控和數字孿生技術的進步為科學家、政策制定者和行業領導者提供了數據驅動的工具，幫助他們了解、規劃和應對一個變暖的星球。在 3 月 17 日至 21 日舉行的 NVIDIA GTC 2025 大會上，思想領袖、科學家、開發者和創新者將重點介紹 AI 如何幫助塑造更具可持續性和韌性的未來。以下會議展示了 AI 在氣候預測、災難緩解和保護工作中發揮的作用，幫助社區適應日益不可預測的世界。隨著全球變暖加劇，極端天氣事件變得更加嚴重和頻繁，社區需要更快、更精確的自然災害預測和響應策略。AI 正在改進洪水、野火和颶風建模，從而實現更早的警報和更有效的緩解措施。借助大規模天氣模擬、衛星數據分析和實時預測性見解，AI 正在幫助應急響應人員和決策者盡可能減少損失、提高抗災能力，

]]>

12959

AI 基礎模型增強癌癥診斷并實現個性化治療 http://www.open-lab.net/zh-cn/blog/ai-foundation-model-enhances-cancer-diagnosis-and-tailors-treatment/ Tue, 04 Feb 2025 04:44:52 +0000 http://www.open-lab.net/zh-cn/blog/?p=12883 Continued]]> 斯坦福大學研究人員的一項新研究和 AI 模型正在簡化癌癥診斷、治療規劃和預后預測。這項名為 MUSK (Multimodal transformer with Unified maSKed modeling) 的研究旨在提高精準腫瘤學，根據每位患者獨特的醫療數據為其定制治療計劃。 “多模態基礎模型是醫學 AI 研究的新領域，”放射腫瘤學副教授兼研究高級作者 Ruijiang LI 說。“最近，我們為醫學領域開發了視覺語言基礎模型，尤其是在病理學領域。但是，現有研究使用的現有基礎模型需要配對的圖像 – 文本數據進行預訓練。盡管我們付出了大量努力，最終打造出 1M 病理圖像文本對，但它仍然不足以完全捕捉整個疾病譜系的多樣性。” 在考慮患者狀況和規劃最佳治療方案時，腫瘤科醫生依靠多種數據源。然而，醫生和 AI 模型仍然難以集成和解釋復雜的醫療數據。

]]>

12883

新的 AI 模型提供癌癥細胞級視圖 http://www.open-lab.net/zh-cn/blog/new-ai-model-offers-cellular-level-view-of-cancerous-tumor/ Tue, 04 Feb 2025 04:42:37 +0000 http://www.open-lab.net/zh-cn/blog/?p=12880 Continued]]> 研究癌癥的研究人員推出了一種新的 AI 模型，該模型提供了癌細胞的細胞級映射和可視化，科學家希望該模型能夠揭示某些細胞間關系如何以及為什么會引發癌癥生長。位于圣地亞哥的初創公司 BioTuring 宣布推出一種 AI 模型，該模型可以以單細胞分辨率快速創建癌癥腫瘤的詳細可視化圖像。這種類型的顆粒數據顯示了細胞的大小、形狀、哪些基因被激活，關鍵是顯示了組織樣本中數百萬個不同細胞的相對空間位置。與速度慢得多的傳統生物計算方法不同，新模型提供了有關腫瘤動力學以及癌細胞和免疫細胞相互作用的實時高分辨率見解。 BioTuring 首席執行官 Son Pham 表示：“人體大約有 30 萬億個細胞，如果進行大規模的腫瘤活檢，就會發現有幾百萬個細胞。“類比是 – 想象一下，您正在以非常高分辨率分析衛星圖像，試圖了解城市的運作方式。在生物學領域，我們的模型所做的是向您展示每棟房子、

]]>

12880

人人超碰97caoporen国产