增強現實/虛擬現實 – NVIDIA 技術博客

增強現實/虛擬現實 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞和內容。 Thu, 22 May 2025 06:06:58 +0000 zh-CN hourly 1 196178272 聚焦：Perfect Corp. 利用 NVIDIA TensorRT 和 NVENC 實現個性化的數字化美妝體驗 http://www.open-lab.net/zh-cn/blog/spotlight-perfect-corp-delivers-personalized-digital-beauty-experiences-using-nvidia-tensorrt-and-nvenc/ Sun, 18 May 2025 06:00:34 +0000 http://www.open-lab.net/zh-cn/blog/?p=13938 Continued]]> 增強現實 (AR) 和 AI 通過提供從虛擬試用到 AI 驅動的造型推薦等超個性化體驗，正在徹底改變美妝和時尚行業。這些創新解決了一個長期難題：彌合數字購物與店內體驗之間的差距。它們可以幫助消費者做出自信的購買決策，而無需親自嘗試產品。實現這種逼真程度帶來了諸多挑戰，例如確保逼真的色彩表現、適應不同的膚色以及提供無縫的實時性能。這需要在 GPU 加速和 AI 驅動的計算機視覺、深度學習和 AR 渲染方面取得進步。 Perfect Corp. 是一家領先的 AI 和 AR 美妝與時尚技術解決方案 SaaS 提供商，借助 NVIDIA 技術使這一切成為可能。這家成立于臺灣、在紐約證券交易所上市的公司榮獲了 40 多個行業獎項，在全球擁有超過 1 billion 次應用程序下載量，使消費者能夠輕松地在虛擬環境中試用產品。其創新的 AI 和 AR 服務受到 650…

]]>

13938

借助 NVIDIA RTX PRO Blackwell 臺式機 GPU 實現 Rivian 新一代XR 設計 http://www.open-lab.net/zh-cn/blog/powering-next-gen-xr-design-at-rivian-with-nvidia-rtx-pro-blackwell-desktop-gpus/ Tue, 06 May 2025 06:55:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=13838 Continued]]> 對于不斷突破 XR 界限的專業人士而言，打造身臨其境的高保真體驗始終充滿挑戰。在渲染大型數據集和驅動最新的超高分辨率高級 XR 頭顯設備時，要求嚴苛的 XR 工作流程突破了性能極限。同時集成先進的人工智能功能，提供更具交互性和直觀性的體驗，進一步提高了標準。雖然技術上存在挑戰，但這些因素正在推動硬件和軟件創新，以在汽車設計、建筑設計、制造等領域充分發揮 XR 的潛力。 NVIDIA RTX PRO Blackwell 臺式機 GPU 在 NVIDIA GTC 2025 上的發布標志著我們向前邁出了重要一步。這些新一代 GPU 具有高達 600W 的功率和 96 GB 的 GDDR7 顯存，增加了 Tensor 和 CUDA 核心，并且 PCIe Gen5 支持使用雙 GPU 的 VR-SLI 功能，這是一項重大進步。 RTX PRO Blackwell GPU…

]]>

13838

借助 NVIDIA Omniverse 將 AR 體驗串流到 Apple iPad http://www.open-lab.net/zh-cn/blog/stream-ar-experiences-to-the-apple-ipad-with-nvidia-omniverse/ Wed, 05 Mar 2025 05:49:32 +0000 http://www.open-lab.net/zh-cn/blog/?p=13137 Continued]]> 最近在 MWC 巴塞羅那宣布，開發者現在可以將使用 NVIDIA Omniverse 構建的增強現實（AR）體驗流式傳輸到 Apple iPad。Omniverse 是一個用于實時協作和模擬的平臺，使開發者能夠創建和流式傳輸具有高視覺質量的詳細數據集。Omniverse 基于 Universal Scene Description（OpenUSD）構建，可實現跨 3D 工具和應用的無縫兼容性。在 NVIDIA RTX GPU 和 NVIDIA Graphics Delivery Network (GDN) 的支持下，通過 Omniverse 將 AR 體驗串流到 iPad，可確保復雜數據集的高保真渲染，同時保持性能、響應速度和可擴展性。 AR 通過在復雜的 3D 模型上實現實時可視化、協作和迭代來簡化工作流程。通過將物理原型替換為數字孿生，團隊可以加速創新，

]]>

13137

在 NVIDIA 視頻編解碼器 SDK 13.0 中使用 MV-HEVC 啟用立體和 3D 視圖 http://www.open-lab.net/zh-cn/blog/enabling-stereoscopic-and-3d-views-using-mv-hevc-in-nvidia-video-codec-sdk-13-0/ Mon, 24 Feb 2025 09:08:02 +0000 http://www.open-lab.net/zh-cn/blog/?p=13052 Continued]]> NVIDIA 宣布在最新的 NVIDIA 視頻編解碼器 SDK 版本 13.0 中實施多視圖高效視頻編碼 (MV-HEVC) 編碼器。這一重要更新標志著硬件加速的多視圖視頻壓縮技術實現了重大飛躍。與 simulcast 編碼相比，它為立體和 3D 視頻應用提供了更高的壓縮效率和質量。 MV-HEVC 是高效視頻編碼 (HEVC) 標準的擴展，旨在高效壓縮從不同有利位置拍攝的同一場景的多個視頻視圖。它解決了傳統視頻編碼方法 (如 simulcast 編碼) 的局限性，這些方法通常會導致多視圖內容的高比特率，并且缺乏高效的視圖間預測。 Video Codek SDK 13.0 中的 MV-HEVC 實現包括以下功能：這些功能為您提供靈活的多視圖內容編碼選項，同時保持高質量和高效率。 MV-HEVC 實現使用高級技術實現出色的壓縮：

]]>

13052

利用 NVIDIA Omniverse 空間流，在 XR 中體驗數字孿生技術 http://www.open-lab.net/zh-cn/blog/experience-digital-twins-in-xr-with-nvidia-omniverse-spatial-streaming/ Mon, 06 Jan 2025 08:02:51 +0000 http://www.open-lab.net/zh-cn/blog/?p=12578 Continued]]> 空間計算體驗正在轉變我們與數據的交互方式，通過擴展現實 (XR) 和數字孿生等技術連接物理和數字世界。這些進步使得分析和理解復雜數據集的方法更加直觀、更加身臨其境。本文介紹了開發者現在如何在沉浸式環境中使用基于通用場景描述 (Universal Scene Description，OpenUSD) 的 NVIDIA Omniverse 數據集，從而將理解和見解提升到新的水平。打造沉浸式空間體驗面臨獨特的挑戰。通常，XR 設備無法以逼真且引人入勝的體驗所需的細節水平渲染復雜的數據集。硬件限制會降低保真度，導致難以保留復雜的細節。為了應對這些挑戰，NVIDIA 在 CES 2025 上宣布，Omniverse 平臺現在包含 Omniverse 數字孿生工作流的空間流，可實現具有出色視覺保真度和性能的 XR 體驗。合作伙伴 Accenture、

]]>

12578

利用 NVIDIA Morpheus 加速警報分流和 LLM 代理強化安全運營中心 http://www.open-lab.net/zh-cn/blog/augmenting-security-operations-centers-with-accelerated-alert-triage-and-llm-agents-using-nvidia-morpheus/ Thu, 24 Oct 2024 08:20:15 +0000 http://www.open-lab.net/zh-cn/blog/?p=11631 Continued]]> 安全運營中心（SOC）分析師每天都會收到大量傳入的安全警報。為了確保其組織的持續安全，他們的任務是仔細檢查傳入的噪音，分揀出誤報，并找出可能是真正安全漏洞的指標。然而，警報的數量之多可能意味著泄露的重要早期指標被隱藏起來。更不用說流程本身，該流程通常是重復性的、耗時的且成本高昂。我們能否構建工作流程來緩解這些問題，同時仍然保持良好的甚至更好的安全級別？首先，我們研究了 NVIDIA Morpheus ，這是一種 GPU 加速的網絡安全 AI 框架，用于處理和分析高速數據流。特別是，我們關注數字指紋 AI 工作流，該工作流支持在網絡上進行大規模異常檢測。數字指紋工作流可以學習任何給定實體的正常行為特征，并將其表示為自動編碼器模型。當行為出現偏差時（例如，如果用戶顯示幾個新的地理位置），系統會生成與異常程度對應的 z 分數。傳統上，

]]>

11631

多代理 AI 和 GPU 驅動的聲音轉文本技術創新 http://www.open-lab.net/zh-cn/blog/multi-agent-ai-and-gpu-powered-innovation-in-sound-to-text-technology/ Tue, 22 Oct 2024 03:29:45 +0000 http://www.open-lab.net/zh-cn/blog/?p=11629 Continued]]> 自動音頻字幕 (Automated Audio Captioning) 任務的核心是從音頻輸入中生成自然語言描述。鑒于輸入 (音頻) 和輸出 (文字) 之間的不同模式，AAC 系統通常依靠 audio encoder 從聲音中提取相關信息，表示為 feature vectors，然后 decoder 用于生成文本描述。這一研究領域對于開發使機器能夠更好地解釋周圍聲學環境并與之交互的系統至關重要。意識到其重要性的 Detection and Classification of Acoustic Scenes and Events（DCASE）社區自 2020 年以來舉辦了年度 AAC 競賽，吸引了全球超過 26 個學術界和行業的團隊參加。收聽 Audio Example of a Recording Environment in a Forest 的結果。

]]>

11629

AI 驅動模擬和數字孿生技術助力手術機器人技術創新發展 http://www.open-lab.net/zh-cn/blog/advancing-surgical-robotics-with-ai-driven-simulation-and-digital-twin-technology/ Mon, 14 Oct 2024 04:49:40 +0000 http://www.open-lab.net/zh-cn/blog/?p=11744 Continued]]> 在手術室中集成機器人手術助手（RSAs）為外科醫生和患者的治療效果帶來了巨大的優勢。目前，這些手術機器人平臺由經過訓練的外科醫生在控制臺中通過遠程操作進行操作，可提高靈活性，從而簡化手術工作流程并減輕外科醫生的工作量。探索下一代手術助手的視覺行為克隆，可以進一步增強機器人輔助手術的能力和效率。本文將介紹用于機器人手術輔助的兩個模板框架：手術首次交互式自主助理（SuFIA）和手術首次交互式自主助理 – 行為克隆（SuFIA-BC）。SuFIA 使用自然語言引導和大語言模型（LLMs）來實現手術機器人的高級規劃和控制，而 SuFIA-BC 則通過行為克隆（BC）技術提高機器人手術助理的靈活性和精度。這些框架將探索 LLMs 和 BC 技術的近期進展，并對其進行調整，以便出色應對手術場景的獨特挑戰。這項研究旨在加速手術機器人助手的開發，最終目標是減輕外科醫生的疲勞、

]]>

11744

利用 NVIDIA Omniverse 新開發者工具將生成式 AI 整合到 OpenUSD 工作流程 http://www.open-lab.net/zh-cn/blog/integrate-generative-ai-into-openusd-workflows-using-new-nvidia-omniverse-developer-tools/ Mon, 29 Jul 2024 07:51:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=10826 Continued]]> 在 SIGGRAPH 2024 大會上，NVIDIA 宣布推出基于 NVIDIA Omniverse 的新型生成式 AI 和基于 NVIDIA Omniverse 的 NVIDIA 加速開發工具。這將擴大 Universal Scene Description (OpenUSD) 在機器人、工業設計和工程領域的采用率，以便開發者可以為 AI 的下一次演進快速構建高度準確的虛擬世界。 OpenUSD 是適用于 3D 和 simulation 工作流程的開源框架和數據交換。這種通用性使開發者能夠構建高度準確、AI-enabled 的虛擬世界以及使這些世界成為可能的工具。借助基于 NVIDIA Omniverse 的 NVIDIA 加速開發工具和新型生成式 AI，更多行業的開發者可以創建用于可視化工業設計和工程項目的應用程序，或用于模擬環境的應用程序，

]]>

10826

使用人工智能開發更小、更輕的擴展現實眼鏡 http://www.open-lab.net/zh-cn/blog/developing-smaller-lighter-extended-reality-glasses-using-ai/ Fri, 14 Jun 2024 09:08:59 +0000 http://www.open-lab.net/zh-cn/blog/?p=10474 Continued]]> 如今的沉浸式擴展現實（XR）設備需要重型光學器件和顯示器用頭帶固定，這增加了體積并形成了社會障礙。在設想的未來，頭帶將不再是必要的。在過去的幾年里，NVIDIA Research 一直在與斯坦福大學計算成像小組合作，研究如何開發更小、更輕的 XR 眼鏡，該小組由 Gordon Wetzstein 教授領導。 XR 眼鏡光學設計中最重要的規則是顯示器應該靠近用戶的面部，以實現緊湊和輕便的設計，而圖像應該看起來更遠。隨著顯示器移動得離眼睛更遠，重心也發生了變化。然而，人眼無法正確感知離得太近的顯示器，因此必須使用透鏡等光學系統將圖像中繼到舒適的觀看距離。為了使該系統有效，顯示器需要位于透鏡的焦距附近，這反諷地需要將顯示器放置得更遠（圖 1）。一種解決方案是使用折疊光路的煎餅透鏡，這種方法引入了新的問題，如像差和額外的重量。光波導也經常用于實現緊湊型 XR 眼鏡，

]]>

10474

使用 NVIDIA RTX Video SDK 增強低分辨率 SDR 視頻 http://www.open-lab.net/zh-cn/blog/enhancing-low-resolution-sdr-video-with-the-nvidia-rtx-video-sdk/ Thu, 06 Jun 2024 08:11:55 +0000 http://www.open-lab.net/zh-cn/blog/?p=10362 Continued]]> NVIDIA RTX 視頻是 AI 視頻增強功能的集合，可改善低質量視頻的視覺質量。 NVIDIA RTX 視頻最初作為驅動 API 發布，現在作為 SDK 提供，讓您可以直接將這些效果集成到自己的應用中。 NVIDIA RTX 視頻超分辨率可以同時消除壓縮 artifact 和提升視頻質量。這些 blocky artifact 通常與低比特率視頻相關。通過采用 NVIDIA RTX 視頻超分辨率，視頻創意應用可以從存檔 footage 或較舊的 webcams 中提取較低質量的視頻，并大幅提高最終視頻的清晰度。隨著視頻制作的分辨率提升至 4K 及更高分辨率，NVIDIA RTX 視頻超分辨率 (Video Super Resolution) 可提供快速實現高質量放大的解決方案。隨著越來越多的視頻平臺支持 HDR 內容，

]]>

10362

廣播行業的突破：NVIDIA Holoscan for Media 現已上市，并將通過簡化 AI 集成來深入改變直播媒體 http://www.open-lab.net/zh-cn/blog/nvidia-holoscan-for-media/ Thu, 25 Apr 2024 08:36:11 +0000 http://www.open-lab.net/zh-cn/blog/?p=9730 Continued]]> 該軟件定義平臺幫助全球廣播和流媒體領域的開發者實現 AI 賦能的媒體解決方案。無論是提供體育直播節目、流媒體服務、網絡廣播還是社交平臺內容，媒體公司都面臨著頗具挑戰的形勢。越來越多的觀眾傾向于互動內容和個性化內容；虛擬現實（VR）和增強現實（AR）技術日益成為主流；新的視頻壓縮標準正在給傳統計算基礎設施帶來挑戰；AI 正在產生全方位的影響。在多變的環境下，媒體公司可以利用 AI 賦能的媒體解決方案靈活滿足其不斷變化的開發和交付需求，這將使他們獲益匪淺。 NVIDIA Holoscan for Media 現已上市，該軟件定義平臺可幫助開發者輕松構建直播媒體應用，利用 AI 為其增效并部署到各個媒體平臺。全新媒體應用開發方法 Holoscan for Media 提供了一種全新的直播媒體開發方法。

]]>

9730

借助 NVIDIA NeMo Parakeet ASR 模型突破語音識別的界限 http://www.open-lab.net/zh-cn/blog/pushing-the-boundaries-of-speech-recognition-with-nemo-parakeet-asr-models/ Thu, 18 Apr 2024 05:58:24 +0000 http://www.open-lab.net/zh-cn/blog/?p=9689 Continued]]> NVIDIA NeMo Parakeet 是一個端到端平臺，用于在任何地方（任何云端和本地）大規模開發多模態生成式 AI 模型，包括自動語音識別 (ASR) 模型。這些最先進的 ASR 模型是與 Suno.ai 合作開發的，能夠極其準確地轉錄英語口語。本文詳細介紹了 Parakeet ASR 模型在語音識別領域的新突破。四個已發布的 Parakeet 模型基于遞歸神經網絡傳感器 (RNNT) 或 connectionist Temporal Classification (CTC) 解碼器。它們擁有 0.6 B 和 11 B 參數，可處理各種音頻環境，表現出對音樂和靜音等非語音片段的彈性。這些模型基于廣泛的 64000 小時公有和專有數據集進行訓練，在各種口音和方言、人聲范圍以及不同的域和噪音條件下表現出出色的準確性。

]]>

9689

通過線下實踐學習，充分利用 NVIDIA GTC 2024 http://www.open-lab.net/zh-cn/blog/make-the-most-of-nvidia-gtc-2024-with-in-person-hands-on-learning/ Fri, 01 Mar 2024 06:57:17 +0000 http://www.open-lab.net/zh-cn/blog/?p=9146 Continued]]> 我們很高興能在圣何塞會議中心參加今年的 GTC 大會，與數千名開發者、行業領導者、研究人員和合作伙伴共襄盛會。通過親自參加 GTC，您將有機會與技術和 AI 領域的傳奇人物進行交流，并在 SAP 中心現場觀看 NVIDIA 首席執行官黃仁勛先生的主題演講。探索生成式 AI、機器人技術和自動駕駛汽車領域的新技術，并參加 900 場現場會議。您還可以通過技術實操培訓和僅在 GTC 現場提供的 NVIDIA 認證，有效提升職業技能。大會上最大的挑戰之一是決定如何利用時間。我們為您準備了 Developer Days，這些精心策劃的會議涵蓋您感興趣的領域。 GTC 大會上的開發者日是與會者期待已久的活動之一。這些為期四天的沉浸式專題活動旨在與各領域的專家建立聯系，并了解最新的技術創新，其中一些活動還提供實操培訓。無需擔心錯過下一場會議。

]]>

9146

借助由 NVIDIA 提供支持的新款 Varjo XR-4 系列頭顯設備，增強沉浸式體驗 http://www.open-lab.net/zh-cn/blog/enhance-immersive-experiences-with-the-new-varjo-xr-4-series-headsets-powered-by-nvidia/ Thu, 22 Feb 2024 07:19:41 +0000 http://www.open-lab.net/zh-cn/blog/?p=9065 Continued]]> 借助集成 NVIDIA 技術的 Varjo 新款 XR-4 系列頭顯設備，開發者和企業現在可以部署如生的虛擬現實和混合現實體驗。這些 XR 頭顯設備與肉眼所能看到的分辨率相匹配，為用戶提供逼真的視覺保真度和性能。最新的 XR-4 系列頭顯設備支持 NVIDIA Omniverse 并由 NVIDIA GPU 提供支持，為擴展現實 (XR) 開發者和用戶解鎖高保真照片級真實感和實時光線追蹤功能。 Varjo XR-4 系列借助 Omniverse 的高級功能，為關鍵幀提供更逼真的沉浸式功能到通用場景描述 (OpenUSD) 訓練、模擬、設計、工程和醫療健康等領域的管道和應用程序。得益于 XR-4 系列的逼真視覺體驗，公共部門空間等領域的高壓力訓練場景變得更加準確和逼真。現在，設計評審通過實時反射和準確表示任何模型來提供逼真的效果，為設計師提供更加身臨其境和準確的評審過程。

]]>

9065

人人超碰97caoporen国产