Media & Entertainment – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Mon, 10 Mar 2025 06:55:01 +0000
zh-CN
hourly
1
196178272 -
借助 NVIDIA Maxine 和 Texel 實現大規模協調創新
http://www.open-lab.net/zh-cn/blog/orchestrating-innovation-at-scale-with-nvidia-maxine-and-texel/
Mon, 16 Sep 2024 07:35:49 +0000
http://www.open-lab.net/zh-cn/blog/?p=11264
Continued]]>
NVIDIA Maxine AI 開發者平臺是一套 NVIDIA NIM 微服務、云加速微服務和 SDK,可以提供用于增強實時視頻和音頻的先進功能。NVIDIA 合作伙伴使用 Maxine 功能打造更好的虛擬交互體驗,并改善與其應用的人類連接。 在虛擬環境中很少進行和保持眼神交流,因為在舉行會議或制作視頻時,通常很難將目光與攝像頭對齊;分心、腳本、側面注釋和其他因素增加了保持眼神交流的挑戰。 Maxine 眼神交流通過將用戶的目光與攝像頭對齊來模擬眼神交流,并增加互動和聯系,來解決此問題。有關更多信息,請參閱 NVIDIA Maxine 提升云端視頻會議效果。 將 Maxine 功能集成到應用程序中,有幾個選項,稍后將在本文中進行概述。Texel 是一個 AI 平臺,提供云原生 API,可幫助您擴展和優化圖像和視頻處理的工作流,使使用云的小型開發者能夠更輕松、
Source
]]>
11264
-
實現可定制的 GPU 加速視頻轉碼流程
http://www.open-lab.net/zh-cn/blog/enabling-customizable-gpu-accelerated-video-transcoding-pipelines/
Wed, 11 Sep 2024 07:45:42 +0000
http://www.open-lab.net/zh-cn/blog/?p=11270
Continued]]>
如今,視頻占據互聯網流量的80%以上。這些內容由各種設備生成并在各種設備上使用,包括IoT設備、智能手機、計算機和電視。隨著像素密度和連接設備數量的增長,在快速、高效、高質量的視頻編碼和解碼方面的持續投資至關重要。 最新的 NVIDIA 數據中心 GPU(例如 NVIDIA L40S 和 NVIDIA L4 Tensor Core)可處理要求嚴苛的用例,包括 AI 訓練、推理、視覺計算、云游戲和視頻轉碼。通過將多個 NVIDIA 視頻解碼(NVDEC)和視頻編碼(NVENC)視頻引擎與高級計算能力相結合,這些 GPU 可幫助合作伙伴加速和定制轉碼流程。 V-Nova 已將 MPEG-5 第 2 部分低復雜度增強視頻編碼 (LCEVC) 標準的實施移植到 NVIDIA GPU 上。LCEVC 利用 NVENC 視頻引擎和 NVIDIA Ada 架構 GPU…
Source
]]>
11270
-
視頻:使用 NVIDIA Holoscan 構建實時媒體應用程序的 AI 基礎架構解決方案
http://www.open-lab.net/zh-cn/blog/video-build-live-media-applications-for-ai-enabled-infrastructure-with-nvidia-holoscan-for-media/
Wed, 14 Aug 2024 06:38:01 +0000
http://www.open-lab.net/zh-cn/blog/?p=10979
Continued]]>
適用于媒體的 NVIDIA Holoscan 是一個軟件定義、AI 啟用的平臺,允許直播視頻流程在與 AI 相同的基礎設施上運行。 本視頻介紹了直播媒體領域的開發者如何使用 NVIDIA Holoscan for Media,在可重復使用的 NVIDIA 加速的現有商用硬件上構建應用程序,并將其作為軟件進行部署。該視頻還特邀了 NVIDIA 直播媒體解決方案產品線經理 Guillaume Polaillon。 Holoscan for Media 通過提供基于 IP 的云原生架構(不受專用硬件、環境或位置的限制),為這個快速發展的市場帶來了應用程序開發的變革。相反,它集成了開源和無處不在的技術,使您能夠簡化開發流程、加速向客戶交付,并將新興技術如生成式 AI 集成到您的解決方案中,同時優化研發開支。 獲取開發者對 NVIDIA Holoscan for Media…
Source
]]>
10979
-
利用 NVIDIA Maxine AI 開發者平臺和 VideoRequest 實現視頻通信升級
http://www.open-lab.net/zh-cn/blog/elevating-video-communication-with-the-nvidia-maxine-ai-developer-platform-and-videorequest/
Mon, 12 Aug 2024 06:52:46 +0000
http://www.open-lab.net/zh-cn/blog/?p=10986
Continued]]>
有效的視頻通信對每個在線溝通者來說都非常重要。對企業、教育工作者和內容創作者而言,這一點尤為關鍵。 NVIDIA Maxine 是一套 NVIDIA 加速的 SDK 集合,是云原生的容器化 NVIDIA NIM 微服務,用于部署 AI 功能,以增強視頻會議、數字人、虛擬存在和內容創作的實時音頻和視頻。Maxine 將繼續助力您突破智能實時視頻增強的極限。 在本文中,我們展示了 NVIDIA Inception 計劃合作伙伴 VideoRequest 如何使用 Maxine AI 開發者平臺將復雜的實時視頻編輯工具引入其平臺,從而使最終用戶能夠專注于他們想要發送的消息,而不是視頻設置或處理工具。 VideoRequest 是一項 AI 增強型視頻服務,用戶可以在其中輕松創建、編輯和分享視頻,用于客戶感言、宣傳、營銷、培訓或活動。
Source
]]>
10986
-
借助 NVIDIA Maxine 實現遠程呈現和新一代數字人技術的突破
http://www.open-lab.net/zh-cn/blog/advancing-telepresence-and-next-generation-digital-humans-with-nvidia-maxine/
Mon, 29 Jul 2024 08:04:01 +0000
http://www.open-lab.net/zh-cn/blog/?p=10830
Continued]]>
在本周的 SIGGRAPH 2024 上,NVIDIA 將展示 NVIDIA Maxine AI 開發者平臺的最新進展,該平臺通過 NVIDIA AI Enterprise 提供。該平臺使您能夠部署先進的 AI 功能,以提高音頻和視頻質量,并實現增強現實效果。 NVIDIA 剛剛宣布即將為早期訪問開發者提供 Maxine 3D 和 Maxine Video Relighting,同時推出生產的 Maxine Eye Contact NVIDIA NIM 微服務early access。 Maxine 3D 與 NVIDIA ACE, 一套用于語音、智能和動畫的生成式 AI 技術,一起,為各種開發者和應用程序帶來逼真的數字人。它支持通過商品視頻會議音頻和視頻設備使用實時、照片級真實的 3D 數字人類。 現在,通過全面的 NVIDIA API 目錄,
Source
]]>
10830
-
利用 OpenUSD 構建產品配置器
http://www.open-lab.net/zh-cn/blog/developing-product-configurators-with-openusd/
Wed, 24 Jul 2024 09:13:03 +0000
http://www.open-lab.net/zh-cn/blog/?p=10742
Continued]]>
從廣告公司到軟件供應商的開發者都在助力全球品牌通過產品配置器解決方案為數字體驗和視覺故事提供超個性化體驗。 通過將 NVIDIA Omniverse 與 OpenUSD 和 生成式 AI 集成到產品配置器中,解決方案提供商和軟件開發者能夠為品牌和零售消費者提供交互式、光線追蹤的逼真體驗。 當整合到 OpenUSD 中時,可以更快地從設計團隊獲取準確的 CAD 數據,并將其交付給營銷團隊,以便在活動素材創建和數字體驗中使用。 產品配置器使最終用戶能夠從任何角度實時切換和更改預定的變體,例如汽車的顏色、輪胎類型或內飾選項。生成式 AI 可以添加即時的超個性化層,例如在海灘與山脈中不同的周圍環境。 為3D 產品配置器構建此類應用程序或解決方案有助于解鎖藝術家對舞臺 3D 資產和環境的再利用,從而節省大量時間并提高靈活性。這些體驗可以面向消費者,也可以面向內部,
Source
]]>
10742
-
使用適用于 HEVC 的 NVIDIA 視頻編解碼器 SDK 12.2 提高視頻質量
http://www.open-lab.net/zh-cn/blog/improving-video-quality-with-nvidia-video-codec-sdk-12-2-for-hevc/
Wed, 26 Jun 2024 04:40:35 +0000
http://www.open-lab.net/zh-cn/blog/?p=10421
Continued]]>
NVIDIA 視頻編解碼器 SDK為 Windows 和 Linux 上的硬件加速視頻編碼和解碼提供了一套全面的 API 集。The 12.2 版本提高了高效視頻編碼(HEVC)的視頻質量,特別是自然視頻內容的比特率顯著降低。這篇文章詳細介紹了以下新功能: 前瞻性級別可以幫助分析未來的幀,并實現對不同幀的有效比特分配,以優化編碼效率。它使用編碼樹單元(CTU)和其他編碼統計信息來改進速率控制,這對于延遲容忍編碼非常有用。Video Codec SDK 12.2 提供了多達四個不同的前瞻性級別,具有不同的性能和質量權衡。 使用以下設置: 使用相機捕獲的自然視頻內容具有噪聲,該噪聲可能來自包括傳感器噪聲在內的一系列因素。噪聲可以減少時間冗余,從而增加用于編碼的比特數,降低壓縮效率。 時間濾波通過使用來自相鄰幀的補丁來過濾當前幀,從而減少這種噪聲。
Source
]]>
10421
-
Reallusion 借助 NVIDIA AI 打造栩栩如生的數字角色
http://www.open-lab.net/zh-cn/blog/reallusion-brings-digital-characters-to-life-with-nvidia-ai/
Mon, 10 Jun 2024 07:06:52 +0000
http://www.open-lab.net/zh-cn/blog/?p=10350
Continued]]>
在當今的數字時代,對于希望將愿景變為現實的電影制作人、游戲開發者和內容創作者而言,創作逼真的動畫人物至關重要。Reallusion 處于這種尖端藝術形式的前沿,使用了強大的人工智能技術,例如NVIDIA Audio2Face和NVIDIA Maxine制作逼真的數字人和角色動畫。 在捕捉同步面部動畫的同時匹配音頻,并在單個通道中創建整體輸出方面存在重大挑戰。Reallusion 采用 Maxine AR 解決了這一問題,繞過了這種復雜的多軌定時同步,使用鏈式特效創建了革命性的 motion capture(mocap)解決方案,可以將動畫和音頻有效地生成單個流。 Audio2Face 是一種先進的 AI 技術,可以僅通過音頻或文本輸入自動生成富有表現力的面部動畫和唇部同步。它支持多種語言,并且可以為說話甚至是說話的角色制作動畫。
Source
]]>
10350
-
聚焦:思科借助 NVIDIA BlueField-3 DPU 提高工作負載安全性和運營效率
http://www.open-lab.net/zh-cn/blog/spotlight-cisco-enhances-workload-security-and-operational-efficiency-with-nvidia-bluefield-3-dpus/
Mon, 10 Jun 2024 06:59:14 +0000
http://www.open-lab.net/zh-cn/blog/?p=10346
Continued]]>
隨著網絡攻擊變得越來越復雜,組織必須不斷采用先進的解決方案來保護其關鍵資產。其中一種解決方案是Cisco Secure Workload,這是一種全面的安全解決方案,旨在保護跨不同基礎設施、位置和外形尺寸的應用程序工作負載。 Cisco 最近發布了 Cisco Secure Workload 3.9 版,該版本將企業的安全性和運營效率提升到了新的水平。它提供了新的功能來緩解威脅和漏洞,并為部署 microsegmentation 提供了更大的靈活性。現在,它還擴展到NVIDIA BlueField-3 數據處理器,其專用 Arm 核心可以加速硬件任務并隔離特定操作,從而確保高效數據處理和強大的安全性,從而打造更精簡、更安全的基礎設施。 思科安全工作負載可為每次工作負載交互提供出色的可見性,并利用 AI 的強大功能自動執行人類管理員無法完成的任務,從而保護應用程序工作負載。
Source
]]>
10346
-
借助 NVIDIA NIM 無縫部署大量 LoRA Adapters
http://www.open-lab.net/zh-cn/blog/seamlessly-deploying-a-swarm-of-lora-adapters-with-nvidia-nim/
Fri, 07 Jun 2024 07:49:27 +0000
http://www.open-lab.net/zh-cn/blog/?p=10358
Continued]]>
最新的先進基礎大型語言模型 (LLM) 擁有數十億個參數,并已在數萬億個輸入文本標記上進行了預訓練。它們通常在各種用例上都取得了驚人的成果,而無需進行任何定制。盡管如此,研究表明,通過使用高質量、特定領域的數據集調整 LLM 可以實現下游任務的最佳準確率。 在許多情況下,較小的自定義模型可以美甚至優于較大的通用 LLM,同時顯著降低部署成本。但是,針對特定下游任務定制模型可能會在創建和部署期間帶來重大挑戰。 完整的 full fine-tuning 對于大型語言模型(LLM,即更新模型的所有參數),由于在整個模型中學習所需的計算基礎設施數量,可能很困難。在部署時,基礎設施成本也會增加,因為用戶需要在內存中托管多個大型模型,或者隨著整個模型的交換而承受更高的延遲。Low-rank adaptation(LoRA)是一種緩解這兩個問題的技術。 本文簡要概述了 LoRA,
Source
]]>
10358
-
在 NVIDIA Holoscan SDK 中 構建集成 OpenCV 的零拷貝 AI 傳感器處理流程
http://www.open-lab.net/zh-cn/blog/build-a-zero-copy-ai-sensor-processing-pipeline-with-opencv-in-nvidia-holoscan-sdk/
Wed, 05 Jun 2024 07:19:36 +0000
http://www.open-lab.net/zh-cn/blog/?p=10193
Continued]]>
NVIDIA Holoscan 是 NVIDIA 的多模態實時 AI 傳感器處理平臺,旨在幫助開發者構建端到端傳感器處理流程。該平臺的核心組件是 NVIDIA Holoscan SDK,其功能包括: Holoscan SDK 可用于為多種行業和應用場景構建流式 AI 流程,包括醫療設備、邊緣高性能計算和工業檢測等領域。有關更多信息,請參閱 使用 NVIDIA Holoscan 開發生產就緒型 AI 傳感器處理應用,以獲取詳細信息。 Holoscan SDK 通過充分利用軟件和硬件來加速流式 AI 應用。它可以與 RDMA 技術 結合,通過 GPU 加速進一步提高端到端流程性能。通常,端到端傳感器處理流程包括: 此流程中的所有數據都存儲在 GPU 顯存中,Holoscan 原生運算符可以直接訪問,而無需主機設備內存傳輸。
Source
]]>
10193
-
NVIDIA TensorRT 模型優化器加速生成人工智能推理性能,現已公開
http://www.open-lab.net/zh-cn/blog/accelerate-generative-ai-inference-performance-with-nvidia-tensorrt-model-optimizer-now-publicly-available/
Wed, 08 May 2024 04:49:34 +0000
http://www.open-lab.net/zh-cn/blog/?p=9822
Continued]]>
在快速發展的環境中,生成人工智能的發展對加速推理速度的需求仍然是一個緊迫的問題。隨著模型規模和復雜性的指數級增長,對快速生成結果以同時服務于眾多用戶的需求也在持續增長。NVIDIA 平臺站在這一努力的前沿,通過芯片、系統、軟件和算法等全技術堆棧的創新,實現永久的性能飛躍。 NVIDIA 正在擴展其推理產品 NVIDIA TensorRT 模型優化器,一個集成了最先進的后期訓練和環中訓練模型優化技術的綜合庫。這些技術包括量化和稀疏性,旨在降低模型復雜性,以實現更高效的下游推理庫,如 NVIDIA TensorRT LLM,從而更有效地優化深度學習模型的推理速度。 作為 NVIDIA TensorRT 生態系統的一部分,NVIDIA TensorRT 模型優化器(簡稱模型優化器)可用于多種流行的體系結構,包括 NVIDIA Hopper、NVIDIA Ampere 和 NVIDIA…
Source
]]>
9822
-
使用 NVIDIA TensorRT-LLM 調整和部署 LoRA LLM
http://www.open-lab.net/zh-cn/blog/tune-and-deploy-lora-llms-with-nvidia-tensorrt-llm/
Tue, 02 Apr 2024 07:51:54 +0000
http://www.open-lab.net/zh-cn/blog/?p=9445
Continued]]>
大型語言模型 (LLM) 可以從大量文本中學習,并為各種任務和領域生成流暢、一致的文本,從而徹底改變自然語言處理 (NLP)。然而,定制 LLM 是一個具有挑戰性的任務,通常需要 訓練過程,這非常耗時且計算成本高昂。此外,訓練 LLM 需要多樣化且具有代表性的數據集,這可能很難獲取和整理。 企業如何在不支付全部訓練成本的情況下利用 LLM 的強大功能?一個很有前景的解決方案是 Low-Rank Adaptation (LoRA),這是一種微調方法,可以顯著減少可訓練參數的數量、內存需求和訓練時間,同時實現與各種 NLP 任務和領域的微調相當甚至更好的性能。 本文介紹了 LoRA 的直覺、實現和一些應用。它還比較了 LoRA 與監督式微調和提示工程,并討論了它們的優缺點。本文概述了訓練和推理 LoRA 調整模型的實用指南。最后,它演示了如何使用 NVIDIA TensorRT-LLM…
Source
]]>
9445
-
重新思考如何訓練 Diffusion 模型
http://www.open-lab.net/zh-cn/blog/rethinking-how-to-train-diffusion-models/
Thu, 21 Mar 2024 09:46:57 +0000
http://www.open-lab.net/zh-cn/blog/?p=9503
Continued]]>
在探索了擴散模型采樣、參數化和訓練的基礎知識之后,我們的團隊開始研究這些網絡架構的內部結構。請參考 生成式 AI 研究聚焦:揭開基于擴散的模型的神秘面紗 了解更多詳情。 結果證明這是一項令人沮喪的練習。任何直接改進這些模型的嘗試都會使結果更加糟糕。它們似乎處于微妙、微調、高性能的狀態,任何更改都會破壞平衡。雖然通過徹底重新調整超參數可以實現好處,但下一組改進將需要重新經歷整個過程。 如果您熟悉這種繁瑣的開發循環,但您不直接使用擴散,請繼續閱讀。我們的研究結果針對大多數神經網絡及其訓練背后的普遍問題和組件。 我們決定打破這個循環,回顧一下基礎知識。為什么架構如此易碎?網絡中是否存在破壞訓練進程的未知現象?我們如何使其更加穩健?歸根結底:由于這些問題,我們目前還剩下多少性能? 我們最近的論文 分析和改進擴散模型的訓練動力學 中報告了我們的研究結果和細節。
Source
]]>
9503
-
在 LLM 架構中應用多專家模型
http://www.open-lab.net/zh-cn/blog/applying-mixture-of-experts-in-llm-architectures/
Thu, 14 Mar 2024 07:13:19 +0000
http://www.open-lab.net/zh-cn/blog/?p=9407
Continued]]>
多專家模型 (MoE) 大型語言模型 (LLM) 架構最近出現了,無論是在 GPT-4 等專有 LLM 中,還是在開源版本的社區模型中,如 Mistral Mixtral 8x7B。Mixtral 模型的強勁相對性能引起了極大的興趣,并引發了許多關于 MoE 及其在 LLM 架構中使用的問題。那么,什么是 MoE,為什么它很重要? 多專家模型是神經網絡的架構模式,它將層或運算 (例如線性層、MLP 或注意力投影) 的計算拆分為多個“專家”子網絡。這些子網絡各自獨立執行自己的計算,并組合其結果以創建 MoE 層的最終輸出。MoE 架構可以是密集的,這意味著每個專家都用于每個輸入,也可以是稀疏的,這意味著每個輸入都使用一個專家子集。 本文主要探討MoE在LLM架構中的應用。如需了解MoE在其他領域的應用,請參閱使用稀疏的專家混合模型擴展視覺、
Source
]]>
9407
人人超碰97caoporen国产