媒體與娛樂 – NVIDIA 技術博客

媒體與娛樂 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞和內容。 Thu, 12 Dec 2024 04:08:35 +0000 zh-CN hourly 1 196178272 NVIDIA Holoscan 幫助媒體實現直播工作流變革 http://www.open-lab.net/zh-cn/blog/transform-live-media-pipelines-with-nvidia-holoscan-for-media/ Mon, 09 Sep 2024 08:58:41 +0000 http://www.open-lab.net/zh-cn/blog/?p=11305 Continued]]> 適用于媒體的 NVIDIA Holoscan 現已準備好用于實時生產，并充分利用網絡和 GPU 技術的優勢。 Holoscan for Media 是一個軟件定義、支持 AI 的平臺，支持實時視頻制作流程在與 AI 相同的基礎設施上運行。這項技術通過可重復使用的、NVIDIA 加速的商用現成硬件，提供來自生態系統中成熟和新興供應商的應用程序。該平臺本身支持各種類型的 IP 媒體協議，包括未壓縮的 ST 2110，以便有效取代傳統的 SDI 設置或與之集成，從而在整個網絡中提供必要的質量、同步和定時功能。 NVIDIA 執行了嚴格的密度和合規性評估，以確保為高壓生產環境提供必要的性能和可靠性。該平臺在硬件故障轉移的基礎上整合了 ST 2022-7 冗余，現在使用 Red Hat OpenShift 4.14 進行生產部署，

]]>

11305

在 cuBLAS 中引入分組 GEMM API 以及更多性能更新 http://www.open-lab.net/zh-cn/blog/introducing-grouped-gemm-apis-in-cublas-and-more-performance-updates/ Wed, 12 Jun 2024 05:43:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=10332 Continued]]> 最新版本 NVIDIA cuBLAS 庫版本 12.5 將繼續為深度學習（DL）和高性能計算（HPC）工作負載提供功能和性能。本文將概述自版本 12.0以來 cuBLAS 矩陣乘法（matrix multiplications）中的以下更新：分組的 GEMM API 可視為批量 API 的泛化，可在一次內核啟動中對不同的矩陣大小、轉置和縮放因子進行分組和并行化。這種方法提供加速的一個示例是多專家 (MoE)模型的批量大小為 8 和 64，以及 FP16 輸入和輸出。在本示例中，分組的 GEMM API 可以使用批量 GEMM API 實現比單純循環快 1.2 倍的速度。這一點令人印象深刻，因為當前分組的 GEMM 核函數僅利用線程束級 MMA 指令。它們已證明可以與利用線程束級 MMA (wgmma) 指令的分批 GEMM 核函數進行競爭。

]]>

10332

使用 NVIDIA RTX Video SDK 增強低分辨率 SDR 視頻 http://www.open-lab.net/zh-cn/blog/enhancing-low-resolution-sdr-video-with-the-nvidia-rtx-video-sdk/ Thu, 06 Jun 2024 08:11:55 +0000 http://www.open-lab.net/zh-cn/blog/?p=10362 Continued]]> NVIDIA RTX 視頻是 AI 視頻增強功能的集合，可改善低質量視頻的視覺質量。 NVIDIA RTX 視頻最初作為驅動 API 發布，現在作為 SDK 提供，讓您可以直接將這些效果集成到自己的應用中。 NVIDIA RTX 視頻超分辨率可以同時消除壓縮 artifact 和提升視頻質量。這些 blocky artifact 通常與低比特率視頻相關。通過采用 NVIDIA RTX 視頻超分辨率，視頻創意應用可以從存檔 footage 或較舊的 webcams 中提取較低質量的視頻，并大幅提高最終視頻的清晰度。隨著視頻制作的分辨率提升至 4K 及更高分辨率，NVIDIA RTX 視頻超分辨率 (Video Super Resolution) 可提供快速實現高質量放大的解決方案。隨著越來越多的視頻平臺支持 HDR 內容，

]]>

10362

借助 NVIDIA ACE 打造逼真的數字人物 (現已正式發布) http://www.open-lab.net/zh-cn/blog/build-lifelike-digital-humans-with-nvidia-ace-now-generally-available/ Tue, 04 Jun 2024 07:47:02 +0000 http://www.open-lab.net/zh-cn/blog/?p=10209 Continued]]> NVIDIA ACE 是一套利用生成式人工智能實現數字人如生的技術，現已正式面向開發者提供，這些推理微服務封裝為 NVIDIA NIM，使開發者能夠為游戲、客戶服務、醫療健康等領域提供高質量的自然語言理解、語音合成和面部動畫。 NVIDIA 還推出了 ACE PC NIM 微服務，可在超過 1 億臺 RTX AI PC 和筆記本電腦的安裝基礎上進行搶先部署。領先的游戲和平臺開發者正在徹底改變各行各業的實時角色交互。許多公司，例如 Aww Inc、Dell Technologies、Gumption, Hippocratic AI、Inventec、OurPalm、Perfect World Games、Reallusion，ServiceNow、SoulBotix、SoulShell 和 Uneeq 正在采用 ACE 并將其集成到其平臺和應用程序中。

]]>

10209

借助 NVIDIA JetPack 6.0 助力邊緣云原生微服務，現已正式發布 http://www.open-lab.net/zh-cn/blog/power-cloud-native-microservices-at-the-edge-with-nvidia-jetpack-6-0-now-ga/ Tue, 04 Jun 2024 07:34:51 +0000 http://www.open-lab.net/zh-cn/blog/?p=10204 Continued]]> NVIDIA JetPack SDK 為 NVIDIA Jetson 模組提供支持，為構建端到端加速的人工智能應用提供全面的解決方案。JetPack 6 通過微服務和一系列新功能擴展了 Jetson 平臺的靈活性和可擴展性。這是 JetPack 2024 年下載次數最多的版本。隨著 JetPack 6.0 正式發布，開發者可以滿懷信心地將這些新功能引入更先進的嵌入式 AI 和機器人應用。本文重點介紹了主要功能和新的 AI 工作流程。 JetPack 6 支持在 Jetson 上擴展一系列基于 Linux 的發行版。其中包括 Canonical 的 Ubuntu 服務器、Redhat 的 RHEL 9.4、SUSE、Wind River Linux、Redhawk Real Time OS 以及各種基于 Yocto 的發行版。這些基于 Linux 的發行版在 Jetson…

]]>

10204

借助適用于 Windows RTX PC 的 NVIDIA RTX AI 工具包，簡化 AI 驅動型應用的開發 http://www.open-lab.net/zh-cn/blog/streamline-ai-powered-app-development-with-nvidia-rtx-ai-toolkit-for-windows-rtx-pcs/ Sun, 02 Jun 2024 08:33:01 +0000 http://www.open-lab.net/zh-cn/blog/?p=10241 Continued]]> NVIDIA 今日發布了 NVIDIA RTX AI 工具包，這是一個工具和 SDK 集合，供 Windows 應用程序開發者為 Windows 應用程序自定義、優化和部署人工智能模型。它可以免費使用，不需要具備人工智能框架和開發工具方面的經驗，并為本地和云部署提供出色的人工智能性能。生成式預訓練 Transformer (GPT) 模型的廣泛應用為 Windows 開發者將 AI 功能集成到應用程序中創造了巨大的機會。然而，提供這些功能仍然面臨重大挑戰。首先，您需要自定義模型以滿足應用程序的特定需求。其次，您需要優化模型，以適應各種硬件，同時仍能提供最佳性能。第三，您需要一個適用于云和本地 AI 的簡單部署路徑。 NVIDIA RTX AI 工具包為 Windows 應用開發者提供了端到端工作流程。您可以利用 Hugging Face 中的預訓練模型，

]]>

10241

生成式 AI 智能體開發者競賽：入門技巧 http://www.open-lab.net/zh-cn/blog/generative-ai-agents-developer-contest-top-tips-for-getting-started/ Wed, 29 May 2024 06:34:26 +0000 http://www.open-lab.net/zh-cn/blog/?p=10133 Continued]]> 參加我們將于 6 月 17 日結束的比賽，使用前沿技術展示您的創新成果：由生成式 AI 驅動的應用程序，該應用程序使用 NVIDIA 和 LangChain 技術。為了讓您開始，我們將探索一些用于激發您的創意之旅的應用程序，同時分享提示和最佳實踐，幫助您在開發過程中取得成功。生成式 AI 智能體有許多不同的實際應用。在之前的比賽中開發的智能體或 Copilot 應用會根據應用的隱私、安全和計算要求使用大型語言模型 (LLM) 或小型語言模型 (SLM)。這些示例包括：開發者可以在游戲、醫療健康、媒體和娛樂等領域創建用于內容生成的應用。其他選項包括總結、在醫療健康領域，客服人員可以通過分析患者癥狀、病史和臨床數據來幫助診斷疾病，例如問答環節。其中許多想法都適用于您的數據和您想要解決的問題 – 無論是使用客服改善每周的雜貨店購物，

]]>

10133

Mistral Large 和 Mixtral 8x22B LLM 現已由 NVIDIA NIM 和 NVIDIA API 提供支持 http://www.open-lab.net/zh-cn/blog/mistral-large-and-mixtral-8x22b-llms-now-powered-by-nvidia-nim-and-nvidia-api/ Mon, 22 Apr 2024 04:56:57 +0000 http://www.open-lab.net/zh-cn/blog/?p=9644 Continued]]> 本周發布的模型包括兩個新的 NVIDIA AI 基礎模型：Mistral Large 和 Mixtral 8x22B。這兩個高級文本生成 AI 模型由 Mistral AI 開發，并通過 NVIDIA NIM 微服務提供預構建容器，以簡化部署過程，將部署時間從數周縮短到幾分鐘。這兩個模型可通過 NVIDIA API 目錄訪問。 Mistral Large 是大型語言模型 (LLM)，它擅長處理復雜的多語種推理任務，包括文本理解、轉換和代碼生成。它因精通英語、法語、西班牙語、德語和意大利語以及對語法和文化語境的深入理解而脫穎而出。該模型具有 32K 令牌上下文窗口，可從大量文檔中調用精確信息。它在指令跟隨和函數調用方面表現出色。Mistral Large 在各種基準測試中表現強勁，并展示了應對編碼和數學挑戰的強大推理能力。

]]>

9644

借助適用于媒體的 NVIDIA Holoscan，在可重復使用的集群上運行新一代直播媒體應用程序 http://www.open-lab.net/zh-cn/blog/next-generation-live-media-apps-on-repurposable-clusters-with-nvidia-holoscan-for-media/ Tue, 09 Apr 2024 07:34:15 +0000 http://www.open-lab.net/zh-cn/blog/?p=9434 Continued]]> NVIDIA Holoscan 面向所有希望在完全可重復使用的集群上構建新一代實時媒體應用程序的開發者。 Holoscan for Media 是一個軟件定義平臺，用于為直播媒體構建和部署應用。它通過提供基于 IP 的云原生架構 (不受專用硬件、環境或位置的限制)，徹底改變應用開發。這使您能夠簡化開發流程、簡化向客戶交付以及集成新興技術，同時優化您的研發支出。該擴展計劃在 IBC 2023 上首次發布，以供搶先體驗。該擴展計劃包括發布擴展源代碼示例、全面的多架構支持、其他服務以及完全自動化的集群部署。 Holoscan for Media 提供參考容器化應用程序，可輕松部署大多數媒體流技術，以進行測試和開發。Media Gateway Next 基于 NVIDIA DeepStream 構建，可輕松為媒體流應用程序 (包括 ST 2110 和 NMOS) 提供測試源和目標。

]]>

9434

NVIDIA 語音和翻譯 AI 模型在速度和準確性方面創下記錄 http://www.open-lab.net/zh-cn/blog/nvidia-speech-and-translation-ai-models-set-records-for-speed-and-accuracy/ Tue, 19 Mar 2024 06:06:09 +0000 http://www.open-lab.net/zh-cn/blog/?p=9349 Continued]]> NVIDIA 開發的語音和翻譯 AI 模型正在推動性能和創新的發展。NVIDIA Parakeet 自動語音識別 (ASR) 模型系列以及 NVIDIA Canary 多語種、多任務 ASR 和翻譯模型在 Hugging Face 開放 ASR 排行榜上表現出色。此外，多語種 P-Flow 基于文本轉語音 (TTS) 的模型在 LIMMITS 的 24 項挑戰中取得了優異成績，使用簡短的音頻片段將說話者的聲音合成為 7 種語言。本文詳細介紹了其中一些出色的模型如何在語音和翻譯 AI (從語音識別到自定義語音創建) 領域開辟新天地。 NVIDIA Parakeet 模型系列包括 Parakeet CTC 1.1 B, Parakeet CTC 0.6 B, Parakeet RNNT 1.1 B, Parakeet RNNT 0.6 B 以及 Parakeet-TDT…

]]>

9349

適用于數字人的生成式 AI 和由 AI 提供支持的全新 NVIDIA RTX 照明 http://www.open-lab.net/zh-cn/blog/generative-ai-for-digital-humans-and-new-ai-powered-nvidia-rtx-lighting/ Tue, 19 Mar 2024 06:00:33 +0000 http://www.open-lab.net/zh-cn/blog/?p=9343 Continued]]> NVIDIA 在 GDC 2024 大會上宣布，Inworld AI 等領先的 AI 應用程序開發者，正在使用 NVIDIA 數字人技術加速部署生成式 AI 驅動的游戲角色。此外，NVIDIA 還更新了 RTX SDK，以簡化高質量游戲世界的創建。 NVIDIA 數字人技術助力新一代游戲角色用戶可將全套 NVIDIA 數字人技術或單個微服務整合到其產品中：這些創新在由 Inworld AI 與 NVIDIA 合作完成的 Covert Protocol（秘密協議）演示中得到了展示。在該演示中，玩家可以扮演一個經驗豐富的私人偵探，并在游戲中體驗突破常規的 NPC 交互。該演示使用了 OpenAI 的 ChatGPT 3.5 、ElevenLabs 文本轉語音 (TTS)、Riva ASR 和 A2F 微服務，

]]>

9343

借助 NVIDIA Holoscan for Media 中的新功能簡化直播媒體應用程序開發 http://www.open-lab.net/zh-cn/blog/streamline-live-media-application-development-with-new-features-in-nvidia-holoscan-for-media/ Tue, 12 Mar 2024 06:09:09 +0000 http://www.open-lab.net/zh-cn/blog/?p=9187 Continued]]> 適用于媒體的 NVIDIA Holoscan 是一個軟件定義的平臺，用于構建和部署適用于直播媒體的應用程序。最近的更新引入了用戶友好的開發者界面和應用程序部署到平臺的新功能。適用于媒體的 Holoscan 現在包括 Helm 控制面板，可提供用于編排和管理 Helm 圖表的直觀用戶界面。Helm 是幫助開發者定義、安裝和升級 Kubernetes 應用程序的技術，可簡化和加速應用程序打包和部署的開發和測試。借助此更新，適用于媒體的 Holoscan 還獲得了一個新的媒體流式傳輸參考應用程序容器。媒體網關 Next 使開發者能夠使用 ST 2110/NMOS 集成運行任何 GStreamer 管道，并配置需要測試正在開發的應用程序的發送器和接收器。此外，平臺和開發者文檔也已擴展，包括有關在單個 Linux 主機上進行有限本地設置的說明，以及擴展集群安裝指南。除此之外，

]]>

9187

借助 OpenUSD、MaterialX 和 OpenPBR，為虛擬世界解鎖無縫材質交換 http://www.open-lab.net/zh-cn/blog/unlock-seamless-material-interchange-for-virtual-worlds-with-openusd-materialx-and-openpbr/ Mon, 11 Mar 2024 06:50:14 +0000 http://www.open-lab.net/zh-cn/blog/?p=9211 Continued]]> 今天，NVIDIA 和 OpenUSD 聯盟 (AOUSD) 宣布成立 AOUSD 材質工作組，專注于 Universal Scene Description (通用場景描述，簡稱 OpenUSD)。OpenUSD 是一個可擴展的框架和生態系統，用于在 3D 世界中描述、合成、模擬和協作，幫助開發者構建可互操作的 3D 工作流程，開啟工業數字化的新時代。此外，NVIDIA Omniverse 將支持新推出的 OpenPBR 材質模型，這是由 Adobe 和 Autodesk 共同開發的基于 MaterialX 的超級著色器模型。這種集成將為用戶提供一個可在各種應用程序中使用的統一材質界面。 AOUSD 材質工作組的首要任務是定義 OpenUSD 中材質表示策略，UsdShade。任何符合規范的 OpenUSD 實現都可以訪問一組通用的標準化著色器節點，

]]>

9211

釋放 Phi-2 小語言模型在聊天、研究、編碼等領域的強大功能 http://www.open-lab.net/zh-cn/blog/unlock-the-power-of-small-language-model-phi-2-for-chat-research-coding-and-more/ Tue, 27 Feb 2024 06:15:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=9032 Continued]]> 本周發布的模型采用了 NVIDIA 優化后的語言模型 Phi-2，該模型適用于各種自然語言處理 (NLP) 任務。用戶可以直接在瀏覽器中體驗 Phi-2。 NVIDIA AI 基礎模型和端點是一套精心策劃的社區和 NVIDIA 構建的生成式 AI 模型，用于在企業應用程序中體驗、自定義和部署。嘗試在 NVIDIA AI Playground 中使用 Nemotron-3, Mixtral 8x7B, Lama 2 70B 以及 Stable Diffusion XL 穩定漫反射。當 AI 模型準備好進行業務運營部署時，企業支持至關重要。NVIDIA AI Enterprise 提供安全性、支持、穩定性和可管理性，以提高 AI 團隊的工作效率，降低 AI 基礎設施的總成本，并確保從 POC 到生產的平穩過渡。 Phi-2 是由 Microsoft Research…

]]>

9032

生成式 AI 研究聚焦：個性化文本轉圖像模型 http://www.open-lab.net/zh-cn/blog/generative-ai-research-spotlight-personalizing-text-to-image-models/ Tue, 06 Feb 2024 07:33:25 +0000 http://www.open-lab.net/zh-cn/blog/?p=8897 Continued]]> 視覺效果生成式 AI是一個根據文本提示創建圖像的過程。該技術基于在互聯網規模的數據上預訓練的視覺語言基礎模型。通過提供多模態表示，這些基礎模型可以應用于許多領域。例如，包括圖像字幕和視頻檢索、創意3D和2D圖像合成以及機器人操作。所有這些任務都得益于視覺語言基礎模型的“開放世界”能力，從而能夠使用豐富、自由形式的文本和視覺類別的“長尾”。借助這些強大的表征，我們將面臨新的挑戰。也就是說，如何將這些模型與用戶特定的或個性化的視覺概念結合使用。如何教會這些模型將此類用戶特定的概念與他們之前從海量數據集中學到的知識相結合？例如，玩具品牌的創意總監正在計劃圍繞新的玩具熊產品開展廣告活動，并希望在不同的場景中展示玩具，這些場景包括扮演超級英雄或巫師的角色。或者，孩子希望創作家庭狗的搞笑動畫片。或者，室內設計師希望在使用傳家寶家庭沙發設計房間。所有這些個性化用例都需要合成新場景，

]]>

8897

人人超碰97caoporen国产