]]>14652通過 NVIDIA Holoscan for Media 上的全新 AI 應用實例,實現實時 AI 媒體效果增強
http://www.open-lab.net/zh-cn/blog/power-real-time-ai-media-effects-with-new-ai-reference-apps-on-nvidia-holoscan-for-media/
Tue, 17 Jun 2025 05:03:25 +0000http://www.open-lab.net/zh-cn/blog/?p=14391Continued]]>直播媒體工作流越來越多地使用 AI 微服務來增強制作能力。然而,先進的 AI 模型大多托管在云端,由于網絡延遲、帶寬和實時可擴展性方面的限制,處理高比特率、未壓縮的媒體流變得很困難。 NVIDIA 發布了新的 AI 參考應用,有助于簡化 AI 開發。這些技術可以與未壓縮的 ST 2110 流交互,并以極低的延遲實現實時媒體效果。 Holoscan for Media 上提供的最新 AI 參考應用為構建專為直播媒體工作流定制的實時 AI 解決方案提供了強大的起點。 AI 虛擬攝像頭 使用 PyTorch 和 NVIDIA DeepStream SDK 構建的簡單應用可為視頻中的每位演講者創建虛擬攝像頭。在檢測并追蹤高分辨率、未壓縮的 ST 2110 輸入流中存在的個體后,該參考應用會創建多個針對已檢測個體的裁剪虛擬攝像頭輸出。借助 AI 生成的攝像頭源,
]]>12561借助 NVIDIA NeMo 開發前沿的多模態生成式 AI 模型
http://www.open-lab.net/zh-cn/blog/state-of-the-art-multimodal-generative-ai-model-development-with-nvidia-nemo/
Wed, 06 Nov 2024 03:41:07 +0000http://www.open-lab.net/zh-cn/blog/?p=12293Continued]]>生成式 AI 已從基于文本的模型迅速發展為多模態功能。這些模型執行圖像字幕和視覺問答等任務,反映了向更接近人類的 AI 的轉變。該社區目前正在從文本和圖像擴展到視頻,為各行各業帶來了新的可能性。 視頻 AI 模型將徹底改變 機器人 、汽車和零售等行業。在機器人領域,它們可增強在復雜、不斷變化的環境中的自主導航,這對于制造和倉儲管理等行業至關重要。在汽車行業,視頻 AI 正在推動自動駕駛,提升車輛感知、安全性和預測性維護,從而提高效率。 要構建圖像和視頻基礎模型,開發者必須整理和預處理大量訓練數據,以高保真度標記生成的高質量數據,高效、大規模地訓練或定制預訓練模型,然后在推理過程中生成高質量的圖像和視頻。 NVIDIA NeMo 是一個端到端平臺,用于開發、定制和部署生成式 AI 模型。 NVIDIA 剛剛宣布擴展 NeMo,以支持開發多模態模型的端到端流程。