Maryam Motamedi – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 17 Jul 2025 06:49:54 +0000 zh-CN hourly 1 196178272 借助 NVIDIA Riva TTS 增強多語種類似人類的語音和語音克隆 http://www.open-lab.net/zh-cn/blog/enhancing-multilingual-human-like-speech-and-voice-cloning-with-nvidia-riva-tts/ Mon, 14 Jul 2025 06:45:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=14634 Continued]]> 雖然語音 AI 用于構建數字助理和語音智能體,但其影響遠遠超出這些應用。文本轉語音 (TTS) 和自動語音識別 (ASR) 等核心技術正在推動各行各業的創新。他們正在實現實時翻譯,為交互式數字人提供支持,甚至幫助那些失聲的人恢復語音。隨著這些功能的成熟,它們正在從根本上重塑人們的溝通、學習和聯系方式。 NVIDIA Riva 是一套多語種微服務,用于構建實時語音 AI 工作流。Riva 可在 TTS、ASR 和神經網絡機器翻譯 (NMT) 中提供出色的準確性,并適用于本地、云、邊緣和嵌入式設備。 TTS 也稱為語音合成,可將文本轉換為高質量、自然的語音。幾十年來,它一直是語音 AI 領域一項具有挑戰性的任務。本文將介紹三個最先進的 Riva TTS 模型 ( NVIDIA 的最新 TTS 模型) ,它們對此任務做出了重大貢獻:

Source

]]>
14634
NVIDIA 語音 AI 模型實現業界領先的準確性和性能 http://www.open-lab.net/zh-cn/blog/nvidia-speech-ai-models-deliver-industry-leading-accuracy-and-performance/ Wed, 04 Jun 2025 07:03:21 +0000 http://www.open-lab.net/zh-cn/blog/?p=14122 Continued]]> NVIDIA 正在推動語音 AI 和語言模型實現出色的性能、效率和可訪問性,為重新定義自動語音識別 (ASR) 可能性的創新奠定基礎。 NVIDIA Parakeet TDT 0.6 B v2 是一個包含 6 億個參數的自動語音識別 (ASR) 模型,專為高質量英語轉錄而設計。目前,它與其他四款排名靠前的 NVIDIA Parakeet 車型一起在 Hugging Face ASR 排行榜上排名第一。NVIDIA NeMo Canary 模型也在 Hugging Face ASR 排行榜上大放異彩。 本文將探討這些和其他先進的 NVIDIA 語音 AI 模型如何為自動語音識別 (ASR) 的準確性、速度和通用性設定新的基準。我們將回顧模型亮點、排行榜性能和實際部署選項,以便您可以將這些先進的模型用于現實世界的應用。 NVIDIA Parakeet 和 Canary AI…

Source

]]>
14122
借助 NVIDIA Maxine 和 Texel 實現大規模協調創新 http://www.open-lab.net/zh-cn/blog/orchestrating-innovation-at-scale-with-nvidia-maxine-and-texel/ Mon, 16 Sep 2024 07:35:49 +0000 http://www.open-lab.net/zh-cn/blog/?p=11264 Continued]]> NVIDIA Maxine AI 開發者平臺是一套 NVIDIA NIM 微服務、云加速微服務和 SDK,可以提供用于增強實時視頻和音頻的先進功能。NVIDIA 合作伙伴使用 Maxine 功能打造更好的虛擬交互體驗,并改善與其應用的人類連接。 在虛擬環境中很少進行和保持眼神交流,因為在舉行會議或制作視頻時,通常很難將目光與攝像頭對齊;分心、腳本、側面注釋和其他因素增加了保持眼神交流的挑戰。 Maxine 眼神交流通過將用戶的目光與攝像頭對齊來模擬眼神交流,并增加互動和聯系,來解決此問題。有關更多信息,請參閱 NVIDIA Maxine 提升云端視頻會議效果。 將 Maxine 功能集成到應用程序中,有幾個選項,稍后將在本文中進行概述。Texel 是一個 AI 平臺,提供云原生 API,可幫助您擴展和優化圖像和視頻處理的工作流,使使用云的小型開發者能夠更輕松、

Source

]]>
11264
利用 NVIDIA Maxine AI 開發者平臺和 VideoRequest 實現視頻通信升級 http://www.open-lab.net/zh-cn/blog/elevating-video-communication-with-the-nvidia-maxine-ai-developer-platform-and-videorequest/ Mon, 12 Aug 2024 06:52:46 +0000 http://www.open-lab.net/zh-cn/blog/?p=10986 Continued]]> 有效的視頻通信對每個在線溝通者來說都非常重要。對企業、教育工作者和內容創作者而言,這一點尤為關鍵。 NVIDIA Maxine 是一套 NVIDIA 加速的 SDK 集合,是云原生的容器化 NVIDIA NIM 微服務,用于部署 AI 功能,以增強視頻會議、數字人、虛擬存在和內容創作的實時音頻和視頻。Maxine 將繼續助力您突破智能實時視頻增強的極限。 在本文中,我們展示了 NVIDIA Inception 計劃合作伙伴 VideoRequest 如何使用 Maxine AI 開發者平臺將復雜的實時視頻編輯工具引入其平臺,從而使最終用戶能夠專注于他們想要發送的消息,而不是視頻設置或處理工具。 VideoRequest 是一項 AI 增強型視頻服務,用戶可以在其中輕松創建、編輯和分享視頻,用于客戶感言、宣傳、營銷、培訓或活動。

Source

]]>
10986
借助 NVIDIA Maxine 實現遠程呈現和新一代數字人技術的突破 http://www.open-lab.net/zh-cn/blog/advancing-telepresence-and-next-generation-digital-humans-with-nvidia-maxine/ Mon, 29 Jul 2024 08:04:01 +0000 http://www.open-lab.net/zh-cn/blog/?p=10830 Continued]]> 在本周的 SIGGRAPH 2024 上,NVIDIA 將展示 NVIDIA Maxine AI 開發者平臺的最新進展,該平臺通過 NVIDIA AI Enterprise 提供。該平臺使您能夠部署先進的 AI 功能,以提高音頻和視頻質量,并實現增強現實效果。 NVIDIA 剛剛宣布即將為早期訪問開發者提供 Maxine 3D 和 Maxine Video Relighting,同時推出生產的 Maxine Eye Contact NVIDIA NIM 微服務early access。 Maxine 3D 與 NVIDIA ACE, 一套用于語音、智能和動畫的生成式 AI 技術,一起,為各種開發者和應用程序帶來逼真的數字人。它支持通過商品視頻會議音頻和視頻設備使用實時、照片級真實的 3D 數字人類。 現在,通過全面的 NVIDIA API 目錄,

Source

]]>
10830
人人超碰97caoporen国产