Maryam Motamedi – NVIDIA 技術博客

借助 NVIDIA Riva TTS 增強多語種類似人類的語音和語音克隆

Mon, 14 Jul 2025 06:45:36 +0000

雖然語音 AI 用于構建數字助理和語音智能體，但其影響遠遠超出這些應用。文本轉語音 (TTS) 和自動語音識別 (ASR) 等核心技術正在推動各行各業的創新。他們正在實現實時翻譯，為交互式數字人提供支持，甚至幫助那些失聲的人恢復語音。隨著這些功能的成熟，它們正在從根本上重塑人們的溝通、學習和聯系方式。 NVIDIA Riva 是一套多語種微服務，用于構建實時語音 AI 工作流。Riva 可在 TTS、ASR 和神經網絡機器翻譯 (NMT) 中提供出色的準確性，并適用于本地、云、邊緣和嵌入式設備。 TTS 也稱為語音合成，可將文本轉換為高質量、自然的語音。幾十年來，它一直是語音 AI 領域一項具有挑戰性的任務。本文將介紹三個最先進的 Riva TTS 模型 ( NVIDIA 的最新 TTS 模型) ，它們對此任務做出了重大貢獻：

Source

]]>

NVIDIA 語音 AI 模型實現業界領先的準確性和性能

Wed, 04 Jun 2025 07:03:21 +0000

NVIDIA 正在推動語音 AI 和語言模型實現出色的性能、效率和可訪問性，為重新定義自動語音識別 (ASR) 可能性的創新奠定基礎。 NVIDIA Parakeet TDT 0.6 B v2 是一個包含 6 億個參數的自動語音識別 (ASR) 模型，專為高質量英語轉錄而設計。目前，它與其他四款排名靠前的 NVIDIA Parakeet 車型一起在 Hugging Face ASR 排行榜上排名第一。NVIDIA NeMo Canary 模型也在 Hugging Face ASR 排行榜上大放異彩。本文將探討這些和其他先進的 NVIDIA 語音 AI 模型如何為自動語音識別 (ASR) 的準確性、速度和通用性設定新的基準。我們將回顧模型亮點、排行榜性能和實際部署選項，以便您可以將這些先進的模型用于現實世界的應用。 NVIDIA Parakeet 和 Canary AI…

Source

]]>

借助 NVIDIA Maxine 和 Texel 實現大規模協調創新

Mon, 16 Sep 2024 07:35:49 +0000

NVIDIA Maxine AI 開發者平臺是一套 NVIDIA NIM 微服務、云加速微服務和 SDK，可以提供用于增強實時視頻和音頻的先進功能。NVIDIA 合作伙伴使用 Maxine 功能打造更好的虛擬交互體驗，并改善與其應用的人類連接。在虛擬環境中很少進行和保持眼神交流，因為在舉行會議或制作視頻時，通常很難將目光與攝像頭對齊；分心、腳本、側面注釋和其他因素增加了保持眼神交流的挑戰。 Maxine 眼神交流通過將用戶的目光與攝像頭對齊來模擬眼神交流，并增加互動和聯系，來解決此問題。有關更多信息，請參閱 NVIDIA Maxine 提升云端視頻會議效果。將 Maxine 功能集成到應用程序中，有幾個選項，稍后將在本文中進行概述。Texel 是一個 AI 平臺，提供云原生 API，可幫助您擴展和優化圖像和視頻處理的工作流，使使用云的小型開發者能夠更輕松、

Source

]]>

利用 NVIDIA Maxine AI 開發者平臺和 VideoRequest 實現視頻通信升級

Mon, 12 Aug 2024 06:52:46 +0000

有效的視頻通信對每個在線溝通者來說都非常重要。對企業、教育工作者和內容創作者而言，這一點尤為關鍵。 NVIDIA Maxine 是一套 NVIDIA 加速的 SDK 集合，是云原生的容器化 NVIDIA NIM 微服務，用于部署 AI 功能，以增強視頻會議、數字人、虛擬存在和內容創作的實時音頻和視頻。Maxine 將繼續助力您突破智能實時視頻增強的極限。在本文中，我們展示了 NVIDIA Inception 計劃合作伙伴 VideoRequest 如何使用 Maxine AI 開發者平臺將復雜的實時視頻編輯工具引入其平臺，從而使最終用戶能夠專注于他們想要發送的消息，而不是視頻設置或處理工具。 VideoRequest 是一項 AI 增強型視頻服務，用戶可以在其中輕松創建、編輯和分享視頻，用于客戶感言、宣傳、營銷、培訓或活動。

Source

]]>

借助 NVIDIA Maxine 實現遠程呈現和新一代數字人技術的突破

Mon, 29 Jul 2024 08:04:01 +0000

在本周的 SIGGRAPH 2024 上，NVIDIA 將展示 NVIDIA Maxine AI 開發者平臺的最新進展，該平臺通過 NVIDIA AI Enterprise 提供。該平臺使您能夠部署先進的 AI 功能，以提高音頻和視頻質量，并實現增強現實效果。 NVIDIA 剛剛宣布即將為早期訪問開發者提供 Maxine 3D 和 Maxine Video Relighting，同時推出生產的 Maxine Eye Contact NVIDIA NIM 微服務early access。 Maxine 3D 與 NVIDIA ACE, 一套用于語音、智能和動畫的生成式 AI 技術，一起，為各種開發者和應用程序帶來逼真的數字人。它支持通過商品視頻會議音頻和視頻設備使用實時、照片級真實的 3D 數字人類。現在，通過全面的 NVIDIA API 目錄，

Source

]]>