音頻/語音合成 – NVIDIA 技術博客

借助 NVIDIA Riva TTS 增強多語種類似人類的語音和語音克隆

Mon, 14 Jul 2025 06:45:36 +0000

雖然語音 AI 用于構建數字助理和語音智能體，但其影響遠遠超出這些應用。文本轉語音 (TTS) 和自動語音識別 (ASR) 等核心技術正在推動各行各業的創新。他們正在實現實時翻譯，為交互式數字人提供支持，甚至幫助那些失聲的人恢復語音。隨著這些功能的成熟，它們正在從根本上重塑人們的溝通、學習和聯系方式。 NVIDIA Riva 是一套多語種微服務，用于構建實時語音 AI 工作流。Riva 可在 TTS、ASR 和神經網絡機器翻譯 (NMT) 中提供出色的準確性，并適用于本地、云、邊緣和嵌入式設備。 TTS 也稱為語音合成，可將文本轉換為高質量、自然的語音。幾十年來，它一直是語音 AI 領域一項具有挑戰性的任務。本文將介紹三個最先進的 Riva TTS 模型 ( NVIDIA 的最新 TTS 模型) ，它們對此任務做出了重大貢獻：

Source

]]>

跨音頻類型實現先進的零樣本波形音頻生成

Thu, 05 Sep 2024 04:30:38 +0000

令人驚嘆的音頻內容是虛擬世界的重要組成部分。音頻生成式 AI 在創建此類內容方面發揮著關鍵作用，NVIDIA 正在不斷突破這一研究領域的極限。BigVGAN 是與 NVIDIA 應用深度學習研究團隊和 NVIDIA NeMo 團隊合作開發的生成式 AI 模型，專門用于音頻波形合成，可實現先進的結果。BigVGAN 生成波形的速度比實時快幾個數量級，并且在語音、環境聲音和音樂等各種音頻類型中表現出強大的穩健性。本文將討論 BigVGAN v2，它可以顯著提高速度和質量，助力打造所生成的音頻與真實音頻相去甚遠的未來。BigVGAN v2 的亮點包括： BigVGAN 是一款通用神經聲碼器，專門用于使用 Mel spectrograms 作為輸入合成音頻波形。神經聲碼器是音頻生成式 AI 中的基石方法，可從緊湊型聲學特征（如 Mel spectrogram）生成聲波。

Source

]]>

人工智能腦植入恢復腦卒中幸存者的雙語交流

Thu, 20 Jun 2024 05:53:50 +0000

科學家通過訓練神經假體植入物來解碼一名不會說話的中風幸存者的雙語大腦活動，使其能夠用西班牙語和英語進行交流。這項研究發表在《自然生物醫學工程》上，來自加利福尼亞大學舊金山分校教授 Dr. Edward Chang 博士的實驗室，它建立在他 2021 年對同一名患者進行的開創性研究的基礎上，該研究證明了將嚴重癱瘓患者的大腦活動轉化為文字的功效。在最新的研究中，神經假體解碼了同一個人——Pancho——的大腦活動，并使用雙語人工智能模型將大腦活動轉化為西班牙語或英語單詞，這取決于 Pancho 打算用哪種語言交流，然后，他的單詞和句子被投影到計算機屏幕上。這兩項研究都為無法說話或依賴觸摸屏或眼動監測設備進行交流的人提供了遠不那么繁重的交流承諾。這些結果也是在潘喬身上神經假體最初植入四年后得出的，突顯了該技術的壽命及其潛在的長期影響。

Source

]]>