雖然語音 AI 用于構建數字助理和語音智能體,但其影響遠遠超出這些應用。文本轉語音 (TTS) 和自動語音識別 (ASR) 等核心技術正在推動各行各業的創新。他們正在實現實時翻譯,為交互式數字人提供支持,甚至幫助那些失聲的人恢復語音。隨著這些功能的成熟,它們正在從根本上重塑人們的溝通、學習和聯系方式。
NVIDIA Riva 是一套多語種微服務,用于構建實時語音 AI 工作流。Riva 可在 TTS、ASR 和神經網絡機器翻譯 (NMT) 中提供出色的準確性,并適用于本地、云、邊緣和嵌入式設備。
TTS 也稱為語音合成,可將文本轉換為高質量、自然的語音。幾十年來,它一直是語音 AI 領域一項具有挑戰性的任務。本文將介紹三個最先進的 Riva TTS 模型 ( NVIDIA 的最新 TTS 模型) ,它們對此任務做出了重大貢獻:
- Magpie TTS Multilingual 可以顯著提高語音自然度和發音準確性。
- Magpie TTS Zeroshot 支持從短短幾秒鐘的語音樣本中進行語音克隆。
- Magpie TTS Flow 非常適合工作室配音和播客解說。
模型 | 架構 | 用例 | 支持的語言 | 技術細節 |
Magpie TTS 多語種 | 串流編碼器 – 解碼器 Transformer | – 語音 AI 智能體 – 數字人 – 多語種交互式語音應答 (IVR) – 有聲讀物 | 英語、西班牙語、法語、德語 | – 使用 NVIDIA Dynamo-Triton 降低延遲:約 200 毫秒 – 使用偏好對齊框架和無分類器引導 (CFG) 優化文本依從性 |
Magpie TTS Zeroshot | 串流編碼器 – 解碼器 Transformer | – 實時電話 – 游戲中的非玩家角色 (NPC) | 英語 | – 使用 NVIDIA Dynamo-Triton 降低延遲:大約 200 毫秒 – 使用偏好對齊框架和無分類器引導 (CFG) 優化文本依從性 – 5 秒語音樣本用于語音克隆 |
Magpie TTS Flow | 離線流匹配解碼器 | – 工作室配音 – 播客旁白 | 英語 | – 模型文本語音對齊和語音特征描述,用于語音克隆的 3 秒語音樣本 |
流編碼器 – 解碼器轉換器
Magpie TTS Multilingual 和 Magpie TTS Zeroshot 模型基于編碼器 – 解碼器 Transformer 架構構建,面向串流應用。編碼器是一個非自回歸 (NAR) Transformer,解碼器是一個交叉參與編碼器的自回歸 (AR) Transformer。模型輸入包括標記化文本和上下文音頻:來自目標說話者參考音頻的聲學代碼。模型的輸出是目標說話者生成的聲學令牌。這兩種模型基于編碼器 – 解碼器架構的不同變體而構建:
- Magpie TTS Multilingual:使用多編碼器設置。專用的上下文編碼器可處理上下文音頻令牌。上下文和文本編碼器輸出被輸入到 AR 解碼器的不同層中。這允許明確分離模態。
- Magpie TTS Zeroshot:采用解碼器上下文設置,利用解碼器的自注意力機制進行揚聲器調節。它會將上下文音頻令牌輸入到 AR 解碼器中,然后由其處理上下文和目標音頻令牌。此方法使用共享表征進行條件反射和預測。

這兩種模型都使用新的偏好對齊框架和無分類器引導 (CFG) 來解決持續存在的問題。這些問題包括 AI 生成、解釋或輸出虛假或誤導性音頻,或產生不需要的發聲,尤其是在輸入文本包含重復標記時。
- 偏好對齊:該框架為具有挑戰性的文本和上下文音頻提示生成多個輸出,然后在獎勵系統中使用 ASR 和揚聲器驗證 (SV) 模型評估關鍵指標,以創建偏好數據集。它應用直接偏好優化 (DPO) 來指導 TTS 模型生成更理想的輸出。
- CFG:在推理過程中,模型為每個合成生成兩個語音輸出:一個基于輸入文本和上下文音頻,另一個無這些條件。最終輸出是一種遠離無條件結果的組合,提高了對輸入的依從性和整體音頻質量。
與其他開源模型相比,這些 NVIDIA 模型提供了最低的字符錯誤率 (CER) 和字錯誤率 (WER) ,盡管訓練時使用的數據要少得多。在人工評估中,它們在自然程度 (MOS) 和說話者相似性 (SMOS) 方面也獲得了最高分。
您可以在預訓練的 TTS 模型文檔中找到模型當前支持的語音名稱和情緒。由于嚴格的人體評估標準,目前支持女性聲音的情緒范圍比男性聲音更廣泛。這是因為只有當至少 50% 的評估者在音頻樣本中始終識別出情緒時,情緒才會被釋放。因此,一些情緒更快地達到了女性聲音的這一值,這反映了評估結果的差異,而不是技術限制。
您可以使用 Magpie TTS Zeroshot 中的 5 秒音頻樣本,合成同意使用此類功能的目標演講者的聲音。您還可以使用圖 2 所示的組件創建自己的工作流。

此工作流的輸入包含兩個部分:用戶提示和目標發言者的音頻提示。由 NVIDIA LLM NIM 托管的 LLM 根據用戶提示為 TTS 任務生成隨機文本。Magpie TTS Zeroshot 模型將文本和音頻提示作為輸入,然后用目標說話者的聲音生成輸入文本的相應音頻。
Magpie TTS Flow
Magpie TTS Flow 模型引入了一種對齊感知預訓練框架,該框架將離散語音單元 (HuBERT) 集成到 NAR 訓練框架 (E2 TTS) 中,以學習文本語音對齊。E2 TTS 采用流匹配解碼器來聯合建模文本語音對齊和聲學特征,實現自然的音期輸出。E2 TTS 的一個關鍵局限性是它依賴于大型轉錄數據集,而這些數據集對于低資源語言通常很少。
為了解決這一數據限制,Magpie TTS Flow 使用未轉錄的語音數據將對齊學習直接集成到預訓練過程中,而無需單獨的對齊機制。通過將對齊學習嵌入到預訓練中,它促進了無對齊的語音轉換,并允許在微調過程中實現更快的收,即使在有限的轉錄數據下也是如此。
如圖 3 所示,在預訓練之前,HubERT 會將音頻波形轉換為離散單元。在預訓練期間,離散語音單元序列與掩碼語音連接,從而使模型能夠學習單元語音對齊。在微調階段,轉錄數據和掩碼目標參考語音的文本序列被連接,然后作為輸入傳遞給模型,以生成目標說話者的音頻。

HuBERT 模型將來自未轉錄數據的語音波形作為輸入,然后生成 50 Hz 離散單元序列,這是一個從 0 到 K-1 的索引序列,其中 K 是 k-means 量化器中的集群數。然后,系統會刪除連續語音片段的重復索引,以消除持續時間信息,從而使其能夠靈活地為目標揚聲器執行語音克隆,并進行各種對齊。
在預訓練期間,刪除重復數據的單元可用于指導隱藏語音的修補,并幫助模型學習提取說話人特定的聲音特征。用填充標記 F 填充離散單元 u,以匹配梅爾頻譜圖 x 的長度。已填充的序列 uPAD 與掩碼語音 xmask 連接,作為模型的輸入,以預測掩碼區域。經過訓練的流匹配解碼器可基于修改后的 CFM 損失,使用周圍環境對掩碼區域進行修補。解碼器的隱藏大小為 1024,包含 16 個注意力頭和總共 24 個 Transformer 層,產生了 4.5 億個參數。
對于微調,單元序列將替換為來自轉錄數據的文本嵌入。將文本序列 (用填充令牌填充) 和掩碼目標參考語音連接起來,輸入到模型以生成目標說話者的音頻。
與其他模型相比,Magpie TTS Flow 可以實現高發音準確性 (更低的 WER) 和更高的說話者相似性 ( SECS-O) ,并且預訓練和微調迭代次數顯著減少。此外,它還可以通過添加語言 ID 作為解碼器的輸入來有效學習多種語言的文本語音對齊,使其成為強大的多語種 TTS 系統。雖然以上鏈接的論文展示了使用不到 1000 小時配對數據的強勁性能,以凸顯基于單元的預訓練方法的效率,但已發布的 Riva 模型使用更大的配對數據集 (約 7 萬個小時) 進行訓練,以進一步提高零樣本性能。
您可以使用 Magpie TTS Flow 中的 5 秒音頻樣本,合成同意使用此類功能的目標演講者的聲音 (圖 4) 。此工作流的輸入包含三個部分:用戶提示、目標說話人的音頻提示和音頻提示轉錄。由 NVIDIA LLM NIM 托管的 LLM 根據用戶提示為 TTS 任務生成隨機文本。Magpie TTS Flow 接受輸入,然后用目標說話者的聲音生成輸入文本的相應音頻。

安全協作
作為 NVIDIA 可信 AI 計劃的一部分,安全、負責任地推進語音 AI 成為優先事項。為了應對合成語音的風險,NVIDIA 與領先的深度偽造和語音檢測公司 (如 Pindrop) 合作,提供對 Riva Magpie TTS Zeroshot 等模型的搶先體驗。
從銀行和金融服務到大型聯絡中心、零售、公用事業和保險,Pindrop 技術深受各行各業的信賴,可提供實時語音身份驗證和深度偽造檢測,以防止關鍵交互中的欺詐和模仿。我們在深度假檢測方面的合作為安全的合成語音部署設定了重要標準,并解決了呼叫中心和媒體完整性等領域的關鍵風險,確保了負責任的 AI 發展。
開始使用 NVIDIA Riva Magpie TTS 模型
NVIDIA Riva Magpie TTS 模型為實時、自然和自適應語音合成設定了新標準。Riva Magpie TTS 模型具有多語種功能、零樣本語音特征和高級偏好調整功能,可生成富有表現力、準確且高度自然的音頻,以適應揚聲器和內容。
憑借靈活的架構和強大的性能,Riva Magpie TTS 可為醫療健康、可訪問性以及任何需要逼真實時語音交互的應用提供理想的模型。
要開始使用 Riva Magpie TTS 模型,請執行以下操作:
- 試用NVIDIA NIM微服務
- 按照 Riva 快速入門指南 – 語音合成從 NVIDIA NGC 下載 Docker 容器
- 請求訪問 Magpie TTS Zeroshot 和 Magpie TTS Flow 這兩種零樣本模型
- 了解如何借助 NVIDIA AI Enterprise 在整個組織中安全、大規模地運行這些功能
?
?