• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 對話式人工智能

    探索文本到語音技術的獨特應用

    當你與虛擬助理互動時,你會發出命令并得到口頭回應。為這種生成的語音響應提供動力的技術被稱為文本到語音( TTS )。

    TTS 應用程序非常有用,因為它們為使用輔助設備的用戶提供了更大的內容可訪問性。使用最新的 TTS 技術,您只需幾分鐘的音頻數據就可以生成合成語音——這非常適合那些失聲且錄音有限的人。

    事實上,由于最近的進展, TTS 的使用正在增長:

    • 在幾毫秒內運行端到端 TTS 管道以實現自然交互。
    • 在推理時定制人工智能模型和管道,以生成富有表現力的合成語音。
    • 在所有云、數據中心、邊緣或嵌入式設備上進行部署

    這篇文章解釋了語音合成系統是如何操作的,然后介紹了 TTS 技術的常見和新穎用途。

    語音合成系統的工作原理

    顧名思義,文本到語音,或語音合成,是將書面文本轉換為自然的、類似人類的語音音頻的過程。在端到端 TTS 管道中,這些是使這種轉換成為可能的關鍵模型和模塊:

    • 文本規范化和預處理:把數字和縮寫變成單詞。
    • 文本編碼:將文本轉換為編碼矢量,該矢量用作聲譜圖生成器的輸入。
    • 光譜圖生成器:從編碼的文本向量生成聲譜圖。
    • 聲碼器型號:以聲譜圖作為輸入,生成我們都能聽到的合成語音。

    TTS 通常是諸如虛擬助理之類的應用的最后階段,數字人服務機器人.

    常見 TTS 應用程序

    2021 IDC Conversational AI Adoption Survey在 251 家公司中, 74.5% 的公司報告在基于語音的會話人工智能解決方案中使用 TTS , 68.5% 的公司在無障礙解決方案中采用 TTS (圖 1 )。

    Bar chart showing percentage of use cases for text-to-speech? 74.5% said voice-based conversational AI solutions and 68.5% said accessibility solutions (for example, speech-enabled websites, other speech-enabled digital content).
    圖 1 。 IDC 對常見 TTS 用例的調查

    在幾個行業中,語音合成正在證明其功能性目的。您可能已經在以下用例中觀察到 TTS 技術。

    虛擬影響者

    虛擬影響者正在改變與任何公司或名人交流的未來。也被稱為虛擬品牌大使或品牌代言人,虛擬影響者可以幫助公司推廣產品和服務,名人可以利用它們與粉絲保持全天候聯系。

    在這些用例中, TTS 技術生成自定義語音,然后將其集成到動畫虛擬影響者或數字大使中。

    文字敘述

    文本敘述是大聲朗讀任何類型文本的行為。該 TTS 功能可在網站和閱讀應用程序上使用,有利于那些喜歡聽內容的人。有視覺障礙的人也可以使用文字敘述來聽他們喜歡的內容。

    TTS 用于生成這些應用程序用來朗讀文本的語音。然而,這并不像看上去那么簡單。為了改善聆聽體驗,這些應用程序的聲音必須具有適當的音高、節奏和表現力。

    內容創建

    對于生活在現代世界的人們來說,音頻和視頻內容是受歡迎的、吸引人的媒介。 TTS 技術使內容創作者可以在視頻中添加畫外音或創建播客。

    為了接觸更廣泛的受眾, TTS 技術還可以用于創建文本內容的音頻版本,如博客和新聞文章。

    通過 TTS 管道的靈活性,您可以在語音轉換器等應用程序中修改音高、節奏和音量,使語音更具表現力。

    獨特的 TTS 應用程序

    除了這些日常應用程序,企業家們還在探索各種新穎的 TTS 應用程序。這篇文章的特點是公司使用語音合成技術來獲得引人注目的用例。

    智能醫院的語音亭: Artisight

    Artisight 是一個面向醫院的物聯網傳感器網絡,有望改善醫院運營、財務績效和患者體驗。該公司通過自動化任務,如將患者呼叫到登記窗口和實驗室登記,幫助美國許多最好的醫院更高效地運營,同時為患者提供更好的體驗。

    醫院中的 TTS 技術可用于與患者和訪客共享有關醫院服務、設施指示和一般健康公告的信息。這項技術還可以以多種語言提供,以幫助那些可能不會說醫院主要語言的人。

    視頻 1 。 Artisight 診所協調員解決方案演示

    前面的視頻顯示了如何在醫院信息亭內使用文本到語音技術來公布患者徽章 ID 號。

    挑戰和解決方案

    過去,醫院接待員手動為病人登記,并在有醫生時通知他們。這種耗時的登記程序降低了醫院的效率,并對患者的滿意度產生了負面影響。

    Artisight 開發了智能醫院解決方案,如語音值機和通知亭,以改善患者體驗。

    由 Artisight 和NVIDIA Riva提供有效、快速的患者登記,將等待時間減少一半,并消除數據輸入錯誤——所有這些都提高了員工的生產力和患者的幸福感。

    數字化身的類人語音: NVIDIA

    TTS 技術使計算機能夠將書面文本轉換為口語,使數字人類能夠“說話”,并以更自然、更吸引人的方式與用戶交流。

    為了與用戶建立信任和可信度,數字人必須高精度地說話,尤其是當他們被用于教育、娛樂或其他互動目的時。使用 TTS 技術產生聽起來自然、像人的語音可以幫助數字人吸引用戶的注意力和興趣。

    正如你在 NVIDIA Omniverse 阿凡達云引擎( ACE )演示中看到的那樣, Toy Jensen 理解黃仁勛的提問并以自然的方式回答。 Toy Jensen 的聲音是使用 NVIDIA Riva 制作的。

    視頻 1 。 NVIDIA Omniverse ACE 平臺,用于構建實時、交互式人工智能助理

    挑戰和解決方案

    為數字人開發 TTS 可能具有挑戰性,特別是在根據地區和語言創建聽起來自然和逼真的語音方面。這是因為使用傳統和統計算法創建的 TTS 系統可能會產生聽起來像機器人或機械的語音,并且可能不會被用戶很好地接收。

    此外,數字人應用程序涉及創建靈活和適應性強的語音,這可能是一個挑戰,因為 TTS 系統依賴于數據集以及所使用的模型和模塊類型等因素。這可能會使開發人員難以產生細致入微、富有表現力的語音。

    最后,創建高效且可擴展的 TTS 系統很重要,因為數字人可能必須在不犧牲質量的情況下實時生成大量語音。

    在 NVIDIA ,我們為數字人和化身用例生成了自定義語音,例如Toy JensenViolet使用 Riva 。 Riva 可以幫助您開發精確的 TTS 管道,這些管道可以在幾毫秒內實時運行,這是自然語音的必要條件。它還提供了控制音高、持續時間和音量等元素的靈活性,使生成的聲音更具表現力。

    開始語音合成

    您可以開始將 TTS 功能與應用程序集成,例如用于消費內容的文本敘述或用于數字影響者的獨特聲音。 NVIDIA Riva 等 SDK 可幫助您開發能夠提供世界級精度并產生高性能推理的應用程序。

    嘗試NVIDIA Riva TTS在您的 web 瀏覽器上或下載Riva Skills Quick Start Guide.

    相關資源

    閱讀免費電子書,熟悉 TTS ,End-to-End Speech AI Pipelines電子書對端到端 TTS 管道中使用的模型和模塊進行了分解。

    或者,通過帖子探索不同的 TTS 術語,A Guide to Understanding Essential Speech AI Terms.

    高級開發人員還可以查看免費的電子書資源,Building Speech AI Applications,學習如何為應用程序構建和部署實時 TTS 管道。

    0

    標簽

    人人超碰97caoporen国产