語音識別/Diarization – NVIDIA 技術博客

聚焦：個人 AI 借助 NVIDIA Riva 為小企業主帶來 AI 接待員

Tue, 29 Apr 2025 08:27:20 +0000

星期二晚上 10 點，Sapochnick Law Firm (一家位于加利福尼亞州圣地亞哥的專業律師事務所) 的電話鈴響了。作為這家公司的客戶，打電話的人在電話鈴響時焦急萬分。他們收到了一封包含可能改變生活的消息的重要信件，并向律師提出了緊急問題。客戶很快意識到 Sapochnick 團隊可能在幾小時前離開了辦公室，但他們一直在排隊等待，希望至少有一個語音郵件問候可以提供某種幫助。沒有錄音，聲音用熱情、專業的問候打破了沉默。雙方之間自然而然地展開了對話，很明顯，律師事務所發出的聲音遠不止接電話。該公司精通細致入微的移民程序，熟悉該公司處理特定法律場景的方法，最重要的是，該公司擁有公司創始人 Jacob Sapochnick 廣泛的專有知識。這種真正的互動之所以能夠實現，是因為 Personal AI Receptionist 是一項由 Personal AI 和…

Source

]]>

借助 NVIDIA NeMo Parakeet ASR 模型突破語音識別的界限

Thu, 18 Apr 2024 05:58:24 +0000

NVIDIA NeMo Parakeet 是一個端到端平臺，用于在任何地方（任何云端和本地）大規模開發多模態生成式 AI 模型，包括自動語音識別 (ASR) 模型。這些最先進的 ASR 模型是與 Suno.ai 合作開發的，能夠極其準確地轉錄英語口語。本文詳細介紹了 Parakeet ASR 模型在語音識別領域的新突破。四個已發布的 Parakeet 模型基于遞歸神經網絡傳感器 (RNNT) 或 connectionist Temporal Classification (CTC) 解碼器。它們擁有 0.6 B 和 11 B 參數，可處理各種音頻環境，表現出對音樂和靜音等非語音片段的彈性。這些模型基于廣泛的 64000 小時公有和專有數據集進行訓練，在各種口音和方言、人聲范圍以及不同的域和噪音條件下表現出出色的準確性。

Source

]]>

借助 NVIDIA NeMo Parakeet-TDT 提高 ASR 的準確性和速度

Thu, 18 Apr 2024 05:52:00 +0000

NVIDIA NeMo 是一個端到端平臺，用于在任何云和本地的任何地方大規模開發多模式生成 AI 模型，最近發布了 Parakeet-TDT。Parakeet-TDT 是這個新成員的其中一個，它與之前的最佳模型相比，具有更高的準確度和 64%的速度。NeMo ASR Parakeet 模型系列包括 Parakeet-TDT 和 NeMo ASR Parakeet 模型系列。本文介紹了 Parakeet-TDT，以及如何使用它生成具有高實時系數的高精度轉錄，在一秒內處理 10 分鐘的音頻。 Parakeet-TDT (令牌和持續時間傳感器) 是 NVIDIA 開發的一種新型序列建模架構。最新研究表明，與傳統傳感器相比較，TDT 模型在速度和識別精度的方面有顯著提高。有關更多詳細信息，請參閱此論文。從正確性角度來看，具有 11 億個參數的 Parakeet-TDT…

Source

]]>

NVIDIA NeMo Canary 模型的語音識別和翻譯新標準

Thu, 18 Apr 2024 05:46:47 +0000

NVIDIA NeMo 是一種端到端平臺，用于開發和部署多模態生成式 AI 模型。它可以隨時隨地進行大規模模型部署。 NeMo 團隊最近發布了 Canary，這是一款多語言模型，可轉錄英語、西班牙語、德語和法語的語音，并添加標點符號和大寫。Canary 還提供英語和其他三種受支持語言之間的雙向翻譯。本文詳細介紹了 Canary 模型及其使用方法。 Canary 模型在 HuggingFace 開放 ASR 排行榜中平均詞錯誤率 (WER) 為 6.67%，其性能遠遠優于所有其他開源模型。 Canary 結合使用公共和內部數據進行訓練。它使用 85000 小時的轉錄語音來學習語音識別。為了教授 Canary 翻譯，我們使用 NVIDIA NeMo 文本翻譯模型生成所有支持語言的原始轉錄的翻譯。盡管數據量比類似規模的模型少一個數量級，

Source

]]>

NVIDIA 語音和翻譯 AI 模型在速度和準確性方面創下記錄

Tue, 19 Mar 2024 06:06:09 +0000

NVIDIA 開發的語音和翻譯 AI 模型正在推動性能和創新的發展。NVIDIA Parakeet 自動語音識別 (ASR) 模型系列以及 NVIDIA Canary 多語種、多任務 ASR 和翻譯模型在 Hugging Face 開放 ASR 排行榜上表現出色。此外，多語種 P-Flow 基于文本轉語音 (TTS) 的模型在 LIMMITS 的 24 項挑戰中取得了優異成績，使用簡短的音頻片段將說話者的聲音合成為 7 種語言。本文詳細介紹了其中一些出色的模型如何在語音和翻譯 AI (從語音識別到自定義語音創建) 領域開辟新天地。 NVIDIA Parakeet 模型系列包括 Parakeet CTC 1.1 B, Parakeet CTC 0.6 B, Parakeet RNNT 1.1 B, Parakeet RNNT 0.6 B 以及 Parakeet-TDT…

Source

]]>