NVIDIA 語音 AI 模型實現業界領先的準確性和性能

NVIDIA 正在推動語音 AI 和語言模型實現出色的性能、效率和可訪問性，為重新定義自動語音識別 (ASR) 可能性的創新奠定基礎。

NVIDIA Parakeet TDT 0.6 B v2 是一個包含 6 億個參數的自動語音識別 (ASR) 模型，專為高質量英語轉錄而設計。目前，它與其他四款排名靠前的 NVIDIA Parakeet 車型一起在 Hugging Face ASR 排行榜上排名第一。NVIDIA NeMo Canary 模型也在 Hugging Face ASR 排行榜上大放異彩。

本文將探討這些和其他先進的 NVIDIA 語音 AI 模型如何為自動語音識別 (ASR) 的準確性、速度和通用性設定新的基準。我們將回顧模型亮點、排行榜性能和實際部署選項，以便您可以將這些先進的模型用于現實世界的應用。

NVIDIA 語音 AI 模型概述

NVIDIA Parakeet 和 Canary AI 模型系列是 NVIDIA Riva 的一部分，NVIDIA Riva 是一系列 GPU 加速的多語種語音和翻譯微服務，用于構建完全可定制的實時對話式 AI 工作流。

Riva 語音模型通常始于研究原型，經歷了從實驗到可擴展的高性能部署的過程。雖然從研究到部署的過程遵循結構化路徑，但將模型推進到 NVIDIA NIM 微服務的決定通常取決于現實世界的需求以及模型在更廣泛的開發者社區中的表現。

NVIDIA 模型通常會進行性能調優并打包為 NIM，以便使用 Riva 在可擴展的現實世界應用中無縫部署，從而從研究原型發展到改進部署。如需了解更多信息，請查看 NVIDIA 生成式 AI 軟件產品管理高級總監 Joey Conway 最近的訪談。

NVIDIA Parakeet v2 模型亮點

Parakeet v2 具有業內出色的 6.05% 詞錯誤率 (WER) ，具有出色的準確性、超快的推理速度 ( RTFx 3386.02，比替代產品快 50 倍) 以及創新的開創性功能 (例如準確的時間和從歌曲到歌詞的轉錄) ，可將性能提升到更高水平。這些模型是開源的，可用于商業用途。

對于其他 ASR 模型難以平衡速度、準確性和專用用例的情況，Parakeet v2 提供了所有這些功能，使其成為對尖端性能和通用性有要求的開發者的首選。

視頻 1。使用 NVIDIA Parakeet v2 創建的歌曲轉歌詞轉錄示例

NVIDIA NeMo Canary 模型亮點

NVIDIA NeMo Canary 模型也在 Hugging Face ASR 排行榜上名列前茅。NVIDIA NeMo Canary 1B 和 NVIDIA NeMo Canary 1B Flash 目前分別排名第 4 和第 3 位，因其強大的多語種性能和快速推理而脫穎而出。這些模型在幾種主要語言的語音識別和翻譯方面均名列前茅。

Image shows NVIDIA Parakeet and Canary models ranked at the top of the Hugging Face Open ASR Leaderboard for speech recognition, with Parakeet TDT 0.6B v2 and several other NVIDIA models occupying leading positions, outperforming competing models in word error rate (WER) and speed.

NVIDIA 語音 AI 模型詳情和用例

新的 NVIDIA 語音 AI 模型旨在提供最重要的內容。時間遞歸神經網絡傳感器 (RNNT) 多語種模型支持 25 種語言的全球覆蓋，因此可以隨時隨地輕松與團隊和客戶聯系。

對于有背景噪音的場景 (例如醫院、機場以及幾乎任何繁忙和雜的地方的轉錄) ，內置 Silero VAD 可保持準確的輸出。Parakeet v2 是 WER 最低的模型，它具有快速、精確的結果，包括音樂轉錄等高級功能。

對于需要即時部署解決方案的團隊，NVIDIA 提供了一系列受全面支持的 Riva NIM 微服務。其中包括：

Parakeet RNNT 1.1 B 可實現準確的多語種轉錄，并支持 25 種語言的標點符號
?
Parakeet CTC 06B 是一個包含 6 億個參數的英語模型，經過超過 35000 小時的語音訓練，可生成清晰自然的文本。

NVIDIA 語音模型易于部署且企業就緒：Riva 模型可通過 NVIDIA AI Enterprise、NVIDIA NGC 和 NVIDIA NIM 微服務提供。您可以在 Hugging Face 上訪問最新的研究模型。

模型名稱	框架	語言	主要特征	示例用例
Parakeet TDT 0.6B v2	FastConformer-TDT	英語 (en-US)	– 行業領先的 WER – 超快的詞級時間 – 歌詞 – 標點符號	– 媒體和娛樂 – 邊緣和物聯網
Parakeet RNNT 1.1B	FastConformer-RNNT	25 種語言	– 通用分詞器 – 標點符號感知 – NVIDIA NIM	– 全球客戶支持 – 多語種轉錄
Parakeet CTC 1.1 B ( Silero VAD，可選)	FastConformer-CTC	英語 (en-US)	– 高速 ASR – 噪聲魯棒 – Silero VAD – 高吞吐量 – 低延遲	– 虛擬助理和企業語音應用 – 噪聲環境 (醫院、機場、自動駕駛售貨亭)
Parakeet CTC 06B	FastConformer-CTC	英語 ( en-US) 、西班牙語 ( es-US)	– 在 ASRSet 上訓練的高速 ASR 和超過 35000 小時的英語 ( en-US) 語音 – 小寫 – 空格和號 – 快速推理	– 明確聽寫需求 (例如醫療健康和金融行業) – 媒體邊緣設備

表 1。NVIDIA Parakeet 模型概述

開始使用 NVIDIA 語音 AI 模型

隨著不斷創新和新版本發布，NVIDIA Parakeet ASR 模型正在引領語音識別的步伐，提供全球語言覆蓋、強大的噪音處理以及行業領先的速度和準確性。無論是構建企業語音解決方案、為多語種客戶支持提供支持，還是開發新一代媒體應用，Parakeet 模型都能提供工具，讓您的產品變得清晰、智能。

首先，下載 NVIDIA Parakeet v2 并體驗 NVIDIA Riva 語音 NIM。有關技術細節、部署指南等信息，請訪問 NGC 目錄。

NVIDIA 語音 AI 模型實現業界領先的準確性和性能

NVIDIA 語音 AI 模型概述

NVIDIA Parakeet v2 模型亮點

NVIDIA NeMo Canary 模型亮點

NVIDIA 語音 AI 模型詳情和用例

開始使用 NVIDIA 語音 AI 模型

相關資源

標簽

關于作者

NVIDIA 語音 AI 模型實現業界領先的準確性和性能

NVIDIA 語音 AI 模型概述

NVIDIA Parakeet v2 模型亮點

NVIDIA NeMo Canary 模型亮點

NVIDIA 語音 AI 模型詳情和用例

開始使用 NVIDIA 語音 AI 模型

相關資源

標簽

關于作者

相關文章

使用 Whisper 和 Canary 架構部署 NVIDIA Riva 多語種 ASR，同時選擇性地停用 NMT

NVIDIA 語音和翻譯 AI 模型在速度和準確性方面創下記錄

相關文章

通過 NVIDIA Holoscan for Media 上的全新 AI 應用實例，實現實時 AI 媒體效果增強

在 NVIDIA GPU 上訓練的 Microsoft Phi SLM 的多模態最新進展

使用 Whisper 和 Canary 架構部署 NVIDIA Riva 多語種 ASR，同時選擇性地停用 NMT

使用 NVIDIA NIM 微服務實現語音和翻譯功能，快速賦予應用語音能力

跨音頻類型實現先進的零樣本波形音頻生成