NVIDIA NeMo 是一個端到端平臺,用于在任何云和本地的任何地方大規模開發多模式生成 AI 模型,最近發布了 Parakeet-TDT。Parakeet-TDT 是這個新成員的其中一個,它與之前的最佳模型相比,具有更高的準確度和 64%的速度。NeMo ASR Parakeet 模型系列包括 Parakeet-TDT 和 NeMo ASR Parakeet 模型系列。
本文介紹了 Parakeet-TDT,以及如何使用它生成具有高實時系數的高精度轉錄,在一秒內處理 10 分鐘的音頻。

Parakeet-TDT 模型概述?
Parakeet-TDT (令牌和持續時間傳感器) 是 NVIDIA 開發的一種新型序列建模架構。最新研究表明,與傳統傳感器相比較,TDT 模型在速度和識別精度的方面有顯著提高。有關更多詳細信息,請參閱 此論文。
從正確性角度來看,具有 11 億個參數的 Parakeet-TDT 在準確性方面優于類似大小的 Parakeet RNNT 1.1 B,同時運行速度快 64%,以基于 NVIDIA GPU 的 9 個基準測試的平均性能衡量。根據 HuggingFace 排行榜,Parakeet-TDT 的性能領先于其他模型。
值得注意的是,Parakeet-TDT 是首個在 Hugging Face 開放 ASR 排行榜上實現平均詞錯誤率 (WER) 低于 7.0 的模型 (圖 1)。其實時系數 (RTF) 比 Hugging Face 開放 ASR 排行榜快 40%,盡管 Parakeet RNNT 0.6 B 的模型大小約為模型大小的一半。
了解令牌和持續時間傳感器模型?
與傳統傳感器模型相比,TDT 模型取得了顯著進步,因為它大幅減少了識別過程中的浪費計算。為了掌握這一改進,本部分將深入探討典型傳感器模型的工作原理。
Transducer 模型由編碼器、解碼器和 joiner 組成 (圖 2)。在語音識別期間,編碼器會處理音頻信號,從每個幀中提取關鍵信息。解碼器會從已預測的文本中提取信息。然后 joiner 會合并編碼器和解碼器的輸出,并為每個音頻幀預測文本令牌。

從細木工的角度來看,一幀通常會覆蓋 40 到 80 毫秒的音頻信號,而人們平均每 400 毫秒說一個詞。由于這種差異,某些幀不會與任何文本輸出相關聯。對于這些幀,Transducer 會預測“空白”符號。Transducer 的典型預測序列如下所示:
“____ NVIDIA 是____a great place to work”
此處,`_`表示空白符號。要生成最終識別輸出,模型將刪除所有空白并生成輸出:
“ NVIDIA 是理想的工作場所”
原始輸出中的大量空白符號表明,Transducer 模型在“空白幀”上浪費了大量時間,即模型預測的不影響最終輸出的空白幀。
TDT 旨在通過在識別過程中智能檢測和跳過空白幀來減少計算浪費。如圖 3 所示,當 TDT 模型處理幀時,它同時預測以下內容:
- 令牌概率
是應在當前幀中預測的令牌。
- 持續時間概率
是當前令牌在模型做出下一個令牌預測之前所持續的幀數。

經過訓練的 TDT 模型可使用持續時間預測最大限度地提高跳過的幀數,同時保持相同的識別準確性。在之前的示例中,與預測每個語音幀的令牌的傳統傳感器不同,TDT 模型可以按以下步驟簡化該過程:
frame 1:? predict token=_, ???? duration=4 frame 5:? predict token=NVIDIA, duration=5 frame 10: predict token=is,???? duration=4 frame 14: predict token=a,????? duration=3 frame 17: predict token=great,? duration=6 frame 23: predict token=place,? duration=5 frame 28: predict token=to,???? duration=1 frame 29: predict token=work,?? duration=4 frame 33: reach the end of audio, recognition completed. |
在該示例中,TDT 可以將模型必須作出的預測數量從 33 個減少到 8 個。對 TDT 模型進行的大量實驗表明,這種優化確實會大幅提高識別速度。此外,與傳統的 Transducer 模型相比,TDT 模型對文本中的雜語音和令牌重復表現出更強的可靠性。
請注意,為了更清晰地說明傳感器和 TDT 之間的設計差異,本文簡化了傳感器模型的部分技術細節。有關更多技術細節,請參閱 高效序列轉導:通過聯合預測令牌和持續時間。
如何使用 Parakeet-TDT
為了使用 Parakeet-TDT 運行語音識別,您需要安裝 NVIDIA NeMo。它可作為 pip 包安裝。安裝前,請確保已安裝 Cython 和 PyTorch (2.0 及更高版本)。
pip install nemo_toolkit[ 'asr' ] |
安裝 NeMo 后,您可以使用 Parakeet-TDT 識別音頻文件,如下所示:
import nemo.collections.asr as nemo_asr asr_model = nemo_asr.models.ASRModel.from_pretrained(model_name = "nvidia/parakeet-tdt-1.1b" ) transcript = asr_model.transcribe([ "some_audio_file.wav" ]) |
結束語?
Parakeet-TDT 是 NVIDIA Omniverse 的 NeMo Parakeet ASR 模型系列中的一款。它通過結合出色的準確性與前所未有的速度,樹立了新的基準,集中體現了語音識別的效率。更多信息請參閱 此處。
有關 Parakeet-TDT ASR 模型架構的詳細信息,請參閱以下論文:
– Through Joint Prediction of Tokens and Durations for Efficient Sequence Transduction
– Fast Transformer with Linear Scalable Attention for Efficient Speech Recognition
– Research on End-to-End ASR Architectures for Long-Format Audio Transcription
Parakeet-CTC 模型現在已集成在最新版本的 NeMo ASR 中。未來,其他模型也將作為 NeMo ASR 的一部分提供。有關 NVIDIA Riva 的更多信息,請參閱 NVIDIA Riva。有關 Parakeet-TDT 模型的更多信息,請訪問 NVIDIA/NeMo 的 GitHub 存儲庫。您還可以通過 NVIDIA API 目錄 在本地使用 NVIDIA NIM。NVIDIA LaunchPad 提供必要的硬件和軟件堆棧,以進行更深入的探索。
?