借助 NVIDIA NeMo Parakeet-TDT 提高 ASR 的準確性和速度

NVIDIA NeMo 是一個端到端平臺，用于在任何云和本地的任何地方大規模開發多模式生成 AI 模型，最近發布了 Parakeet-TDT。Parakeet-TDT 是這個新成員的其中一個，它與之前的最佳模型相比，具有更高的準確度和 64%的速度。NeMo ASR Parakeet 模型系列包括 Parakeet-TDT 和 NeMo ASR Parakeet 模型系列。

本文介紹了 Parakeet-TDT，以及如何使用它生成具有高實時系數的高精度轉錄，在一秒內處理 10 分鐘的音頻。

Screenshot of the HuggingFace Open ASR Leaderboard on January 1, 2024 with NVIDIA Parakeet TDT 1.1B model as top-ranking model. — *圖 1. NVIDIA* Parakeet-TDT 1.1 B ASR 模型在 Hugging Face 開放 ASR 排行榜在 2024 年初

Parakeet-TDT 模型概述?

Parakeet-TDT (令牌和持續時間傳感器) 是 NVIDIA 開發的一種新型序列建模架構。最新研究表明，與傳統傳感器相比較，TDT 模型在速度和識別精度的方面有顯著提高。有關更多詳細信息，請參閱此論文。

從正確性角度來看，具有 11 億個參數的 Parakeet-TDT 在準確性方面優于類似大小的 Parakeet RNNT 1.1 B，同時運行速度快 64%，以基于 NVIDIA GPU 的 9 個基準測試的平均性能衡量。根據 HuggingFace 排行榜，Parakeet-TDT 的性能領先于其他模型。

值得注意的是，Parakeet-TDT 是首個在 Hugging Face 開放 ASR 排行榜上實現平均詞錯誤率 (WER) 低于 7.0 的模型 (圖 1)。其實時系數 (RTF) 比 Hugging Face 開放 ASR 排行榜快 40%，盡管 Parakeet RNNT 0.6 B 的模型大小約為模型大小的一半。

了解令牌和持續時間傳感器模型?

與傳統傳感器模型相比，TDT 模型取得了顯著進步，因為它大幅減少了識別過程中的浪費計算。為了掌握這一改進，本部分將深入探討典型傳感器模型的工作原理。

Transducer 模型由編碼器、解碼器和 joiner 組成 (圖 2)。在語音識別期間，編碼器會處理音頻信號，從每個幀中提取關鍵信息。解碼器會從已預測的文本中提取信息。然后 joiner 會合并編碼器和解碼器的輸出，并為每個音頻幀預測文本令牌。

The figure shows Transducer model architecture with encoder, decoder and joiner elements. — 圖 2、*傳感器模型架構*

從細木工的角度來看，一幀通常會覆蓋 40 到 80 毫秒的音頻信號，而人們平均每 400 毫秒說一個詞。由于這種差異，某些幀不會與任何文本輸出相關聯。對于這些幀，Transducer 會預測“空白”符號。Transducer 的典型預測序列如下所示：

“____ NVIDIA 是____a great place to work”

此處，`_`表示空白符號。要生成最終識別輸出，模型將刪除所有空白并生成輸出：

“ NVIDIA 是理想的工作場所”

原始輸出中的大量空白符號表明，Transducer 模型在“空白幀”上浪費了大量時間，即模型預測的不影響最終輸出的空白幀。

TDT 旨在通過在識別過程中智能檢測和跳過空白幀來減少計算浪費。如圖 3 所示，當 TDT 模型處理幀時，它同時預測以下內容：

令牌概率 $P_T(v|t, u)$ 是應在當前幀中預測的令牌。
持續時間概率 $P_D(d|t, u)$ 是當前令牌在模型做出下一個令牌預測之前所持續的幀數。

The figure shows TDT model architecture with encoder, decoder, and joiner elements. — *圖 3.TDT 模型架構*

經過訓練的 TDT 模型可使用持續時間預測最大限度地提高跳過的幀數，同時保持相同的識別準確性。在之前的示例中，與預測每個語音幀的令牌的傳統傳感器不同，TDT 模型可以按以下步驟簡化該過程：

frame 1:? predict token=_, ???? duration=4 
frame 5:? predict token=NVIDIA, duration=5 
frame 10: predict token=is,???? duration=4 
frame 14: predict token=a,????? duration=3 
frame 17: predict token=great,? duration=6 
frame 23: predict token=place,? duration=5 
frame 28: predict token=to,???? duration=1 
frame 29: predict token=work,?? duration=4 
frame 33: reach the end of audio, recognition completed.

在該示例中，TDT 可以將模型必須作出的預測數量從 33 個減少到 8 個。對 TDT 模型進行的大量實驗表明，這種優化確實會大幅提高識別速度。此外，與傳統的 Transducer 模型相比，TDT 模型對文本中的雜語音和令牌重復表現出更強的可靠性。

請注意，為了更清晰地說明傳感器和 TDT 之間的設計差異，本文簡化了傳感器模型的部分技術細節。有關更多技術細節，請參閱高效序列轉導：通過聯合預測令牌和持續時間。

如何使用 Parakeet-TDT

為了使用 Parakeet-TDT 運行語音識別，您需要安裝 NVIDIA NeMo。它可作為 pip 包安裝。安裝前，請確保已安裝 Cython 和 PyTorch (2.0 及更高版本)。

pip install nemo_toolkit['asr']

安裝 NeMo 后，您可以使用 Parakeet-TDT 識別音頻文件，如下所示：

import nemo.collections.asr as nemo_asr 
asr_model = nemo_asr.models.ASRModel.from_pretrained(model_name="nvidia/parakeet-tdt-1.1b") 
transcript = asr_model.transcribe(["some_audio_file.wav"]) 

結束語?

Parakeet-TDT 是 NVIDIA Omniverse 的 NeMo Parakeet ASR 模型系列中的一款。它通過結合出色的準確性與前所未有的速度，樹立了新的基準，集中體現了語音識別的效率。更多信息請參閱此處。

有關 Parakeet-TDT ASR 模型架構的詳細信息，請參閱以下論文：
– Through Joint Prediction of Tokens and Durations for Efficient Sequence Transduction
– Fast Transformer with Linear Scalable Attention for Efficient Speech Recognition
– Research on End-to-End ASR Architectures for Long-Format Audio Transcription

Parakeet-CTC 模型現在已集成在最新版本的 NeMo ASR 中。未來，其他模型也將作為 NeMo ASR 的一部分提供。有關 NVIDIA Riva 的更多信息，請參閱 NVIDIA Riva。有關 Parakeet-TDT 模型的更多信息，請訪問 NVIDIA/NeMo 的 GitHub 存儲庫。您還可以通過 NVIDIA API 目錄在本地使用 NVIDIA NIM。NVIDIA LaunchPad 提供必要的硬件和軟件堆棧，以進行更深入的探索。

借助 NVIDIA NeMo Parakeet-TDT 提高 ASR 的準確性和速度

Parakeet-TDT 模型概述?

了解令牌和持續時間傳感器模型?

如何使用 Parakeet-TDT

結束語?

相關資源

標簽

關于作者

借助 NVIDIA NeMo Parakeet-TDT 提高 ASR 的準確性和速度

Parakeet-TDT 模型概述?

了解令牌和持續時間傳感器模型?

如何使用 Parakeet-TDT

結束語?

相關資源

標簽

關于作者

相關文章

借助 NVIDIA NeMo 實現出色的 ASR 模型 10 倍加速

NVIDIA 語音和翻譯 AI 模型在速度和準確性方面創下記錄

相關文章

借助 NVIDIA NeMo Curator 簡化域自適應預訓練的數據處理

NVIDIA TAO 5.5 帶來新基礎模型和增強訓練功能

Writer 推出醫療健康和金融領域專用大語言模型

NVIDIA NIM 帶來財務分析變革

NVIDIA NeMo Canary 模型的語音識別和翻譯新標準