用 Label Studio 和 NVIDIA NeMo 生成高質量的語音識別標簽

使用 NVIDIA NeMo 和標簽工作室中的自動語音識別（ ASR ）模型處理音頻數據時，可以節省時間并產生更準確的結果。

NVIDIA NeMo 提供了可重用的神經模塊，使得創建新的神經網絡架構變得容易，包括 ASR 的預構建模塊和現成模型。借助 NVIDIA NeMo 的強大功能，您可以從預訓練語音識別模型中獲得音頻轉錄。添加 labelstudio 及其開源數據標記功能，您可以進一步提高轉錄質量。

解決方案

Diagram showing audio data with speech and NeMo ASR models as inputs into Label Studio process with prelabeled data being reviewed and corrected, then exported in ASR manifest format. — *圖 1 .使用 Label Studio 和 NeMo 注釋和更正轉錄本的 ASR 工作流。*

按照本文中的步驟使用 Label Studio 設置 NVIDIA NeMo ASR ，以生成高質量的音頻轉錄本。

連接 NVIDIA NeMo 模型，在 Label Studio 中自動轉錄音頻文件。
設置音頻轉錄項目。
從 Label Studio 驗證和導出修訂的音頻轉錄本。
微調 NeMo ASR 模型與修改后的音頻轉錄從標簽工作室。

先決條件

開始之前，請確保您擁有以下資源：

音頻數據文件。 此音頻 MIG 可以是客戶服務電話、電話訂單、銷售對話的錄音，也可以是其他與人交談的錄音。音頻文件必須采用以下文件格式之一：
- WAV
- AIFF
- MP3
- AU
- FLAC
已安裝 Label Studio 。 在本地計算機或云服務器上使用首選方法安裝 Label Studio 。有關更多信息，請參閱 Label Studio 文檔中的 Quickstart 。
NeMo 工具箱已安裝

免費音頻數據

如果您沒有任何音頻數據，可以使用示例數據集或歷史音頻數據集：

LJ 語音數據集是非小說類書籍段落的公共域數據集。
Librispeech 還提供了一個基于開放 SLR 的開源 ASR 語料庫。

您可以使用許多其他 ASR 數據集。有關詳細信息，請參閱數據集 – 簡介。您還可以使用國會圖書館網站上的公共域錄音集，如美國棒球運動員訪談錄。

確定要轉錄的音頻后，就可以開始處理它了。

安裝 Label Studio ML 后端

安裝 Label Studio 后，請安裝 Label Studio 機器學習后端。從命令行運行以下命令：

git clone https://github.com/heartexlabs/label-studio-ml-backend

設置環境：

cd label-studio-ml-backend

# Install label-studio-ml and its dependencies
pip install -U -e .

# Install the nemo example dependencies
pip install -r label_studio_ml/examples/requirements.txt

連接 NVIDIA NeMo 模型，在 Label Studio 中自動轉錄音頻文件

要使用預先訓練的 ASR 模型的預測對數據進行預標記，請在 Label Studio 中將 NeMo 工具箱設置為機器學習后端。 Label Studio 機器學習后端允許您使用預先訓練的模型來預標記數據。

Label Studio 包括使用利用 NGC 云中的 NeMo 開發的預訓練 QuartzNet15x5 模型的一個例子，但是如果另一個模型更適合，您可以用您的數據設置一個不同的模型。有關更多信息，請參閱 NeMo 提供的 ASR 型號列表。

在命令行中，將 NeMo 設置為機器學習后端，并使用該模型啟動一個新的 Label Studio 項目。

安裝 NeMo 工具箱在 Docker 容器中或使用 pip 。
下載 NeMo ASR 模型。提供的 Label Studio 示例腳本從 NGC 云下載預先訓練的 QuartzNet 模型。要使用不同的模型，請從 NGC 下載該模型。
從命令行啟動 Label Studio 機器學習后端。
label-studio-ml init my_model --from label_studio_ml/examples/nemo/asr.py
啟動機器學習后端。默認情況下，模型在本地主機上以端口 9090 啟動。
label-studio-ml start my_model
用模型啟動 Label Studio 。
label-studio start my_project --ml-backends http://localhost:9090

設置音頻轉錄項目

啟動 Label Studio 后，導入音頻數據并設置正確的模板來配置標簽。 VZX19 是自動語音識別的最佳選擇，它使音頻數據的注釋變得容易。

打開 Label Studio ，導入數據，然后選擇模板。

選擇 Import 并以純文本或 JSON 文件的形式導入音頻數據，這些文件引用在線存儲（如 Amazon S3 ）中托管的音頻文件的有效 url 。有關詳細信息，請參閱將數據導入 Label Studio 。

GIF showing how to import data into Label Studio. Content duplicated in surrounding text. — *圖 2 .將數據導入 Label Studio 的過程。。*

2 .從 Tasks 列表中，選擇 Settings 。
3 .在 標簽界面 選項卡上，瀏覽模板并選擇 自動語音識別 模板。
4 .選擇 Save 。

驗證并輸出模型預測

作為注釋器，檢查任務界面上音頻數據的任務并驗證。如有必要，糾正 NeMo 語音模型預測的轉錄本。

從 Label Studio 中的任務列表中，選擇 Label 。
對于每個音頻樣本，聆聽音頻并回顧 NeMo 模型產生的轉錄，作為預標記過程的一部分。
如果成績單中有任何單詞不正確，請更新。
保存對成績單的更改。選擇 Submit 提交成績單并查看下一個音頻樣本。

接下來，按照 NVIDIA NVIDIA 文檔中的 NeMo ASR 集合所述，以 NeMo 模型所期望的正確格式從 Label Studio 導出完成的音頻轉錄本。

要導出完成的音頻，請執行以下操作：

從 Label Studio 中的任務列表中，選擇 Export 。
選擇名為 ASR_MANIFEST 的音頻轉錄 JSON 格式。

有關 Label Studio 中可用導出格式的詳細信息，請參閱從 Label Studio 導出結果。

使用高質量的成績單來微調您的 ML 模型

當您處理完音頻并調整完轉錄的文本后，剩下的是音頻轉錄本，您可以用來重新培訓 NeMo 中包含的 ASR 模型。 Label Studio 生成與 NeMo 培訓完全兼容的注釋。

要更新 QuartzNet 模型檢查點，您可以在幾行代碼中完成，從頭開始訓練模型，或者使用 PyTorch Lightning 。例子也可以在 NeMo Jupyter 筆記本中找到。有關詳細信息，請參閱用 NeMo Jupyter 筆記本在 ASR 中進行遷移學習。

通過同時使用 Label Studio 和 NeMo ，您可以節省從頭開始處理每個音頻文件的時間 NeMo 可以立即為您提供高度準確的預測，而 Label Studio 可以幫助您實現完美的預測今天就試試！

用 Label Studio 和 NVIDIA NeMo 生成高質量的語音識別標簽

解決方案