Piotr ?elasko – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 25 Sep 2024 07:10:03 +0000 zh-CN hourly 1 196178272 借助 NVIDIA NeMo 實現出色的 ASR 模型 10 倍加速 http://www.open-lab.net/zh-cn/blog/accelerating-leaderboard-topping-asr-models-10x-with-nvidia-nemo/ Tue, 24 Sep 2024 06:58:47 +0000 http://www.open-lab.net/zh-cn/blog/?p=11356 Continued]]> NVIDIA NeMo 持續開發了設定行業基準的 自動語音識別(ASR) 模型,尤其是在 Hugging Face Open ASR 排行榜 上拔得頭籌的模型。 這些可將語音轉錄為文本的 NVIDIA NeMo ASR 模型提供了一系列旨在優化速度和準確性的架構: 以前,這些模型面臨速度性能瓶頸,例如投射開銷、低計算強度和發散性能問題。 在本文中,您將了解 NVIDIA 如何通過將張量自動投射到 、創新的標簽循環算法以及引入 NeMo 2.0.0 中可用的 CUDA Graphs 等關鍵增強功能,將 NeMo ASR 模型的推理速度提升高達 10 倍(圖 1)。 本節將深入探討 NVIDIA 自動語音識別(ASR)模型如何克服各種速度性能瓶頸,包括投射開銷、批量處理優化、低計算強度和發散性能問題。 從 NeMo 的早期開始,

Source

]]>
11356
NVIDIA NeMo ASR 發布了對荷蘭語和波斯語的新支持 http://www.open-lab.net/zh-cn/blog/new-support-for-dutch-and-persian-released-by-nemo-asr/ Tue, 16 Jan 2024 06:28:44 +0000 http://www.open-lab.net/zh-cn/blog/?p=8754 Continued]]> 為了打破語音識別的障礙,NVIDIA NeMo自豪地推出了專為 AI 領域中常被忽視的荷蘭語和波斯語設計的預訓練模型。 這些模型采用了最新推出的 FastConformer 技術,并結合 CTC 和傳感器目標進行同步訓練,以最大程度提升每個模型的準確性。 自動語音識別(ASR)是對話式 AI 應用的基礎技術,因為它使用戶能夠使用語音與 AI 系統和其他設備進行通信。它還廣泛用于對話式分析和音頻字幕,從而實現更廣泛的內容訪問。 Persian 模型基于 Mozilla 的 Common Voice (MCV) 15.0 波斯數據構建。值得注意的是,兩種技術對于提高模型性能至關重要:一是從預訓練的英語檢查點初始化,二是自定義訓練測試分割,這允許額外使用 300 小時的 MCV 驗證記錄。 此模型在評估中實現了 13.16%的詞錯誤率 (WER) 和 3.85%

Source

]]>
8754
人人超碰97caoporen国产