Hainan Xu – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 12 Dec 2024 04:08:26 +0000 zh-CN hourly 1 196178272 借助 NVIDIA NeMo Parakeet-TDT 提高 ASR 的準確性和速度 http://www.open-lab.net/zh-cn/blog/turbocharge-asr-accuracy-and-speed-with-nvidia-nemo-parakeet-tdt/ Thu, 18 Apr 2024 05:52:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=9683 Continued]]> NVIDIA NeMo 是一個端到端平臺,用于在任何云和本地的任何地方大規模開發多模式生成 AI 模型,最近發布了 Parakeet-TDT。Parakeet-TDT 是這個新成員的其中一個,它與之前的最佳模型相比,具有更高的準確度和 64%的速度。NeMo ASR Parakeet 模型系列包括 Parakeet-TDT 和 NeMo ASR Parakeet 模型系列。 本文介紹了 Parakeet-TDT,以及如何使用它生成具有高實時系數的高精度轉錄,在一秒內處理 10 分鐘的音頻。 Parakeet-TDT (令牌和持續時間傳感器) 是 NVIDIA 開發的一種新型序列建模架構。最新研究表明,與傳統傳感器相比較,TDT 模型在速度和識別精度的方面有顯著提高。有關更多詳細信息,請參閱 此論文。 從正確性角度來看,具有 11 億個參數的 Parakeet-TDT…

Source

]]>
9683
NVIDIA 語音和翻譯 AI 模型在速度和準確性方面創下記錄 http://www.open-lab.net/zh-cn/blog/nvidia-speech-and-translation-ai-models-set-records-for-speed-and-accuracy/ Tue, 19 Mar 2024 06:06:09 +0000 http://www.open-lab.net/zh-cn/blog/?p=9349 Continued]]> NVIDIA 開發的語音和翻譯 AI 模型正在推動性能和創新的發展。NVIDIA Parakeet 自動語音識別 (ASR) 模型系列以及 NVIDIA Canary 多語種、多任務 ASR 和翻譯模型在 Hugging Face 開放 ASR 排行榜 上表現出色。此外,多語種 P-Flow 基于文本轉語音 (TTS) 的模型在 LIMMITS 的 24 項挑戰 中取得了優異成績,使用簡短的音頻片段將說話者的聲音合成為 7 種語言。 本文詳細介紹了其中一些出色的模型如何在語音和翻譯 AI (從語音識別到自定義語音創建) 領域開辟新天地。 NVIDIA Parakeet 模型系列包括 Parakeet CTC 1.1 B, Parakeet CTC 0.6 B, Parakeet RNNT 1.1 B, Parakeet RNNT 0.6 B 以及 Parakeet-TDT…

Source

]]>
9349
人人超碰97caoporen国产