Somshubra Majumdar – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 12 Dec 2024 04:08:26 +0000 zh-CN hourly 1 196178272 借助 NVIDIA NeMo Parakeet ASR 模型突破語音識別的界限 http://www.open-lab.net/zh-cn/blog/pushing-the-boundaries-of-speech-recognition-with-nemo-parakeet-asr-models/ Thu, 18 Apr 2024 05:58:24 +0000 http://www.open-lab.net/zh-cn/blog/?p=9689 Continued]]> NVIDIA NeMo Parakeet 是一個端到端平臺,用于在任何地方(任何云端和本地)大規模開發多模態生成式 AI 模型,包括自動語音識別 (ASR) 模型。這些最先進的 ASR 模型是與 Suno.ai 合作開發的,能夠極其準確地轉錄英語口語。 本文詳細介紹了 Parakeet ASR 模型在語音識別領域的新突破。 四個已發布的 Parakeet 模型基于遞歸神經網絡傳感器 (RNNT) 或 connectionist Temporal Classification (CTC) 解碼器。它們擁有 0.6 B 和 11 B 參數,可處理各種音頻環境,表現出對音樂和靜音等非語音片段的彈性。 這些模型基于廣泛的 64000 小時公有和專有數據集進行訓練,在各種口音和方言、人聲范圍以及不同的域和噪音條件下表現出出色的準確性。

Source

]]>
9689
借助 NVIDIA NeMo Parakeet-TDT 提高 ASR 的準確性和速度 http://www.open-lab.net/zh-cn/blog/turbocharge-asr-accuracy-and-speed-with-nvidia-nemo-parakeet-tdt/ Thu, 18 Apr 2024 05:52:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=9683 Continued]]> NVIDIA NeMo 是一個端到端平臺,用于在任何云和本地的任何地方大規模開發多模式生成 AI 模型,最近發布了 Parakeet-TDT。Parakeet-TDT 是這個新成員的其中一個,它與之前的最佳模型相比,具有更高的準確度和 64%的速度。NeMo ASR Parakeet 模型系列包括 Parakeet-TDT 和 NeMo ASR Parakeet 模型系列。 本文介紹了 Parakeet-TDT,以及如何使用它生成具有高實時系數的高精度轉錄,在一秒內處理 10 分鐘的音頻。 Parakeet-TDT (令牌和持續時間傳感器) 是 NVIDIA 開發的一種新型序列建模架構。最新研究表明,與傳統傳感器相比較,TDT 模型在速度和識別精度的方面有顯著提高。有關更多詳細信息,請參閱 此論文。 從正確性角度來看,具有 11 億個參數的 Parakeet-TDT…

Source

]]>
9683
NVIDIA 語音和翻譯 AI 模型在速度和準確性方面創下記錄 http://www.open-lab.net/zh-cn/blog/nvidia-speech-and-translation-ai-models-set-records-for-speed-and-accuracy/ Tue, 19 Mar 2024 06:06:09 +0000 http://www.open-lab.net/zh-cn/blog/?p=9349 Continued]]> NVIDIA 開發的語音和翻譯 AI 模型正在推動性能和創新的發展。NVIDIA Parakeet 自動語音識別 (ASR) 模型系列以及 NVIDIA Canary 多語種、多任務 ASR 和翻譯模型在 Hugging Face 開放 ASR 排行榜 上表現出色。此外,多語種 P-Flow 基于文本轉語音 (TTS) 的模型在 LIMMITS 的 24 項挑戰 中取得了優異成績,使用簡短的音頻片段將說話者的聲音合成為 7 種語言。 本文詳細介紹了其中一些出色的模型如何在語音和翻譯 AI (從語音識別到自定義語音創建) 領域開辟新天地。 NVIDIA Parakeet 模型系列包括 Parakeet CTC 1.1 B, Parakeet CTC 0.6 B, Parakeet RNNT 1.1 B, Parakeet RNNT 0.6 B 以及 Parakeet-TDT…

Source

]]>
9349
語音識別模型對新領域的受控適應 http://www.open-lab.net/zh-cn/blog/controlled-adaptation-of-speech-recognition-models-to-new-domains/ Fri, 03 Feb 2023 03:13:02 +0000 http://www.open-lab.net/zh-cn/blog/?p=6221 Continued]]> 你有沒有試過在你的口音上微調語音識別系統,結果發現,雖然它能很好地識別你的聲音,但卻無法檢測到別人說的話?這在經過數十萬小時語音訓練的語音識別系統中很常見。 在大規模 自動語音識別 ( ASR )中,系統可能在許多但不是所有場景中都表現良好。例如,在嘈雜的環境中,它可能需要更高的精度。或者,它可能需要為具有濃重口音或獨特方言的用戶進行調整。 在這種情況下,一種簡單的方法是根據特定領域的樣本對模型進行微調。盡管如此,這個過程可能會嚴重損害模型在一般語音上的準確性,因為它會過度填充新的域。 本文提出了一種選擇模型的簡單方法,該模型可以在 adapter modules 和 基于傳感器的語音識別系統 的幫助下平衡普通語音的識別精度,并改進自適應域上的識別。 神經網絡通常由多個模塊組成;例如在語音識別或自然語言處理( NLP )中通常使用的編碼器和解碼器模塊。

Source

]]>
6221
結合卷積和注意機制改進日語 ASR http://www.open-lab.net/zh-cn/blog/improving-japanese-language-asr-by-combining-convolutions-with-attention-mechanisms/ Mon, 12 Sep 2022 05:31:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5278 Continued]]> 自動語音識別( ASR )研究通常側重于高資源語言,如英語,它由數十萬小時的語音支持。最近的文獻重新關注更復雜的語言,如日語。與其他亞洲語言一樣,日語有大量的基本字符集(普通白話中使用了 3000 多個獨特的字符),并提出了獨特的挑戰,例如多個詞序。 這篇文章討論了最近提高日語 ASR 準確性和速度的工作。首先,我們改進了 Conformer ,這是一種最先進的 ASR 神經網絡架構,在訓練和推理速度方面取得了顯著的改進,并且沒有精度損失。其次,我們增強了一個具有多頭部自我注意機制的純深度卷積網絡,以豐富輸入語音波形的全局上下文表示的學習。 Conformer 是一種神經網絡體系結構,廣泛應用于多種語言的 ASR 系統中,并取得了較高的精度。然而, Conformer 在訓練和推斷方面都相對較慢,因為它使用了多頭自我注意,對于輸入音頻波的長度,其時間/

Source

]]>
5278
人人超碰97caoporen国产