Elena Rastorgueva – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 12 Dec 2024 04:08:26 +0000 zh-CN hourly 1 196178272 NVIDIA NeMo Canary 模型的語音識別和翻譯新標準 http://www.open-lab.net/zh-cn/blog/new-standard-for-speech-recognition-and-translation-from-the-nvidia-nemo-canary-model/ Thu, 18 Apr 2024 05:46:47 +0000 http://www.open-lab.net/zh-cn/blog/?p=9677 Continued]]> NVIDIA NeMo 是一種端到端平臺,用于開發和部署多模態 生成式 AI 模型。它可以隨時隨地進行大規模模型部署。 NeMo 團隊最近發布了 Canary,這是一款多語言模型,可轉錄英語、西班牙語、德語和法語的語音,并添加標點符號和大寫。Canary 還提供英語和其他三種受支持語言之間的雙向翻譯。 本文詳細介紹了 Canary 模型及其使用方法。 Canary 模型在 HuggingFace 開放 ASR 排行榜 中平均詞錯誤率 (WER) 為 6.67%,其性能遠遠優于所有其他開源模型。 Canary 結合使用公共和內部數據進行訓練。它使用 85000 小時的轉錄語音來學習語音識別。為了教授 Canary 翻譯,我們使用 NVIDIA NeMo 文本翻譯模型生成所有支持語言的原始轉錄的翻譯。 盡管數據量比類似規模的模型少一個數量級,

Source

]]>
9677
NVIDIA 語音和翻譯 AI 模型在速度和準確性方面創下記錄 http://www.open-lab.net/zh-cn/blog/nvidia-speech-and-translation-ai-models-set-records-for-speed-and-accuracy/ Tue, 19 Mar 2024 06:06:09 +0000 http://www.open-lab.net/zh-cn/blog/?p=9349 Continued]]> NVIDIA 開發的語音和翻譯 AI 模型正在推動性能和創新的發展。NVIDIA Parakeet 自動語音識別 (ASR) 模型系列以及 NVIDIA Canary 多語種、多任務 ASR 和翻譯模型在 Hugging Face 開放 ASR 排行榜 上表現出色。此外,多語種 P-Flow 基于文本轉語音 (TTS) 的模型在 LIMMITS 的 24 項挑戰 中取得了優異成績,使用簡短的音頻片段將說話者的聲音合成為 7 種語言。 本文詳細介紹了其中一些出色的模型如何在語音和翻譯 AI (從語音識別到自定義語音創建) 領域開辟新天地。 NVIDIA Parakeet 模型系列包括 Parakeet CTC 1.1 B, Parakeet CTC 0.6 B, Parakeet RNNT 1.1 B, Parakeet RNNT 0.6 B 以及 Parakeet-TDT…

Source

]]>
9349
人人超碰97caoporen国产