語音 AI – NVIDIA 技術博客

語音 AI – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞和內容。 Wed, 25 Jun 2025 05:06:06 +0000 zh-CN hourly 1 196178272 通過 NVIDIA Holoscan for Media 上的全新 AI 應用實例，實現實時 AI 媒體效果增強 http://www.open-lab.net/zh-cn/blog/power-real-time-ai-media-effects-with-new-ai-reference-apps-on-nvidia-holoscan-for-media/ Tue, 17 Jun 2025 05:03:25 +0000 http://www.open-lab.net/zh-cn/blog/?p=14391 Continued]]> 直播媒體工作流越來越多地使用 AI 微服務來增強制作能力。然而，先進的 AI 模型大多托管在云端，由于網絡延遲、帶寬和實時可擴展性方面的限制，處理高比特率、未壓縮的媒體流變得很困難。 NVIDIA 發布了新的 AI 參考應用，有助于簡化 AI 開發。這些技術可以與未壓縮的 ST 2110 流交互，并以極低的延遲實現實時媒體效果。 Holoscan for Media 上提供的最新 AI 參考應用為構建專為直播媒體工作流定制的實時 AI 解決方案提供了強大的起點。 AI 虛擬攝像頭使用 PyTorch 和 NVIDIA DeepStream SDK 構建的簡單應用可為視頻中的每位演講者創建虛擬攝像頭。在檢測并追蹤高分辨率、未壓縮的 ST 2110 輸入流中存在的個體后，該參考應用會創建多個針對已檢測個體的裁剪虛擬攝像頭輸出。借助 AI 生成的攝像頭源，

]]>

14391

NVIDIA 語音 AI 模型實現業界領先的準確性和性能 http://www.open-lab.net/zh-cn/blog/nvidia-speech-ai-models-deliver-industry-leading-accuracy-and-performance/ Wed, 04 Jun 2025 07:03:21 +0000 http://www.open-lab.net/zh-cn/blog/?p=14122 Continued]]> NVIDIA 正在推動語音 AI 和語言模型實現出色的性能、效率和可訪問性，為重新定義自動語音識別 (ASR) 可能性的創新奠定基礎。 NVIDIA Parakeet TDT 0.6 B v2 是一個包含 6 億個參數的自動語音識別 (ASR) 模型，專為高質量英語轉錄而設計。目前，它與其他四款排名靠前的 NVIDIA Parakeet 車型一起在 Hugging Face ASR 排行榜上排名第一。NVIDIA NeMo Canary 模型也在 Hugging Face ASR 排行榜上大放異彩。本文將探討這些和其他先進的 NVIDIA 語音 AI 模型如何為自動語音識別 (ASR) 的準確性、速度和通用性設定新的基準。我們將回顧模型亮點、排行榜性能和實際部署選項，以便您可以將這些先進的模型用于現實世界的應用。 NVIDIA Parakeet 和 Canary AI…

]]>

14122

在 NVIDIA GPU 上訓練的 Microsoft Phi SLM 的多模態最新進展 http://www.open-lab.net/zh-cn/blog/latest-multimodal-addition-to-microsoft-phi-slms-trained-on-nvidia-gpus/ Wed, 26 Feb 2025 06:19:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=13020 Continued]]> 大語言模型（LLMs）已滲透到各行各業，并改變了技術潛力。但是，由于規模龐大，它們對于許多公司目前面臨的資源限制來說并不切實際。小語言模型（SLMs）的興起通過創建資源占用更小的模型，將質量和成本聯系起來。SLMs 是語言模型的一個子集，這些模型傾向于專注于特定領域，并使用更簡單的神經架構構建。隨著模型的發展模仿人類感知周圍環境的方式，模型必須接受多種形式的多模態數據。 Microsoft 宣布在 Phi 系列中推出新一代開放式 SLM，并新增兩項功能： Phi-4-multimodal 是第一個加入該系列的多模態模型，接受文本、音頻和圖像數據輸入。這些模型足夠小，可以在設備上部署。此版本基于 2024 年 12 月發布的 Phi-4 14B 參數 SLM 的研究版本構建而成，可用于兩個新的較小模型的商業用途。

]]>

13020

使用 Whisper 和 Canary 架構部署 NVIDIA Riva 多語種 ASR，同時選擇性地停用 NMT http://www.open-lab.net/zh-cn/blog/deploying-nvidia-riva-multilingual-asr-with-whisper-and-canary-architectures-while-selectively-deactivating-nmt/ Thu, 20 Feb 2025 04:05:01 +0000 http://www.open-lab.net/zh-cn/blog/?p=12956 Continued]]> NVIDIA 持續開發自動語音識別 (ASR) 模型，這些模型在業內樹立了基準。早期版本的 NVIDIA Riva 是一種適用于 ASR 、 TTS 和 NMT 的 GPU 加速語音和翻譯 AI 微服務的集合，支持基于 Conformer 架構的英語-西班牙語和英語-日語代碼交換 ASR 模型，以及基于 Parakeet 架構的支持 EMEA 地區多種語言（即英國英語、歐洲西班牙語、法語、意大利語、標準德語和亞美尼亞語）的模型。最近，NVIDIA 發布了 Riva 2.18.0 容器和 SDK ，以不斷改進其語音 AI 模型。在此新版本中，我們現在提供以下服務：自動語音翻譯（AST）是將一種語言的語音翻譯為另一種語言的文本，而無需以第一種語言進行中間轉錄。

]]>

12956

使用 NVIDIA NIM 微服務實現語音和翻譯功能，快速賦予應用語音能力 http://www.open-lab.net/zh-cn/blog/quickly-voice-your-apps-with-nvidia-nim-microservices-for-speech-and-translation/ Wed, 18 Sep 2024 07:42:34 +0000 http://www.open-lab.net/zh-cn/blog/?p=11374 Continued]]> NVIDIA NIM 是 NVIDIA AI Enterprise 的一部分，為自行托管的 GPU 加速推理微服務提供容器，用于跨云、數據中心和工作站的預訓練和自定義 AI 模型。NIM 微服務現已支持語音和翻譯。新的語音和翻譯微服務利用 NVIDIA Riva ，提供自動語音識別（ASR）、神經網絡機器翻譯（NMT）和文本轉語音（TTS）服務。通過 NVIDIA 語音和翻譯 NIM 微服務，將多語種語音功能集成到您的應用中，不僅能提供先進的自動語音識別（ASR）、神經機器翻譯（NMT）和文本轉語音（TTS），還可增強全球用戶體驗和可訪問性。無論您是構建客戶服務機器人、交互式語音助手，還是構建多語種內容平臺，這些 NIM 微服務都針對大規模高性能 AI 推理進行了優化，并提供準確性和靈活性，以盡可能減少開發工作量為您的應用提供語音支持。

]]>

11374

跨音頻類型實現先進的零樣本波形音頻生成 http://www.open-lab.net/zh-cn/blog/achieving-state-of-the-art-zero-shot-waveform-audio-generation-across-audio-types/ Thu, 05 Sep 2024 04:30:38 +0000 http://www.open-lab.net/zh-cn/blog/?p=11172 Continued]]> 令人驚嘆的音頻內容是虛擬世界的重要組成部分。音頻生成式 AI 在創建此類內容方面發揮著關鍵作用，NVIDIA 正在不斷突破這一研究領域的極限。BigVGAN 是與 NVIDIA 應用深度學習研究團隊和 NVIDIA NeMo 團隊合作開發的生成式 AI 模型，專門用于音頻波形合成，可實現先進的結果。BigVGAN 生成波形的速度比實時快幾個數量級，并且在語音、環境聲音和音樂等各種音頻類型中表現出強大的穩健性。本文將討論 BigVGAN v2，它可以顯著提高速度和質量，助力打造所生成的音頻與真實音頻相去甚遠的未來。BigVGAN v2 的亮點包括： BigVGAN 是一款通用神經聲碼器，專門用于使用 Mel spectrograms 作為輸入合成音頻波形。神經聲碼器是音頻生成式 AI 中的基石方法，可從緊湊型聲學特征（如 Mel spectrogram）生成聲波。

]]>

11172

NVIDIA NeMo T5-TTS 模型助力解決語音合成語言模型中的幻覺問題 http://www.open-lab.net/zh-cn/blog/addressing-hallucinations-in-speech-synthesis-llms-with-the-nvidia-nemo-t5-tts-model/ Tue, 02 Jul 2024 04:44:49 +0000 http://www.open-lab.net/zh-cn/blog/?p=10527 Continued]]> NVIDIA NeMo 發布了 T5-TTS 模型，這是文本轉語音 (TTS) 技術的一項重大進步。基于大型語言模型 (LLM)，T5-TTS 生成更準確、更自然的語音。通過改進文本和音頻之間的對齊，T5-TTS 消除了重復口語和跳過文本等幻覺。此外，與其他開源模型如 Bark 和 SpeechT5 相比，T5-TTS 可將單詞發音錯誤減少到原來的 1/2。收聽 T5-TTS 模型的音頻示例。 NVIDIA NeMo 是一個端到端平臺，可以隨時隨地在本地和云端大規模開發多模態生成式 AI 模型。 LLM 憑借其出色的理解和生成一致性文本的能力徹底改變了自然語言處理 (NLP)。最近，LLM 在語音領域得到廣泛應用，使用大量數據來捕捉人類語音模式和色調的細微差別。基于 LLM 的語音合成模型產生的語音不僅更自然，而且更具表現力，為各行各業的應用開辟了無限可能。

]]>

10527

借助 NVIDIA NeMo Parakeet ASR 模型突破語音識別的界限 http://www.open-lab.net/zh-cn/blog/pushing-the-boundaries-of-speech-recognition-with-nemo-parakeet-asr-models/ Thu, 18 Apr 2024 05:58:24 +0000 http://www.open-lab.net/zh-cn/blog/?p=9689 Continued]]> NVIDIA NeMo Parakeet 是一個端到端平臺，用于在任何地方（任何云端和本地）大規模開發多模態生成式 AI 模型，包括自動語音識別 (ASR) 模型。這些最先進的 ASR 模型是與 Suno.ai 合作開發的，能夠極其準確地轉錄英語口語。本文詳細介紹了 Parakeet ASR 模型在語音識別領域的新突破。四個已發布的 Parakeet 模型基于遞歸神經網絡傳感器 (RNNT) 或 connectionist Temporal Classification (CTC) 解碼器。它們擁有 0.6 B 和 11 B 參數，可處理各種音頻環境，表現出對音樂和靜音等非語音片段的彈性。這些模型基于廣泛的 64000 小時公有和專有數據集進行訓練，在各種口音和方言、人聲范圍以及不同的域和噪音條件下表現出出色的準確性。

]]>

9689

借助 NVIDIA NeMo Parakeet-TDT 提高 ASR 的準確性和速度 http://www.open-lab.net/zh-cn/blog/turbocharge-asr-accuracy-and-speed-with-nvidia-nemo-parakeet-tdt/ Thu, 18 Apr 2024 05:52:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=9683 Continued]]> NVIDIA NeMo 是一個端到端平臺，用于在任何云和本地的任何地方大規模開發多模式生成 AI 模型，最近發布了 Parakeet-TDT。Parakeet-TDT 是這個新成員的其中一個，它與之前的最佳模型相比，具有更高的準確度和 64%的速度。NeMo ASR Parakeet 模型系列包括 Parakeet-TDT 和 NeMo ASR Parakeet 模型系列。本文介紹了 Parakeet-TDT，以及如何使用它生成具有高實時系數的高精度轉錄，在一秒內處理 10 分鐘的音頻。 Parakeet-TDT (令牌和持續時間傳感器) 是 NVIDIA 開發的一種新型序列建模架構。最新研究表明，與傳統傳感器相比較，TDT 模型在速度和識別精度的方面有顯著提高。有關更多詳細信息，請參閱此論文。從正確性角度來看，具有 11 億個參數的 Parakeet-TDT…

]]>

9683

NVIDIA NeMo Canary 模型的語音識別和翻譯新標準 http://www.open-lab.net/zh-cn/blog/new-standard-for-speech-recognition-and-translation-from-the-nvidia-nemo-canary-model/ Thu, 18 Apr 2024 05:46:47 +0000 http://www.open-lab.net/zh-cn/blog/?p=9677 Continued]]> NVIDIA NeMo 是一種端到端平臺，用于開發和部署多模態生成式 AI 模型。它可以隨時隨地進行大規模模型部署。 NeMo 團隊最近發布了 Canary，這是一款多語言模型，可轉錄英語、西班牙語、德語和法語的語音，并添加標點符號和大寫。Canary 還提供英語和其他三種受支持語言之間的雙向翻譯。本文詳細介紹了 Canary 模型及其使用方法。 Canary 模型在 HuggingFace 開放 ASR 排行榜中平均詞錯誤率 (WER) 為 6.67%，其性能遠遠優于所有其他開源模型。 Canary 結合使用公共和內部數據進行訓練。它使用 85000 小時的轉錄語音來學習語音識別。為了教授 Canary 翻譯，我們使用 NVIDIA NeMo 文本翻譯模型生成所有支持語言的原始轉錄的翻譯。盡管數據量比類似規模的模型少一個數量級，

]]>

9677

NVIDIA 語音和翻譯 AI 模型在速度和準確性方面創下記錄 http://www.open-lab.net/zh-cn/blog/nvidia-speech-and-translation-ai-models-set-records-for-speed-and-accuracy/ Tue, 19 Mar 2024 06:06:09 +0000 http://www.open-lab.net/zh-cn/blog/?p=9349 Continued]]> NVIDIA 開發的語音和翻譯 AI 模型正在推動性能和創新的發展。NVIDIA Parakeet 自動語音識別 (ASR) 模型系列以及 NVIDIA Canary 多語種、多任務 ASR 和翻譯模型在 Hugging Face 開放 ASR 排行榜上表現出色。此外，多語種 P-Flow 基于文本轉語音 (TTS) 的模型在 LIMMITS 的 24 項挑戰中取得了優異成績，使用簡短的音頻片段將說話者的聲音合成為 7 種語言。本文詳細介紹了其中一些出色的模型如何在語音和翻譯 AI (從語音識別到自定義語音創建) 領域開辟新天地。 NVIDIA Parakeet 模型系列包括 Parakeet CTC 1.1 B, Parakeet CTC 0.6 B, Parakeet RNNT 1.1 B, Parakeet RNNT 0.6 B 以及 Parakeet-TDT…

]]>

9349

NVIDIA NeMo ASR 發布了對荷蘭語和波斯語的新支持 http://www.open-lab.net/zh-cn/blog/new-support-for-dutch-and-persian-released-by-nemo-asr/ Tue, 16 Jan 2024 06:28:44 +0000 http://www.open-lab.net/zh-cn/blog/?p=8754 Continued]]> 為了打破語音識別的障礙，NVIDIA NeMo自豪地推出了專為 AI 領域中常被忽視的荷蘭語和波斯語設計的預訓練模型。這些模型采用了最新推出的 FastConformer 技術，并結合 CTC 和傳感器目標進行同步訓練，以最大程度提升每個模型的準確性。自動語音識別（ASR）是對話式 AI 應用的基礎技術，因為它使用戶能夠使用語音與 AI 系統和其他設備進行通信。它還廣泛用于對話式分析和音頻字幕，從而實現更廣泛的內容訪問。 Persian 模型基于 Mozilla 的 Common Voice (MCV) 15.0 波斯數據構建。值得注意的是，兩種技術對于提高模型性能至關重要：一是從預訓練的英語檢查點初始化，二是自定義訓練測試分割，這允許額外使用 300 小時的 MCV 驗證記錄。此模型在評估中實現了 13.16%的詞錯誤率 (WER) 和 3.85%

]]>

8754

使用 ASR 自定義增強電話客戶服務 http://www.open-lab.net/zh-cn/blog/enhancing-phone-customer-service-with-asr-customization/ Tue, 09 Jan 2024 05:30:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=8647 Continued]]> 自動語音識別 (ASR) 是正確理解他人和進行自然對話的核心。為了打造客戶主導的語音助手并通過電話實現客戶服務交互自動化，公司必須通過理解、同理心和清晰度等品質來解決贏得呼叫者信任的獨特挑戰。從語音識別的角度來看，受電話限制的語音本質上具有挑戰性。背景噪聲、糟糕的通話質量以及各種方言和口音使得理解調用者的詞語變得困難。傳統語言理解系統通常對語音的支持有限，人們的說話方式與他們的輸入或文本方式存在本質區別。在本文中，我們將討論 PolyAI 與第三方、開箱即用和內部定制的探索之旅 NVIDIA Riva ASR 解決方案。我們的目標是提供語音體驗，讓呼叫者可以以自己喜歡的方式說話，并在對話的每個回合中提供有用的自然響應。內部微調的 Riva ASR 模型顯著提高了各種不同驗證真實客戶呼叫數據集的準確性。

]]>

8647

在 NVIDIA ACE 中使用 AI 動畫和語音功能打造逼真的虛擬形象 http://www.open-lab.net/zh-cn/blog/create-lifelike-avatars-with-ai-animation-and-speech-features-in-nvidia-ace/ Mon, 04 Dec 2023 05:32:41 +0000 http://www.open-lab.net/zh-cn/blog/?p=8416 Continued]]> NVIDIA 今日公布了 NVIDIA Avatar Cloud Engine (ACE) 一系列技術，增強了 AI 虛擬形象和數字人的真實感和可訪問性。這些新的動畫和語音功能實現了更自然的對話和情感表達。開發者現在可以使用新的云 API 在應用中輕松實現和擴展智能虛擬形象，包括自動語音識別 (ASR)、文本轉語音 (TTS)、神經機器翻譯 (NMT) 和 Audio2Face (A2F)。借助這些高級功能，搶先體驗計劃的創作者可以利用 NVIDIA 技術快速構建新一代虛擬形象體驗。現在，使用 Unreal Engine 5 等一些熱門渲染工具，可以更輕松地在任何地方大規模構建和部署數字人。使用最新的 ACE AI 動畫功能和微服務(包括新添加的 A2F 情感支持)構建更具表現力的數字人。現在還提供用于身體、

]]>

8416

借助 AI 驅動的記錄和總結功能提高會議工作效率 http://www.open-lab.net/zh-cn/blog/boost-meeting-productivity-with-ai-powered-note-taking-and-summarization/ Wed, 29 Nov 2023 06:04:50 +0000 http://www.open-lab.net/zh-cn/blog/?p=8343 Continued]]> 會議是組織的生命線。它們促進協作和明智的決策。它們通過頭腦風暴和解決問題來消除孤島。它們還可以推進戰略目標和規劃。然而，實現這些目標的主要會議(尤其是涉及跨職能團隊和外部參與者的會議)可能具有挑戰性。需要將人員管理技能和熟練的文檔策略獨特地結合起來，以無縫促進決策制定并確保有效的會后任務執行。本文介紹了基于云原生微服務的架構，adam.ai。通過 NVIDIA 初創加速計劃，adam.ai 成為了一個全面的會議管理平臺，旨在為組織、團隊和專業人士的整個會議生命周期提供支持。該架構提供高可擴展性、低延遲和經濟高效的在線會議自動記錄服務。具體而言，adam.ai 利用了 NVIDIA 的技術。人工做筆記需要實時決定要記錄的信息和省略的信息。此外，即使對最熟練的人來說，在積極參與和細致的筆記之間取得平衡也會帶來挑戰。專注所需的耐久性，尤其是在漫長或復雜的討論期間，

]]>

8343

人人超碰97caoporen国产