Riva – NVIDIA 技術博客

Riva – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞和內容。 Thu, 05 Jun 2025 07:11:19 +0000 zh-CN hourly 1 196178272 NVIDIA 語音 AI 模型實現業界領先的準確性和性能 http://www.open-lab.net/zh-cn/blog/nvidia-speech-ai-models-deliver-industry-leading-accuracy-and-performance/ Wed, 04 Jun 2025 07:03:21 +0000 http://www.open-lab.net/zh-cn/blog/?p=14122 Continued]]> NVIDIA 正在推動語音 AI 和語言模型實現出色的性能、效率和可訪問性，為重新定義自動語音識別 (ASR) 可能性的創新奠定基礎。 NVIDIA Parakeet TDT 0.6 B v2 是一個包含 6 億個參數的自動語音識別 (ASR) 模型，專為高質量英語轉錄而設計。目前，它與其他四款排名靠前的 NVIDIA Parakeet 車型一起在 Hugging Face ASR 排行榜上排名第一。NVIDIA NeMo Canary 模型也在 Hugging Face ASR 排行榜上大放異彩。本文將探討這些和其他先進的 NVIDIA 語音 AI 模型如何為自動語音識別 (ASR) 的準確性、速度和通用性設定新的基準。我們將回顧模型亮點、排行榜性能和實際部署選項，以便您可以將這些先進的模型用于現實世界的應用。 NVIDIA Parakeet 和 Canary AI…

]]>

14122

聚焦：個人 AI 借助 NVIDIA Riva 為小企業主帶來 AI 接待員 http://www.open-lab.net/zh-cn/blog/spotlight-personal-ai-brings-ai-receptionists-to-small-business-owners-with-nvidia-riva/ Tue, 29 Apr 2025 08:27:20 +0000 http://www.open-lab.net/zh-cn/blog/?p=13660 Continued]]> 星期二晚上 10 點，Sapochnick Law Firm (一家位于加利福尼亞州圣地亞哥的專業律師事務所) 的電話鈴響了。作為這家公司的客戶，打電話的人在電話鈴響時焦急萬分。他們收到了一封包含可能改變生活的消息的重要信件，并向律師提出了緊急問題。客戶很快意識到 Sapochnick 團隊可能在幾小時前離開了辦公室，但他們一直在排隊等待，希望至少有一個語音郵件問候可以提供某種幫助。沒有錄音，聲音用熱情、專業的問候打破了沉默。雙方之間自然而然地展開了對話，很明顯，律師事務所發出的聲音遠不止接電話。該公司精通細致入微的移民程序，熟悉該公司處理特定法律場景的方法，最重要的是，該公司擁有公司創始人 Jacob Sapochnick 廣泛的專有知識。這種真正的互動之所以能夠實現，是因為 Personal AI Receptionist 是一項由 Personal AI 和…

]]>

13660

使用 NVIDIA AI Blueprint 構建實時多模態 XR 應用以進行視頻搜索和摘要 http://www.open-lab.net/zh-cn/blog/build-real-time-multimodal-xr-apps-with-nvidia-ai-blueprint-for-video-search-and-summarization/ Tue, 11 Mar 2025 06:43:16 +0000 http://www.open-lab.net/zh-cn/blog/?p=13357 Continued]]> 隨著生成式 AI 和視覺基礎模型的最新進展，VLM 呈現了新一波視覺計算浪潮，其中模型能夠實現高度復雜的感知和深度上下文理解。這些智能解決方案為增強 XR 設置中的語義理解提供了一種很有前景的方法。通過集成 VLM，開發者可以顯著改進 XR 應用解釋用戶操作以及與用戶操作交互的方式，使其響應速度更快、更直觀。本文將向您介紹如何利用 NVIDIA AI Blueprint 進行視頻搜索和摘要，以及如何增強 Blueprint 以支持 XR 環境中的音頻。我們介紹了實時語音識別和沉浸式交互的分步過程——從設置環境到無縫集成。借助對話式 AI 功能增強 XR 應用，為用戶帶來更加身臨其境的體驗。通過創建在 XR 環境中提供 Q&A 功能的生成式 AI 智能體，用戶可以更自然地進行交互并獲得即時幫助。多模態 AI 智能體處理并合成多種輸入模式，例如視覺數據 (例如 XR…

]]>

13357

使用 Whisper 和 Canary 架構部署 NVIDIA Riva 多語種 ASR，同時選擇性地停用 NMT http://www.open-lab.net/zh-cn/blog/deploying-nvidia-riva-multilingual-asr-with-whisper-and-canary-architectures-while-selectively-deactivating-nmt/ Thu, 20 Feb 2025 04:05:01 +0000 http://www.open-lab.net/zh-cn/blog/?p=12956 Continued]]> NVIDIA 持續開發自動語音識別 (ASR) 模型，這些模型在業內樹立了基準。早期版本的 NVIDIA Riva 是一種適用于 ASR 、 TTS 和 NMT 的 GPU 加速語音和翻譯 AI 微服務的集合，支持基于 Conformer 架構的英語-西班牙語和英語-日語代碼交換 ASR 模型，以及基于 Parakeet 架構的支持 EMEA 地區多種語言（即英國英語、歐洲西班牙語、法語、意大利語、標準德語和亞美尼亞語）的模型。最近，NVIDIA 發布了 Riva 2.18.0 容器和 SDK ，以不斷改進其語音 AI 模型。在此新版本中，我們現在提供以下服務：自動語音翻譯（AST）是將一種語言的語音翻譯為另一種語言的文本，而無需以第一種語言進行中間轉錄。

]]>

12956

視頻和音頻多模態檢索增強生成入門簡介 http://www.open-lab.net/zh-cn/blog/an-easy-introduction-to-multimodal-retrieval-augmented-generation-for-video-and-audio/ Mon, 16 Dec 2024 09:41:49 +0000 http://www.open-lab.net/zh-cn/blog/?p=12607 Continued]]> 構建多模態檢索增強生成 (RAG) 系統極具挑戰性。困難在于捕獲和索引來自多種模式的信息，包括文本、圖像、表格、音頻、視頻等。在上一篇博文《多模態檢索增強型生成的簡單介紹》中，我們討論了如何處理文本和圖像。本文將對話擴展到音頻和視頻。具體來說，我們將探討如何構建多模 odal RAG pipeline 來搜索視頻中的信息。基于第一條原則，我們可以說，構建跨多個模式的 RAG 工作流有三種方法，詳見下文和圖 1。構建跨多個模態的 RAG 工作流的第一種方法是使用通用嵌入空間。這種方法依賴于單個模型來投射存儲在同一嵌入空間中不同模式下的信息表示。使用具有圖像和文本編碼器的 CLIP 等模型屬于此類別。使用這種方法的好處是降低架構復雜性。根據用于訓練模型的數據的多樣性，還可以考慮適用用例的靈活性。這種方法的缺點是，如果模型能夠處理兩個以上的模態，

]]>

12607

借助 2D 和 3D 數字人虛擬形象擴展 AI 智能體界面選項 http://www.open-lab.net/zh-cn/blog/expanding-ai-agent-interface-options-with-2d-and-3d-digital-human-avatars/ Fri, 22 Nov 2024 07:29:09 +0000 http://www.open-lab.net/zh-cn/blog/?p=12044 Continued]]> 在與生成式 AI 應用程序交互時，用戶有多種通信選項 – 文本、語音或通過數字化的虛擬形象。傳統聊天機器人或 Copilot 應用具有文本界面，用戶可在其中輸入查詢并接收基于文本的響應。對于免持通信，語音人工智能技術如自動語音識別 (ASR) 和文本轉語音 (TTS) 促進了口頭互動，非常適合電話客戶服務等場景。此外，將數字化虛擬形象與語音能力相結合，可為用戶提供更具動態性的界面，以便用戶以直觀方式與應用互動。根據 Gartner 的預測，到 2028 年，擁有 500 名以上員工的組織中，45% 的組織將利用員工人工智能虛擬形象來擴展人力資本能力。1 數字虛擬形象的風格差異很大，一些用例受益于逼真的 3D 或 2D 虛擬形象，而其他用例使用風格化或卡通化的虛擬形象時效果更好。要開始創建逼真的數字人，

]]>

12044

NVIDIA NIM 智能體藍圖助力 AI 應用打造數字人機交互界面 http://www.open-lab.net/zh-cn/blog/build-a-digital-human-interface-for-ai-apps-with-an-nvidia-nim-agent-blueprint/ Wed, 25 Sep 2024 09:58:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=11512 Continued]]> 為客戶提供高質量的服務仍然是各行各業企業的首要任務，從回答問題和解決問題到促進在線訂單。隨著企業在全球范圍內擴展運營并擴展產品以競爭，對無縫客戶服務的需求呈指數級增長搜索知識庫文章或瀏覽復雜的電話樹可能是一種有用資源，但客戶通常必須解析的信息密度會導致保留率不佳。隨著生成式 AI 、對話式 AI 和視覺 AI 等技術的融合，應用開發團隊正在尋找方法來提高與自助客戶應用的互動，從而提高整體滿意度和保留率。現在，您可以添加數字人界面來個性化聊天機器人應用，而不是基于文本的聊天機器人。此外，您還可以使用檢索增強生成技術 (RAG) 實現流暢的人機交互。本文將介紹如何使用 NVIDIA NIM Agent 藍圖實現這一目標，該藍圖將 NVIDIA NIM 微服務與參考代碼和文檔相結合。

]]>

11512

使用 NVIDIA NIM 微服務實現語音和翻譯功能，快速賦予應用語音能力 http://www.open-lab.net/zh-cn/blog/quickly-voice-your-apps-with-nvidia-nim-microservices-for-speech-and-translation/ Wed, 18 Sep 2024 07:42:34 +0000 http://www.open-lab.net/zh-cn/blog/?p=11374 Continued]]> NVIDIA NIM 是 NVIDIA AI Enterprise 的一部分，為自行托管的 GPU 加速推理微服務提供容器，用于跨云、數據中心和工作站的預訓練和自定義 AI 模型。NIM 微服務現已支持語音和翻譯。新的語音和翻譯微服務利用 NVIDIA Riva ，提供自動語音識別（ASR）、神經網絡機器翻譯（NMT）和文本轉語音（TTS）服務。通過 NVIDIA 語音和翻譯 NIM 微服務，將多語種語音功能集成到您的應用中，不僅能提供先進的自動語音識別（ASR）、神經機器翻譯（NMT）和文本轉語音（TTS），還可增強全球用戶體驗和可訪問性。無論您是構建客戶服務機器人、交互式語音助手，還是構建多語種內容平臺，這些 NIM 微服務都針對大規模高性能 AI 推理進行了優化，并提供準確性和靈活性，以盡可能減少開發工作量為您的應用提供語音支持。

]]>

11374

NVIDIA 語音和翻譯 AI 模型在速度和準確性方面創下記錄 http://www.open-lab.net/zh-cn/blog/nvidia-speech-and-translation-ai-models-set-records-for-speed-and-accuracy/ Tue, 19 Mar 2024 06:06:09 +0000 http://www.open-lab.net/zh-cn/blog/?p=9349 Continued]]> NVIDIA 開發的語音和翻譯 AI 模型正在推動性能和創新的發展。NVIDIA Parakeet 自動語音識別 (ASR) 模型系列以及 NVIDIA Canary 多語種、多任務 ASR 和翻譯模型在 Hugging Face 開放 ASR 排行榜上表現出色。此外，多語種 P-Flow 基于文本轉語音 (TTS) 的模型在 LIMMITS 的 24 項挑戰中取得了優異成績，使用簡短的音頻片段將說話者的聲音合成為 7 種語言。本文詳細介紹了其中一些出色的模型如何在語音和翻譯 AI (從語音識別到自定義語音創建) 領域開辟新天地。 NVIDIA Parakeet 模型系列包括 Parakeet CTC 1.1 B, Parakeet CTC 0.6 B, Parakeet RNNT 1.1 B, Parakeet RNNT 0.6 B 以及 Parakeet-TDT…

]]>

9349

如何通過四個步驟將 RAG 應用程序從試點階段轉變為生產階段 http://www.open-lab.net/zh-cn/blog/how-to-take-a-rag-application-from-pilot-to-production-in-four-steps/ Mon, 18 Mar 2024 07:06:29 +0000 http://www.open-lab.net/zh-cn/blog/?p=9399 Continued]]> 生成式 AI 具有改變各個行業的巨大潛力。人類工作者已經開始使用大型語言模型(LLM) 來解釋、推理和解決復雜的認知任務。檢索增強生成(RAG) 將 LLM 與數據連接起來，通過允許 LLM 訪問準確和最新的信息，擴展了 LLM 的功能。許多企業已經開始探索 RAG 如何幫助他們實現業務流程自動化和挖掘數據以獲取見解。盡管大多數企業已經啟動了多個與生成式 AI 用例一致的試點，據估計，其中 90%的模型在不久的將來不會超出評估階段。將引人入勝的 RAG 演示轉化為可提供真正商業價值的生產服務仍然具有挑戰性。在這篇博客中，我們將介紹 NVIDIA AI 如何通過四個步驟幫助您將 RAG 應用從試點階段遷移到生產階段。開發和部署生產就緒型企業 RAG 工作流會遇到許多障礙。 IT 管理員面臨著與 LLM 安全性、可用性、可移植性和數據治理相關的挑戰。

]]>

9399

使用 ASR 自定義增強電話客戶服務 http://www.open-lab.net/zh-cn/blog/enhancing-phone-customer-service-with-asr-customization/ Tue, 09 Jan 2024 05:30:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=8647 Continued]]> 自動語音識別 (ASR) 是正確理解他人和進行自然對話的核心。為了打造客戶主導的語音助手并通過電話實現客戶服務交互自動化，公司必須通過理解、同理心和清晰度等品質來解決贏得呼叫者信任的獨特挑戰。從語音識別的角度來看，受電話限制的語音本質上具有挑戰性。背景噪聲、糟糕的通話質量以及各種方言和口音使得理解調用者的詞語變得困難。傳統語言理解系統通常對語音的支持有限，人們的說話方式與他們的輸入或文本方式存在本質區別。在本文中，我們將討論 PolyAI 與第三方、開箱即用和內部定制的探索之旅 NVIDIA Riva ASR 解決方案。我們的目標是提供語音體驗，讓呼叫者可以以自己喜歡的方式說話，并在對話的每個回合中提供有用的自然響應。內部微調的 Riva ASR 模型顯著提高了各種不同驗證真實客戶呼叫數據集的準確性。

]]>

8647

在 NVIDIA ACE 中使用 AI 動畫和語音功能打造逼真的虛擬形象 http://www.open-lab.net/zh-cn/blog/create-lifelike-avatars-with-ai-animation-and-speech-features-in-nvidia-ace/ Mon, 04 Dec 2023 05:32:41 +0000 http://www.open-lab.net/zh-cn/blog/?p=8416 Continued]]> NVIDIA 今日公布了 NVIDIA Avatar Cloud Engine (ACE) 一系列技術，增強了 AI 虛擬形象和數字人的真實感和可訪問性。這些新的動畫和語音功能實現了更自然的對話和情感表達。開發者現在可以使用新的云 API 在應用中輕松實現和擴展智能虛擬形象，包括自動語音識別 (ASR)、文本轉語音 (TTS)、神經機器翻譯 (NMT) 和 Audio2Face (A2F)。借助這些高級功能，搶先體驗計劃的創作者可以利用 NVIDIA 技術快速構建新一代虛擬形象體驗。現在，使用 Unreal Engine 5 等一些熱門渲染工具，可以更輕松地在任何地方大規模構建和部署數字人。使用最新的 ACE AI 動畫功能和微服務(包括新添加的 A2F 情感支持)構建更具表現力的數字人。現在還提供用于身體、

]]>

8416

借助 AI 驅動的記錄和總結功能提高會議工作效率 http://www.open-lab.net/zh-cn/blog/boost-meeting-productivity-with-ai-powered-note-taking-and-summarization/ Wed, 29 Nov 2023 06:04:50 +0000 http://www.open-lab.net/zh-cn/blog/?p=8343 Continued]]> 會議是組織的生命線。它們促進協作和明智的決策。它們通過頭腦風暴和解決問題來消除孤島。它們還可以推進戰略目標和規劃。然而，實現這些目標的主要會議(尤其是涉及跨職能團隊和外部參與者的會議)可能具有挑戰性。需要將人員管理技能和熟練的文檔策略獨特地結合起來，以無縫促進決策制定并確保有效的會后任務執行。本文介紹了基于云原生微服務的架構，adam.ai。通過 NVIDIA 初創加速計劃，adam.ai 成為了一個全面的會議管理平臺，旨在為組織、團隊和專業人士的整個會議生命周期提供支持。該架構提供高可擴展性、低延遲和經濟高效的在線會議自動記錄服務。具體而言，adam.ai 利用了 NVIDIA 的技術。人工做筆記需要實時決定要記錄的信息和省略的信息。此外，即使對最熟練的人來說，在積極參與和細致的筆記之間取得平衡也會帶來挑戰。專注所需的耐久性，尤其是在漫長或復雜的討論期間，

]]>

8343

視頻：從研究到實際生產應用，探索語音 AI http://www.open-lab.net/zh-cn/blog/video-exploring-speech-ai-from-research-to-practical-production-applications/ Tue, 07 Nov 2023 04:24:26 +0000 http://www.open-lab.net/zh-cn/blog/?p=8160 Continued]]> 將語音和翻譯 AI 集成到我們的日常生活中，正在迅速重塑我們的互動方式（從虛擬助理到呼叫中心和增強現實體驗）。語音 AI 日為語音 AI 的新進展提供了寶貴見解，展示了這項技術如何應對現實世界中的挑戰。在前三次語音 AI 日會議中，卡內基梅隆大學，Hippocratic AI，Suno 以及 Wipro 討論了如何部署語音 AI 以更大限度地提高業務投資。在 Omniverse 中，語音 AI 的研究正在革新多語言應用程序的開發，使其能夠同時理解不同的語言。先進的多語言語音技術使您能夠創建應用程序，并提供超越文化和國家邊界的卓越用戶體驗。如需深入了解語音和翻譯 AI (包括自動語音識別 (ASR)、文本轉語音 (TTS) 和神經網絡機器翻譯 (NMT))的最新趨勢和技術，請參閱以下資源： …

]]>

8160

如何在公有云中部署 NVIDIA Riva 語音和翻譯 AI http://www.open-lab.net/zh-cn/blog/how-to-deploy-riva-speech-and-translation-ai-in-the-public-cloud/ Tue, 29 Aug 2023 05:09:02 +0000 http://www.open-lab.net/zh-cn/blog/?p=7711 Continued]]> 從初創企業到大型企業，企業都使用云市場來尋找快速轉型所需的新解決方案。云市場是在線店面，客戶可以在這里購買具有靈活計費模式的軟件和服務，包括現收現付、訂閱和私人協商優惠。企業進一步受益于以折扣價承諾的支出，以及節省時間和資源的單一賬單和發票來源。 NVIDIA Riva 是最先進的語音和翻譯人工智能服務，在最大的云服務提供商（CSP）市場上：公司可以快速找到高性能的語音和翻譯人工智能，這些人工智能可以完全定制，以最適合對話管道，如問答服務、智能虛擬助理、數字化身和不同語言的聯絡中心代理助理。組織可以在公共云上快速運行 Riva ，或將其與云提供商服務集成，從而獲得更大的信心和更好的投資回報。有了云計算中的 NVIDIA Riva ，您現在可以通過瀏覽器即時訪問 Riva 語音和翻譯 AI——即使您目前沒有自己的內部部署 GPU ——加速的基礎設施。

]]>

7711

人人超碰97caoporen国产