Sirisha Rella – NVIDIA 技術博客

Sirisha Rella – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞和內容。 Thu, 12 Dec 2024 04:07:56 +0000 zh-CN hourly 1 196178272 生成式 AI 智能體開發者競賽：入門技巧 http://www.open-lab.net/zh-cn/blog/generative-ai-agents-developer-contest-top-tips-for-getting-started/ Wed, 29 May 2024 06:34:26 +0000 http://www.open-lab.net/zh-cn/blog/?p=10133 Continued]]> 參加我們將于 6 月 17 日結束的比賽，使用前沿技術展示您的創新成果：由生成式 AI 驅動的應用程序，該應用程序使用 NVIDIA 和 LangChain 技術。為了讓您開始，我們將探索一些用于激發您的創意之旅的應用程序，同時分享提示和最佳實踐，幫助您在開發過程中取得成功。生成式 AI 智能體有許多不同的實際應用。在之前的比賽中開發的智能體或 Copilot 應用會根據應用的隱私、安全和計算要求使用大型語言模型 (LLM) 或小型語言模型 (SLM)。這些示例包括：開發者可以在游戲、醫療健康、媒體和娛樂等領域創建用于內容生成的應用。其他選項包括總結、在醫療健康領域，客服人員可以通過分析患者癥狀、病史和臨床數據來幫助診斷疾病，例如問答環節。其中許多想法都適用于您的數據和您想要解決的問題 – 無論是使用客服改善每周的雜貨店購物，

]]>

10133

語音 AI 聚焦：在 AR 眼鏡上可視化口語和聲音 http://www.open-lab.net/zh-cn/blog/speech-ai-spotlight-visualizing-spoken-language-and-sounds-on-ar-glasses/ Fri, 23 Jun 2023 06:28:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=7276 Continued]]> 音頻可以包括各種各樣的聲音，從人類的語音到狗叫聲和警笛聲等非語音。當為聽力困難的人設計可訪問的應用程序時，該應用程序應該能夠識別聲音和理解語音。這項技術將幫助聾人或重聽人可視化語音，如人類對話和非語音。將語音和聲音 AI 結合在一起，你可以將可視化效果疊加到 AR 眼鏡上，讓用戶可以看到和解釋他們在其他情況下聽不到的聲音。根據世界衛生組織估計，全球約有 15 億人（占全球人口的近 20%）患有聽力損失。到 2050 年，這一數字可能會上升至 25 億。 Cochl，一家總部位于圣何塞的 NVIDIA 合作伙伴，是一家深度科技初創公司，使用聲音 AI 技術來理解任何類型的音頻。他們也是 NVIDIA 的Inception Program的成員，通過提供尖端技術和 NVIDIA 專家，幫助初創公司更快地構建解決方案。該平臺可以識別 37 種環境聲音，該公司更進一步，

]]>

7276

探索文本到語音技術的獨特應用 http://www.open-lab.net/zh-cn/blog/exploring-unique-applications-of-text-to-speech-technology/ Wed, 12 Apr 2023 02:27:26 +0000 http://www.open-lab.net/zh-cn/blog/?p=6665 Continued]]> 當你與虛擬助理互動時，你會發出命令并得到口頭回應。為這種生成的語音響應提供動力的技術被稱為文本到語音（ TTS ）。 TTS 應用程序非常有用，因為它們為使用輔助設備的用戶提供了更大的內容可訪問性。使用最新的 TTS 技術，您只需幾分鐘的音頻數據就可以生成合成語音——這非常適合那些失聲且錄音有限的人。事實上，由于最近的進展， TTS 的使用正在增長：這篇文章解釋了語音合成系統是如何操作的，然后介紹了 TTS 技術的常見和新穎用途。顧名思義，文本到語音，或語音合成，是將書面文本轉換為自然的、類似人類的語音音頻的過程。在端到端 TTS 管道中，這些是使這種轉換成為可能的關鍵模型和模塊： TTS 通常是諸如虛擬助理之類的應用的最后階段，數字人和服務機器人. 在2021 IDC Conversational AI Adoption Survey在…

]]>

6665

深度學習正在改變 ASR 和 TTS 算法 http://www.open-lab.net/zh-cn/blog/deep-learning-is-transforming-asr-and-tts-algorithms/ Fri, 16 Dec 2022 06:25:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5881 Continued]]> 語音是與 AI 驅動的應用程序通信的主要手段之一。從虛擬助理到數字化身，基于語音的界面正在改變我們通常與智能設備的交互方式。深度學習用于語音識別和語音合成的技術有助于改善用戶體驗，如人類般的響應和自然的音調。如果您計劃構建和部署支持語音 AI 的應用程序，本文將概述自動語音識別（ ASR ）和文本到語音（ TTS ）技術如何因深度學習而發展。我還提到了當今現代應用中使用的一些流行的、最先進的 ASR 和 TTS 架構。無論你是在元宇宙中與數字人交談，還是在聯絡中心與真人交談，每天都會產生數千億分鐘的音頻。語音 AI 可以幫助自動化所有這些音頻分鐘。 Speech AI 包括 ASR 、 TTS 和相關任務等技術。有趣的是，這些技術并不新鮮，而且已經存在了 50 年。今天，使用深度學習技術開發的 ASR 算法可以針對特定領域的行話、語言、

]]>

5881

語音 AI 技術實現與服務機器人的自然交互 http://www.open-lab.net/zh-cn/blog/speech-ai-technology-enables-natural-interactions-with-service-robots/ Fri, 16 Dec 2022 06:19:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5878 Continued]]> 從在餐廳點菜、為您提供食物，到與您一起玩撲克，服務機器人正變得越來越普遍。在全球范圍內，您可以在醫院、機場和零售店找到這些服務機器人。根據 Gartner 的數據，到 2030 年， 80% 的人每天都會與智能機器人打交道，由于智能機器人在智能、社交互動和人類增強能力方面的進步，比現在的不足 10% 有所提高。準確的語音人工智能或語音 AI 接口能夠快速理解人類并模仿人類的語音，這對于服務機器人的易用性至關重要。開發人員正在將自動語音識別 (ASR) 和文本轉語音（ TTS ）與服務機器人集成，以實現基本技能，例如理解和用自然語言回答人類問題。這些基于語音的技術構成了語音 AI 。這篇文章解釋了 ASR 和 TTS 如何在服務機器人應用中使用。我提供了一個演練，說明如何根據機器人的部署位置，使用針對行業特定術語、語言和方言的語音 AI 軟件工具定制它們。

]]>

5878

語音 AI 聚焦：用虛擬代理重塑客戶服務 http://www.open-lab.net/zh-cn/blog/speech-ai-spotlight-reimagine-customer-service-with-virtual-agents/ Wed, 14 Dec 2022 06:10:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5929 Continued]]> 虛擬代理或語音助手已經存在了很長一段時間。但在過去的十年中，隨著 AI 的使用，它們的實用性和流行性急劇增長。根據 Gartner 的數據，到 2025 年，虛擬助理將自動完成呼叫中心代理 75% 的任務，而 2021 這一比例為 30% 。這將為聯絡中心代理和客戶帶來更好的體驗。從醫療保健到金融服務，人工智能改變了客戶服務，使其更加高效和個性化。今天的虛擬代理由 speech AI 技術提供支持，不僅可以在聯絡中心處理重復的客戶請求，還可以幫助人工代理比以往更快地解決復雜問題。 NVIDIA 合作伙伴 Gridspace 位于洛杉磯，是一家語音技術和人工智能軟件公司，創建了聽起來自然的虛擬代理和語音機器人，以增強客戶服務體驗。他們也是 NVIDIA Inception Program 的成員，

]]>

5929

使用語音 AI 開發下一代擴展現實應用程序 http://www.open-lab.net/zh-cn/blog/developing-the-next-generation-of-extended-reality-applications-with-speech-ai/ Wed, 14 Sep 2022 04:03:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5263 Continued]]> 由于身臨其境的體驗，虛擬現實（ VR ）、增強現實（ AR ）和混合現實（ MR ）環境可以感覺到難以置信的真實。在擴展現實（ XR ）應用程序中添加基于語音的界面可以使其看起來更真實。想象一下，用你的聲音在一個環境中導航，或者發出口頭命令，然后聽到虛擬實體的回應。在 XR 環境中利用 speech AI 的可能性非常誘人。語音人工智能技能，如自動語音識別（ ASR ）和文本到語音轉換（ TTS ），使 XR 應用程序變得有趣、易于使用，并使有語音障礙的用戶更容易使用。本文介紹了如何在 XR 應用程序中使用語音識別，也稱為語音到文本（ STT ），有哪些 ASR 自定義，以及如何開始在 Windows 應用程序中運行 ASR 服務。在當今大多數 XR 體驗中，用戶無法使用鍵盤或鼠標。 VR 游戲控制器通常與虛擬體驗交互的方式既笨拙又不直觀，當您沉浸在環境中時，

]]>

5263

自動語音識別技術基本指南 http://www.open-lab.net/zh-cn/blog/essential-guide-to-automatic-speech-recognition-technology/ Mon, 08 Aug 2022 05:50:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4847 Continued]]> 對語音識別技術感興趣？報名參加 NVIDIA 語音 AI 通訊 . 在過去十年中，人工智能支持的語音識別系統逐漸成為我們日常生活的一部分，從語音搜索到聯絡中心、汽車、醫院和餐館的虛擬助手。這些語音識別的發展得益于深度學習的進步。許多行業的開發人員現在使用自動語音識別（ ASR ）來提高業務生產率、應用程序效率，甚至數字訪問能力。繼續閱讀，了解更多關于 ASR 的信息，它是如何工作的，用例，進步等等。語音識別技術能夠將口語（音頻信號）轉換為通常用作命令的書面文本。當今最先進的軟件可以準確地處理各種語言方言和口音。例如， ASR 通常出現在面向用戶的應用程序中，如虛擬代理、實時字幕和臨床筆記。準確的語音轉錄對于這些用例至關重要。語音 AI 領域的開發者也使用替代術語描述語音識別，如 ASR 、語音到文本（ STT…

]]>

4847

用 Riva 和 NeMo Megatron 的最新版本構建多種語言的語音 AI ，并訓練大型語言模型 http://www.open-lab.net/zh-cn/blog/build-speech-ai-in-multiple-languages-and-train-large-language-models-with-the-latest-from-riva-and-nemo-megatron/ Mon, 28 Mar 2022 02:43:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=3490 Continued]]> 上周， NVIDIA GTC 2022 宣布了對 Riva 的重大更新。 Riva 是一個用于構建語音 AI 應用程序的 SDK ，以及一個付費的 Riva 企業產品。 NeMo Megatron 是一個用于訓練大型語言模型的框架，它的幾項關鍵更新也已宣布。 Riva 為跨多種語言的實時自動語音識別（ ASR ）和文本到語音（ TTS ）技能提供了世界級的準確性，并且可以部署在 prem 上、任何云中。 Snap 、 T-Mobile 、 RingCentral 和 Kore 等行業領導者。 ai 在客戶服務中心應用程序、轉錄和虛擬助理中使用 Riva 。最新的 Riva 版本包括：在手機上嘗試 Riva 自動語音識別 Riva 產品頁面 . Defined.ai 與 NVIDIA 合作，為希望購買跨語言、

]]>

3490

使用多種語言創建語音 AI 應用程序，并使用 Riva 自定義文本到語音 http://www.open-lab.net/zh-cn/blog/create-speech-ai-applications-in-multiple-languages-and-customize-text-to-speech-with-riva/ Mon, 07 Feb 2022 07:05:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=3005 Continued]]> 本月， NVIDIA 在 Riva 中發布了西班牙語、德語和俄語的世界級語音到文本模型，為企業在全球部署語音 AI 應用提供了動力。此外，企業現在可以使用 Riva 的可定制文本到語音管道創建富有表現力的語音界面。 NVIDIA Riva 是一款 GPU 加速語音 AI SDK ，用于開發實時應用程序，如實時字幕、向基于文本的聊天機器人添加語音，以及在呼叫中心生成實時轉錄。為了便于實施， Riva 在 NGC 目錄中提供了高度精確的預訓練模型。和 TAO 工具包，這些模型可以為任何行業定制，包括電信、金融、統一通信即服務和醫療保健。開發者可以使用 Riva 開箱即用地部署這些模型。它們經過優化，可以在云、數據中心和邊緣在不到 300 毫秒的時間內實時運行。從呼叫中心到虛擬助手，每一個對話人工智能應用程序都嚴重依賴于自動語音識別。企業可以通過 Riva 英語、

]]>

3005

語音識別：使用 NVIDIA Riva 生成準確的轉錄 http://www.open-lab.net/zh-cn/blog/speech-recognition-generating-accurate-transcriptions-using-riva/ Wed, 10 Nov 2021 07:11:46 +0000 http://www.open-lab.net/zh-cn/blog/?p=2141 Continued]]> 這篇文章是關于生成準確語音轉錄的系列文章的一部分。有關第 2 部分，請參見Speech Recognition: Customizing Models to Your Domain Using Transfer Learning. 有關第 3 部分，請參見Speech Recognition: Deploying Models to Production. 每天，電信、金融和統一通信即服務（ UCaaS ）等行業都會產生數百萬分鐘的音頻。這些音頻會議記錄可以轉錄，以便為呼叫中心代理提供實時建議，從客戶呼叫記錄中提取見解，或在視頻會議中生成實時字幕。自動語音識別使您能夠將語音轉錄成文本。生成高質量的文字記錄是一項挑戰，因為這些技能需要理解特定于行業的術語、數百到數千分鐘特定于領域的培訓音頻以及實時運行的管道。 NVIDIA Riva 語音識別是一項技術，

]]>

2141

語音識別：使用遷移學習為您的領域定制模型 http://www.open-lab.net/zh-cn/blog/speech-recognition-customizing-models-to-your-domain-using-transfer-learning/ Tue, 09 Nov 2021 10:37:40 +0000 http://www.open-lab.net/zh-cn/blog/?p=2131 Continued]]> 這篇文章是關于生成準確語音轉錄的系列文章的一部分。有關第 1 部分，請參見 Speech Recognition: Generating Accurate Transcriptions Using NVIDIA Riva. 有關第 3 部分，請參見 Speech Recognition: Deploying Models to Production. 從頭開始創建一個新的人工智能深度學習模型是一個非常耗費時間和資源的過程。解決這個問題的一個常見方法是采用遷移學習。為了使這一過程更加簡單，NVIDIA TAO Toolkit，它可以將工程時間框架從 80 周縮短到 8 周。 TAO 工具包支持計算機視覺和對話 AI （ ASR 和 NLP ）用例。在本文中，我們將介紹以下主題：跟隨 download the Jupyter notebook。

]]>

2131

語音識別：將模型部署到生產中 http://www.open-lab.net/zh-cn/blog/speech-recognition-deploying-models-to-production/ Tue, 09 Nov 2021 10:33:28 +0000 http://www.open-lab.net/zh-cn/blog/?p=2128 Continued]]> 這篇文章是關于生成準確語音轉錄的系列文章的一部分。有關第 1 部分，請參見Speech Recognition: Generating Accurate Transcriptions Using NVIDIA Riva.有關第 2 部分，請參見Speech Recognition: Customizing Models to Your Domain Using Transfer Learning NVIDIA Riva 是一款 AI 語音 SDK ，用于開發實時應用程序，如轉錄、虛擬助理和聊天機器人。它包括 NGC 中經過預訓練的最先進模型、用于在您的領域中微調模型的 TAO 工具包以及用于高性能推理的優化技能。 Riva 使使用 NGC 中的 Riva 容器或使用 Helm chart 在 Kubernetes 上部署模型變得更簡單。 Riva 技能由 NVIDIA TensorRT…

]]>

2128

ICYMI ：在 NVIDIA GTC 主題演講上宣布的新 AI 工具和技術 http://www.open-lab.net/zh-cn/blog/icymi-new-ai-tools-and-technologies-announced-at-nvidia-gtc-keynote/ Tue, 09 Nov 2021 08:20:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2161 Continued]]> 今年 11 月在 NVIDIA GTC 上，宣布了新的軟件工具，幫助開發人員構建實時語音應用程序，優化各種用例的推理，優化推薦系統的開源互操作性，等等。觀看首席執行官黃延森（ Jensen Huang ）的主題演講，了解 NVIDIA 的最新突破。今天， NVIDIA 推出了具有自定義語音功能的新版NVIDIA Riva。通過 Riva 定制語音，企業可以輕松創建代表其品牌的獨特語音。 NVIDIA 還宣布了 Riva Enterprise ，這是一個付費項目，包括為希望大規模部署 Riva 的企業提供 NVIDIA 專家支持。工作量較小的客戶和合作伙伴可以繼續免費使用 Riva 。 Riva 亮點包括：今天從NGC catalog中嘗試 Riva ，并注冊NVIDIA Riva Enterprise興趣列表。

]]>

2161

使用 NVIDIA TensorRT 加速深度學習推理（更新） http://www.open-lab.net/zh-cn/blog/speeding-up-deep-learning-inference-using-tensorrt-updated/ Tue, 20 Jul 2021 09:19:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=1124 Continued]]> 這篇文章于 2021 年 7 月 20 日更新，以反映 NVIDIA TensorRT 8 . 0 的更新。 NVIDIA TensorRT 是一個用于深度學習推理的 SDK 。 TensorRT 提供了 API 和解析器，可以從所有主要的深度學習框架中導入經過訓練的模型。然后，它生成可在數據中心以及汽車和嵌入式環境中部署的優化運行時引擎。這篇文章簡單介紹了如何使用 TensorRT 。您將學習如何在 GPU 上部署深度學習應用程序，從而提高吞吐量并減少推理過程中的延遲。它使用 C ++示例來將您通過將 PyTorch 模型轉換成 ONX 模型并將其導入 TensorRT ，應用優化，并為數據中心環境生成高性能運行時引擎。 TensorRT 同時支持 C ++和 Python ；如果您使用其中任何一個，此工作流討論可能會很有用。如果您喜歡使用 Python ，

]]>

1124

人人超碰97caoporen国产