NLP – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 01 Feb 2024 04:21:10 +0000 zh-CN hourly 1 196178272 使用全卷積網絡在 Transformer 模型中模擬注意力機制 http://www.open-lab.net/zh-cn/blog/emulating-the-attention-mechanism-in-transformer-models-with-a-fully-convolutional-network/ Mon, 29 Jan 2024 04:14:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=8866 Continued]]> 在過去十年中,深度學習技術在計算機視覺 (CV) 任務中的應用大幅增加。卷積神經網絡 (CNN) 一直是這場革命的基石,展示了卓越的性能,并在視覺感知方面實現了顯著進步。 通過采用本地化濾鏡和分層架構,CNN 已證明擅長捕捉空間層次結構、檢測模式,以及從圖像中提取信息豐富的特征。例如,在用于圖像識別的深度殘差學習中,卷積層表現出平移等方差,使其能夠泛化為平移和空間轉換。然而,盡管 CNN 取得了成功,但其在捕獲遠程依賴項和全局上下文理解方面仍存在局限性,這在需要精細理解的復雜場景或任務中變得越來越重要。 相比之下,Transformer 架構在計算機視覺領域中正變得越來越有吸引力,這得益于其在自然語言處理 (NLP) 領域的成功應用。正如論文Attention Is All You Need中所展示的,Transformer 通過避免局部卷積,提供了一種自注意力機制,

Source

]]>
8866
使用 ASR 自定義增強電話客戶服務 http://www.open-lab.net/zh-cn/blog/enhancing-phone-customer-service-with-asr-customization/ Tue, 09 Jan 2024 05:30:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=8647 Continued]]> 自動語音識別 (ASR) 是正確理解他人和進行自然對話的核心。為了打造客戶主導的語音助手并通過電話實現客戶服務交互自動化,公司必須通過理解、同理心和清晰度等品質來解決贏得呼叫者信任的獨特挑戰。 從語音識別的角度來看,受電話限制的語音本質上具有挑戰性。背景噪聲、糟糕的通話質量以及各種方言和口音使得理解調用者的詞語變得困難。傳統語言理解系統通常對語音的支持有限,人們的說話方式與他們的輸入或文本方式存在本質區別。 在本文中,我們將討論 PolyAI 與第三方、開箱即用和內部定制的探索之旅 NVIDIA Riva ASR 解決方案。我們的目標是提供語音體驗,讓呼叫者可以以自己喜歡的方式說話,并在對話的每個回合中提供有用的自然響應。內部微調的 Riva ASR 模型顯著提高了各種不同驗證真實客戶呼叫數據集的準確性。

Source

]]>
8647
視頻:從研究到實際生產應用,探索語音 AI http://www.open-lab.net/zh-cn/blog/video-exploring-speech-ai-from-research-to-practical-production-applications/ Tue, 07 Nov 2023 04:24:26 +0000 http://www.open-lab.net/zh-cn/blog/?p=8160 Continued]]> 將語音和翻譯 AI 集成到我們的日常生活中,正在迅速重塑我們的互動方式(從虛擬助理到呼叫中心和增強現實體驗)。語音 AI 日為語音 AI 的新進展提供了寶貴見解,展示了這項技術如何應對現實世界中的挑戰。 在前三次語音 AI 日會議中,卡內基梅隆大學,Hippocratic AI,Suno 以及 Wipro 討論了如何部署語音 AI 以更大限度地提高業務投資。 在 Omniverse 中,語音 AI 的研究正在革新多語言應用程序的開發,使其能夠同時理解不同的語言。先進的多語言語音技術使您能夠創建應用程序,并提供超越文化和國家邊界的卓越用戶體驗。 如需深入了解語音和翻譯 AI (包括自動語音識別 (ASR)、文本轉語音 (TTS) 和神經網絡機器翻譯 (NMT))的最新趨勢和技術,請參閱以下資源: …

Source

]]>
8160
語音識別模型對新領域的受控適應 http://www.open-lab.net/zh-cn/blog/controlled-adaptation-of-speech-recognition-models-to-new-domains/ Fri, 03 Feb 2023 03:13:02 +0000 http://www.open-lab.net/zh-cn/blog/?p=6221 Continued]]> 你有沒有試過在你的口音上微調語音識別系統,結果發現,雖然它能很好地識別你的聲音,但卻無法檢測到別人說的話?這在經過數十萬小時語音訓練的語音識別系統中很常見。 在大規模 自動語音識別 ( ASR )中,系統可能在許多但不是所有場景中都表現良好。例如,在嘈雜的環境中,它可能需要更高的精度。或者,它可能需要為具有濃重口音或獨特方言的用戶進行調整。 在這種情況下,一種簡單的方法是根據特定領域的樣本對模型進行微調。盡管如此,這個過程可能會嚴重損害模型在一般語音上的準確性,因為它會過度填充新的域。 本文提出了一種選擇模型的簡單方法,該模型可以在 adapter modules 和 基于傳感器的語音識別系統 的幫助下平衡普通語音的識別精度,并改進自適應域上的識別。 神經網絡通常由多個模塊組成;例如在語音識別或自然語言處理( NLP )中通常使用的編碼器和解碼器模塊。

Source

]]>
6221
NGC 的新功能:大型語言模型、數字孿生、數字生物學等 SDK http://www.open-lab.net/zh-cn/blog/new-on-ngc-sdks-for-llms-digital-twins-biology-and-more/ Wed, 02 Nov 2022 06:14:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5596 Continued]]> NVIDIA 宣布在 NGC catalog 中提供新的 SDK ,這是 GPU 優化的深度學習、機器學習和 HPC 應用程序的中心。有了高性能軟件 容器 、 預訓練模型 、行業專用 SDK 和 Jupyter 筆記本 , AI 開發人員和數據科學家可以簡化和降低端到端工作流的復雜性。 本文概述了 NGC 目錄中的新服務和更新服務,以及最新的高級 SDK ,以幫助您簡化工作流并更快地構建解決方案。 大型語言模型( LLM )的最新進展推動了 NLP 應用程序的最新性能,如醫療保健中的虛擬文員、交互式虛擬助理等。 NVIDIA NeMo Megatron 是一個用于訓練和部署 LLM 的端到端框架,其參數高達數萬億,現已在 NGC 目錄中公開測試。它包括用于自動化分布式數據處理的端到端工作流;培訓大規模定制的 GPT-3 、 T5 和多語言 T5 ( mT5 )模型;

Source

]]>
5596
在 RAPIDS libcudf 中掌握字符串轉換 http://www.open-lab.net/zh-cn/blog/mastering-string-transformations-in-rapids-libcudf/ Mon, 17 Oct 2022 02:22:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5468 Continued]]> 字符串數據的高效處理對于許多數據科學應用至關重要。為了從字符串數據中提取有價值的信息, RAPIDS libcudf 提供了加速字符串數據轉換的強大工具。 lib cuDF 是一個 C ++ GPU DataFrame 庫,用于加載、連接、聚合和過濾數據。 在數據科學中,字符串數據表示語音、文本、遺傳序列、日志記錄和許多其他類型的信息。在為機器學習和特征工程處理字符串數據時,必須經常對數據進行規范化和轉換,然后才能將其應用于特定用例。 lib cuDF 提供了通用 API 和設備端實用程序,以支持廣泛的自定義字符串操作。 本文演示了如何使用 lib cuDF 通用 API 巧妙地轉換字符串列。您將獲得關于如何使用自定義內核和 lib cuDF 設備端實用程序解鎖峰值性能的新知識。本文還向您介紹了如何最好地管理 GPU 內存和有效地構造 lib cuDF 列以加快字符串轉換的示例。

Source

]]>
5468
使用 FasterTransformer 和 Triton 推理服務器部署 GPT-J 和 T5 http://www.open-lab.net/zh-cn/blog/deploying-gpt-j-and-t5-with-fastertransformer-and-triton-inference-server/ Wed, 03 Aug 2022 02:41:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4768 Continued]]> 這是關于 NVIDIA 工具的兩部分系列的第二部分,這些工具允許您運行大型Transformer模型以加速推理。 有關 NVIDIA FasterTransformer 庫(第 1 部分)的介紹,請參閱 使用 FasterTransformer 和 Triton 推理服務器加速大型 Transformer 模型的推理 這篇文章是大型Transformer模型(例如 EleutherAI 的 GPT-J 6B 和 Google 的 T5-3B)的優化推理指南。這兩種模型在許多下游任務中都表現出良好的效果,并且是研究人員和數據科學家最常用的模型之一。 NVIDIA Triton 中的 NVIDIA FasterTransformer (FT) 允許您以類似且簡單的方式運行這兩個模型,同時提供足夠的靈活性來集成/組合其他推理或訓練管道。

Source

]]>
4768
NVIDIA AI 平臺為大型語言模型帶來巨大收益 http://www.open-lab.net/zh-cn/blog/nvidia-ai-platform-delivers-big-gains-for-large-language-models/ Thu, 28 Jul 2022 06:36:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4739 Continued]]> 隨著大型語言模型( LLM )的規模和復雜性不斷增長, NVIDIA 今天宣布更新 NeMo Megatron 框架,提供高達 30% 的訓練速度。 這些更新包括兩種開拓性技術和一個超參數工具,用于優化和擴展任何數量 GPU 上的 LLM 訓練,提供了使用 NVIDIA AI 平臺訓練和部署模型的新功能。 BLOOM ,世界上最大的開放科學、開放獲取多語言模型,具有 1760 億個參數,最近 在 NVIDIA AI 平臺上接受培訓 ,支持 46 種語言和 13 種編程語言的文本生成。 NVIDIA AI 平臺還支持最強大的 transformer 語言模型之一,具有 5300 億個參數, Megatron-Turing NLG 模型 (MT-NLG). LLM 是當今最重要的先進技術之一,涉及數萬億個從文本中學習的參數。然而,開發它們是一個昂貴、耗時的過程,

Source

]]>
4739
使用 LaunchPad 上的 TAO 工具包體驗人工智能模型創建的簡易性 http://www.open-lab.net/zh-cn/blog/experience-the-ease-of-ai-model-creation-with-the-tao-toolkit-on-launchpad/ Thu, 28 Jul 2022 06:33:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4736 Continued]]> 從頭開始構建人工智能模型非常困難,需要大量的數據和一支數據科學家隊伍。和 NVIDIA TAO 工具包 ,您可以使用轉移學習的功能,使用自己的數據微調 NVIDIA 預訓練模型,并優化推理,而無需人工智能專業知識或大型訓練數據集。 你現在可以通過 NVIDIA LaunchPad 體驗 TAO 工具包,這是一個免費的程序,提供短期訪問大量動手實驗室的機會。 LaunchPad 幫助開發人員、設計師和 IT 專業人員加快現代數據密集型應用程序的創建和部署。 LaunchPad 是享受和體驗 NVIDIA 硬件和軟件堆棧的變革力量的最佳方式,它們協同工作,為您的 AI 應用程序提供動力。 這個 TAO LaunchPad 工具包實驗室 擁有體驗微調和部署對象檢測應用程序的端到端過程所需的一切。 目標檢測是一種流行的計算機視覺任務,

Source

]]>
4736
為醫療保健開發 NLP 應用程序 http://www.open-lab.net/zh-cn/blog/developing-nlp-applications-to-enhance-clinical-experiences-and-accelerate-drug-discovery/ Wed, 27 Jul 2022 06:27:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4705 Continued]]> 自然語言處理( NLP )可以定義為人工智能( AI )、計算機科學和計算語言學的結合,以理解人類交流并從非結構化口語或書面材料中提取意義。 在過去幾年中,醫療保健的非線性規劃用例有所增加,以通過語言理解和預測分析加快治療學的發展,提高患者護理質量。 醫療保健行業產生大量非結構化數據,但如果不找到以可計算形式構造和表示該數據的方法,就很難獲得見解。開發人員需要將非結構化數據轉換為結構化數據的工具,以幫助醫療保健組織利用相關見解,改善醫療保健服務和患者護理。 Transformer – 基于文本的自然語言處理已成為基于文本的醫療保健工作流性能的范式轉變。由于其多功能性, NLP 幾乎可以構建任何專有或公共數據,以 Spark 洞察醫療保健,從而產生各種下游應用,直接影響患者護理或擴大和加速藥物發現。 非線性規劃在加速小分子藥物發現方面發揮著關鍵作用。

Source

]]>
4705
新的在線課程提供使用 AWS 和 NVIDIA 進行機器學習的實踐 http://www.open-lab.net/zh-cn/blog/new-online-course-offers-hands-on-machine-learning-using-aws-and-nvidia/ Fri, 12 Nov 2021 07:13:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2322 Continued]]> AWS 和 NVIDIA 合作開發了一個在線課程,通過 NVIDIA Amazon 提供的 EC2 實例,指導您完成 Amazon GPU 的簡單易學和實用介紹。本課程以服務的實際應用為基礎,讓您有機會從機器學習開發方面的專家那里親身學習。通過簡單而直接的方法,一旦完成,您將有信心和能力立即開始您的 ML 項目的工作。 機器學習可能是復雜、乏味和耗時的。 AWS 和 NVIDIA 提供了最快、最有效和易于使用的 ML 工具,幫助您開始您的 ML 項目。 Amazon SageMaker 通過匯集一系列專門為 ML 而構建的功能,幫助數據科學家和開發人員快速準備、構建、培訓和部署高質量的 ML 模型。 Amazon EC2 實例由 NVIDIA GPU 提供支持與 NVIDIA 軟件一起,在云中提供高性能、[ZFBB]優化實例,以實現高效的模型訓練和經濟高效的模型推理托管。

Source

]]>
2322
人人超碰97caoporen国产