預訓練模型 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 12 Dec 2024 04:08:26 +0000 zh-CN hourly 1 196178272 借助 NVIDIA NeMo Curator 簡化域自適應預訓練的數據處理 http://www.open-lab.net/zh-cn/blog/streamlining-data-processing-for-domain-adaptive-pretraining-with-nvidia-nemo-curator/ Tue, 10 Sep 2024 08:23:26 +0000 http://www.open-lab.net/zh-cn/blog/?p=11291 Continued]]> 大語言模型(LLMs)的領域自適應預訓練(DAPT)是構建特定領域模型的重要步驟。與現成的開放或商用模型相比,這些模型在特定領域任務中表現出更出色的功能。 最近,NVIDIA 發表了一篇關于 ChipNeMo 的論文,這是一系列面向工業芯片設計應用的基礎模型。ChipNeMo 模型是通過在專有數據和公開可用的特定領域數據的語料庫上對 Llama 2 系列模型進行持續預訓練的結果。 本文將以 ChipNeMo 數據集為例,介紹使用 NVIDIA NeMo Curator 從各種公開來源收集訓練數據集的過程。 NeMo Curator 是一個 GPU 加速的數據 curation 庫,通過準備用于預訓練和自定義的大規模、高質量數據集來提高生成式 AI 模型的性能。 NeMo Curator 通過擴展到多節點多 GPU (MNMG) 來縮短數據處理時間,

Source

]]>
11291
NVIDIA TAO 5.5 帶來新基礎模型和增強訓練功能 http://www.open-lab.net/zh-cn/blog/new-foundational-models-and-training-capabilities-with-nvidia-tao-5-5/ Wed, 28 Aug 2024 06:23:45 +0000 http://www.open-lab.net/zh-cn/blog/?p=11078 Continued]]> NVIDIA TAO 是一個旨在簡化和加速 AI 模型開發和部署的框架。它使您能夠使用預訓練模型,使用自己的數據微調模型,并針對特定用例優化模型,而無需深入的 AI 專業知識。 TAO 與 NVIDIA 硬件和軟件生態系統無縫集成,提供用于高效 AI 模型訓練、部署和推理的工具,并加速 AI 驅動應用程序的上市時間。 圖 1 顯示 TAO 支持 PyTorch、TensorFlow 和 ONNX 等框架。訓練可以在多個平臺上完成,而生成的模型可以部署在 GPU、CPU、MCU 和 DLA 等各種推理平臺上。 NVIDIA 剛剛發布了 TAO 5.5,引入了先進的基礎模型和突破性功能,可增強任何 AI 模型開發。新的功能包括以下內容: 在本文中,我們將更詳細地討論 TAO 5.5 的新功能。 NVIDIA TAO 集成了開源、基礎和專有模型,

Source

]]>
11078
借助 NVIDIA NeMo Parakeet-TDT 提高 ASR 的準確性和速度 http://www.open-lab.net/zh-cn/blog/turbocharge-asr-accuracy-and-speed-with-nvidia-nemo-parakeet-tdt/ Thu, 18 Apr 2024 05:52:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=9683 Continued]]> NVIDIA NeMo 是一個端到端平臺,用于在任何云和本地的任何地方大規模開發多模式生成 AI 模型,最近發布了 Parakeet-TDT。Parakeet-TDT 是這個新成員的其中一個,它與之前的最佳模型相比,具有更高的準確度和 64%的速度。NeMo ASR Parakeet 模型系列包括 Parakeet-TDT 和 NeMo ASR Parakeet 模型系列。 本文介紹了 Parakeet-TDT,以及如何使用它生成具有高實時系數的高精度轉錄,在一秒內處理 10 分鐘的音頻。 Parakeet-TDT (令牌和持續時間傳感器) 是 NVIDIA 開發的一種新型序列建模架構。最新研究表明,與傳統傳感器相比較,TDT 模型在速度和識別精度的方面有顯著提高。有關更多詳細信息,請參閱 此論文。 從正確性角度來看,具有 11 億個參數的 Parakeet-TDT…

Source

]]>
9683
NVIDIA NeMo Canary 模型的語音識別和翻譯新標準 http://www.open-lab.net/zh-cn/blog/new-standard-for-speech-recognition-and-translation-from-the-nvidia-nemo-canary-model/ Thu, 18 Apr 2024 05:46:47 +0000 http://www.open-lab.net/zh-cn/blog/?p=9677 Continued]]> NVIDIA NeMo 是一種端到端平臺,用于開發和部署多模態 生成式 AI 模型。它可以隨時隨地進行大規模模型部署。 NeMo 團隊最近發布了 Canary,這是一款多語言模型,可轉錄英語、西班牙語、德語和法語的語音,并添加標點符號和大寫。Canary 還提供英語和其他三種受支持語言之間的雙向翻譯。 本文詳細介紹了 Canary 模型及其使用方法。 Canary 模型在 HuggingFace 開放 ASR 排行榜 中平均詞錯誤率 (WER) 為 6.67%,其性能遠遠優于所有其他開源模型。 Canary 結合使用公共和內部數據進行訓練。它使用 85000 小時的轉錄語音來學習語音識別。為了教授 Canary 翻譯,我們使用 NVIDIA NeMo 文本翻譯模型生成所有支持語言的原始轉錄的翻譯。 盡管數據量比類似規模的模型少一個數量級,

Source

]]>
9677
借助 NVIDIA NeMo 開發自定義企業生成式 AI http://www.open-lab.net/zh-cn/blog/develop-custom-enterprise-generative-ai-with-nvidia-nemo/ Wed, 27 Mar 2024 08:11:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=9456 Continued]]> 生成式 AI 在計算領域發生了翻身,為人類以自然、直觀的方式與計算機交互打開了新方式。對于企業來說,生成式 AI 的潛力巨大。他們可以利用其豐富的數據集簡化耗時的任務,從文本摘要和翻譯到見解預測和內容生成。然而,他們也面臨著采用挑戰。 例如,云服務通過使用通用型 大型語言模型 簡化了探索。然而,這些功能可能并不總是與企業需求保持一致,因為模型基于廣泛的數據集而不是特定領域的數據進行訓練,這可能會導致安全漏洞。 因此,組織正在使用大量開源工具構建定制解決方案。從驗證兼容性到提供自己的技術支持,這可以延長在企業中成功采用生成式 AI 的時間。 專為企業開發,NVIDIA NeMo 是一個端到端平臺,可隨時隨地構建自定義生成式 AI 應用。它提供了一套先進的微服務,可實現完整的工作流程,從自動化分布式數據處理,到使用復雜的 3D 并行技術訓練大規模定制模型,

Source

]]>
9456
NVIDIA 語音和翻譯 AI 模型在速度和準確性方面創下記錄 http://www.open-lab.net/zh-cn/blog/nvidia-speech-and-translation-ai-models-set-records-for-speed-and-accuracy/ Tue, 19 Mar 2024 06:06:09 +0000 http://www.open-lab.net/zh-cn/blog/?p=9349 Continued]]> NVIDIA 開發的語音和翻譯 AI 模型正在推動性能和創新的發展。NVIDIA Parakeet 自動語音識別 (ASR) 模型系列以及 NVIDIA Canary 多語種、多任務 ASR 和翻譯模型在 Hugging Face 開放 ASR 排行榜 上表現出色。此外,多語種 P-Flow 基于文本轉語音 (TTS) 的模型在 LIMMITS 的 24 項挑戰 中取得了優異成績,使用簡短的音頻片段將說話者的聲音合成為 7 種語言。 本文詳細介紹了其中一些出色的模型如何在語音和翻譯 AI (從語音識別到自定義語音創建) 領域開辟新天地。 NVIDIA Parakeet 模型系列包括 Parakeet CTC 1.1 B, Parakeet CTC 0.6 B, Parakeet RNNT 1.1 B, Parakeet RNNT 0.6 B 以及 Parakeet-TDT…

Source

]]>
9349
NVIDIA NeMo ASR 發布了對荷蘭語和波斯語的新支持 http://www.open-lab.net/zh-cn/blog/new-support-for-dutch-and-persian-released-by-nemo-asr/ Tue, 16 Jan 2024 06:28:44 +0000 http://www.open-lab.net/zh-cn/blog/?p=8754 Continued]]> 為了打破語音識別的障礙,NVIDIA NeMo自豪地推出了專為 AI 領域中常被忽視的荷蘭語和波斯語設計的預訓練模型。 這些模型采用了最新推出的 FastConformer 技術,并結合 CTC 和傳感器目標進行同步訓練,以最大程度提升每個模型的準確性。 自動語音識別(ASR)是對話式 AI 應用的基礎技術,因為它使用戶能夠使用語音與 AI 系統和其他設備進行通信。它還廣泛用于對話式分析和音頻字幕,從而實現更廣泛的內容訪問。 Persian 模型基于 Mozilla 的 Common Voice (MCV) 15.0 波斯數據構建。值得注意的是,兩種技術對于提高模型性能至關重要:一是從預訓練的英語檢查點初始化,二是自定義訓練測試分割,這允許額外使用 300 小時的 MCV 驗證記錄。 此模型在評估中實現了 13.16%的詞錯誤率 (WER) 和 3.85%

Source

]]>
8754
設計深度網絡以處理其他深度網絡 http://www.open-lab.net/zh-cn/blog/designing-deep-networks-to-process-other-deep-networks/ Thu, 17 Aug 2023 06:08:52 +0000 http://www.open-lab.net/zh-cn/blog/?p=7685 Continued]]> 深度神經網絡(DNN)是從數據中學習函數的首選模型,如圖像分類器或語言模型。近年來,深度模型由于表示數據樣本本身而變得流行起來。例如,可以訓練深度模型來表示圖像、3D 對象或場景,這種方法稱為Implicit Neural Representations(另請參閱 Neural Radiance Fields和Instant NGP)。請繼續閱讀一些對預訓練的深度模型執行操作的示例,這些模型包括作為函數的 DNN 和作為數據的 DNN。 假設您有一個使用隱式神經表示(INR)或神經輻射場(NeRF)表示的 3D 對象數據集。通常,您可能希望“編輯”對象以更改其幾何圖形或修復錯誤和異常。‌例如,拆除一個杯子的把手或使所有車輪比 NeRF 重建的車輪更對稱。 不幸的是,使用 INR 和 NeRF 的一個主要挑戰是,它們必須在編輯之前進行渲染。實際上,

Source

]]>
7685
自定義 AI 模型:使用 NVIDIA Triton 部署字符檢測和識別模型 http://www.open-lab.net/zh-cn/blog/create-custom-character-detection-and-recognition-models-with-nvidia-tao-part-2/ Tue, 15 Aug 2023 04:50:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=7599 Continued]]> NVIDIA Triton Inference Server 通過使團隊能夠在任何基于 GPU 或 CPU 的基礎設施上部署、運行和擴展經過訓練的 ML 或 DL 模型,簡化和標準化 AI 推理。它幫助開發人員在云端、本地、邊緣和嵌入式設備上提供高性能推理。 nvOCDR 庫已集成到 Triton 中進行推理。nvOCDR 庫封裝了用于光學字符檢測和識別(OCD/OCR)的整個推理管道。該庫使用在 TAO Toolkit 上訓練的 OCDNet 和 OCRNet 模型。想要了解更多詳細信息,請參閱 nvOCDR 文檔。 本文是關于使用 NVIDIA TAO 和預訓練模型創建和部署自定義 AI 模型以準確檢測和識別手寫文本的系列文章的一部分。第一部分 解釋了如何使用 TAO 對字符檢測和識別模型進行訓練和微調。本部分將引導您完成使用 NVIDIA Triton 部署模型的步驟。

Source

]]>
7599
自定義 AI 模型:使用 NVIDIA TAO 訓練字符檢測和識別模型 http://www.open-lab.net/zh-cn/blog/create-custom-character-detection-and-recognition-models-with-nvidia-tao-part-1/ Tue, 15 Aug 2023 04:44:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=7596 Continued]]> 光學字符檢測(OCD)和光學字符識別(OCR)是用于從圖像中提取文本的計算機視覺技術。不同行業的使用情況各不相同,包括從掃描的文檔或帶有手寫文本的表格中提取數據、自動識別車牌、根據序列號對履行中心中的箱子或物體進行分類、根據零件號識別組裝線上要檢查的部件等。 OCR 應用于許多行業,包括金融服務、醫療保健、物流、工業檢測和智能城市。OCR 通過自動化手動任務,提高了企業的生產效率和運營效率。 為了有效,OCR 必須達到或超過人類水平的準確性。由于它所涉及的獨特用例,它本身就很復雜。例如,當 OCR 分析文本時,文本可以在字體、大小、顏色、形狀和方向上變化,可以是手寫的,也可以具有其他噪聲,如部分遮擋。在測試環境中微調模型對于保持高精度和降低錯誤率變得極其重要。 NVIDIA TAO 工具包 是一個低代碼人工智能工具包,

Source

]]>
7596
借助 NVIDIA NeMo 解鎖企業級 LLM 的力量 http://www.open-lab.net/zh-cn/blog/unlocking-the-power-of-enterprise-ready-llms-with-nemo/ Tue, 08 Aug 2023 04:40:21 +0000 http://www.open-lab.net/zh-cn/blog/?p=7539 Continued]]> 生成式人工智能開啟了一個新的計算時代,這個時代有望徹底改變人機交互。這一技術的前沿是大語言模型 (LLMs),它使企業能夠使用大型數據集進行識別、匯總、翻譯、預測和生成內容。然而,生成式人工智能對企業的潛力也伴隨著相當多的挑戰。 由通用 LLM 提供的云服務提供了一種快速入門生成人工智能技術的方法。然而,這些服務通常專注于一系列廣泛的任務,而不是針對特定領域的數據進行培訓,這限制了它們對某些企業應用程序的價值。這導致許多組織構建自己的解決方案——這是一項艱巨的任務——因為他們必須將各種開源工具拼湊在一起,確保兼容性,并提供自己的支持。 NVIDIA NeMo 提供了一個端到端平臺,旨在簡化企業 LLM 的開發和部署,開創人工智能能力的變革時代。NeMo 為您提供創建企業級、可生產的定制 LLM 的基本工具。NeMo 工具套件簡化了數據管理、培訓和部署過程,

Source

]]>
7539
用于醫學圖像分析的可視化基礎模型 http://www.open-lab.net/zh-cn/blog/visual-foundation-models-for-medical-image-analysis/ Tue, 20 Jun 2023 04:55:04 +0000 http://www.open-lab.net/zh-cn/blog/?p=7202 Continued]]> 3D 醫學圖像的分析對于提高臨床反應、疾病跟蹤和患者的整體生存率至關重要。深度學習模型構成了現代 3D 醫學表示學習的支柱,實現了對臨床決策至關重要的精確空間上下文測量。這些 3D 表示對醫學成像數據(例如 CT 或 MRI 掃描)的生理特性高度敏感。 醫學圖像分割是醫學應用的一項關鍵視覺任務,是測量醫學圖像各個方面的定量工具。為了改進對這些圖像的分析,基礎模型的開發和應用在醫學圖像分析領域變得越來越重要。 基礎模型是最新一代人工智能神經網絡,在廣泛多樣的數據集上進行訓練,可用于廣泛的任務或目標。 隨著大型語言模型展示其處理一般任務的能力,視覺基礎模型正在出現,以解決各種問題,包括分類、檢測和分割。 基礎模型可以用作強大的人工智能神經網絡,用于分割醫學圖像中的不同目標。它為醫學成像應用開辟了一個可能性的世界,增強了分割任務的有效性,并實現了更準確的測量。

Source

]]>
7202
用圖神經網絡開發基于物理的機器學習模型 http://www.open-lab.net/zh-cn/blog/develop-physics-informed-machine-learning-models-with-graph-neural-networks/ Tue, 06 Jun 2023 06:41:39 +0000 http://www.open-lab.net/zh-cn/blog/?p=7154 Continued]]> NVIDIA PhysicsNeMo是一個框架,用于構建、訓練和微調物理系統的深度學習模型,也稱為物理知情機器學習(physics ML)模型。現在,PhysicsNeMo 以開源軟件(OSS)的形式提供(基于 Apache 2.0 許可證),以支持不斷增長的物理 ML 社區。 最新的 PhysicsNeMo 軟件更新 23 . 05 版匯集了新的功能,使研究界和行業能夠通過開源協作將研究開發成企業級解決方案 此次更新的兩個主要組成部分是 1 )支持包括圖神經網絡( GNN )和遞歸神經網絡( RNN )在內的新網絡架構,以及 2 )提高人工智能從業者的易用性。 GNN 正在改變研究人員如何應對涉及復雜圖形結構的挑戰,例如物理、生物學和社交網絡中遇到的挑戰。通過利用圖的結構, GNN 能夠根據圖中節點之間的關系進行學習和預測。 通過 GNN 的應用,

Source

]]>
7154
人人超碰97caoporen国产