Triton – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Wed, 11 Jun 2025 06:27:22 +0000
zh-CN
hourly
1
196178272 -
使用?NVIDIA Triton?和?TensorRT-LLM?部署?TTS?應用的最佳實踐
http://www.open-lab.net/zh-cn/blog/nvidia-triton-tensorrt-llm-tts-app/
Wed, 11 Jun 2025 06:00:07 +0000
http://www.open-lab.net/zh-cn/blog/?p=14158
Continued]]>
Text-to-Speech (TTS) 是智能語音技術的核心組成部分。隨著大模型時代的到來,TTS 模型的參數量和計算量持續增長,如何高效利用 GPU 部署 TTS 模型,構建低延遲、高吞吐的生產級應用,已成為開發者日益關注的焦點。 本文將圍繞兩款 Github 社區流行的 TTS 模型——F5-TTS 和 Spark-TTS——詳細介紹運用 NVIDIA Triton 推理服務器和 TensorRT-LLM 框架實現高效部署的實踐經驗,包括部署方案的實現細節、具體使用方法及最終的推理效果等。開發者可根據不同的應用場景選擇合適的方案,并可利用性能分析工具調整配置,以最大化利用 GPU 資源。 當前主流的 TTS 大模型大致可分為兩類:非自回歸擴散模型和自回歸 LLM 模型。非自回歸擴散模型因其解碼速度快,易于實現高吞吐性能;
Source
]]>
14158
-
在 GPU 上高效部署語音 AI 模型
http://www.open-lab.net/zh-cn/blog/deploy-speech-ai-model-on-gpu/
Tue, 09 Jan 2024 02:37:24 +0000
http://www.open-lab.net/zh-cn/blog/?p=8605
Continued]]>
導讀:本文將介紹如何在GPU上高效地部署語音AI模型,主要內容如下: ▌語音AI部署背景介紹 首先介紹下搭建語音識別和語音生成類工作管線的痛點與挑戰。 首先,AI模型的部署,有端上和云上兩種不同的方式。在云上部署時,常常面對服務延時高、并發路數低、部署成本高等問題。我們希望通過更有效地利用 GPU 資源,服務更多的用戶,同時降低部署成本。 第二,語音 AI 與傳統的 CV 算法不同,其工作管線更為復雜,通常包含多個模塊,并且需要處理流之間的狀態維護、管理以及狀態切換。這使得開發難度大,有時簡單的 Python 腳本調度并不高效。 第三,當前許多從事語音 AI 服務的實踐者開始探索使用大型模型,如Whisper,來完成語音識別和語音模型的任務。然而,使用大型模型帶來了更大的計算需求,因此迫切需要提升大語言模型在 ASR、
Source
]]>
8605
-
使用 Kubernetes 自動縮放 NVIDIA Riva 部署,用于生產中的語音 AI
http://www.open-lab.net/zh-cn/blog/autoscaling-nvidia-riva-deployment-with-kubernetes-for-speech-ai-in-production/
Thu, 12 Jan 2023 09:23:46 +0000
http://www.open-lab.net/zh-cn/blog/?p=6167
Continued]]>
語音 AI 應用,從呼叫中心到虛擬助理,嚴重依賴 自動語音識別 ( ASR )和文本轉語音( TTS )。 ASR 可以處理音頻信號并將音頻轉錄為文本。語音合成或 TTS 可以實時從文本中生成高質量、自然的聲音。語音 AI 的挑戰是實現高精度并滿足實時交互的延遲要求。 NVIDIA Riva 是一個 GPU 加速 SDK ,用于構建語音 AI 應用程序,使用最先進的模型實現高精度,同時提供高吞吐量。 Riva 提供世界級的語音識別和文本到語音技能,以與人類進行多種語言的交互。 Riva 可以部署在內部 、云中、邊緣或嵌入式平臺上,您可以擴展 Riva 服務器,以低延遲處理數百或數千個實時流。這篇文章一步一步地指導您如何使用 Kubernetes 進行自動縮放和 Traefik 進行負載平衡來大規模部署 Riva 服務器。 Riva 可以針對不同應用程序(如聊天機器人、
Source
]]>
6167
-
使用 NVIDIA Triton 推理服務器從公共庫 ModelZoo 部署不同的 AI 模型類別
http://www.open-lab.net/zh-cn/blog/deploying-diverse-ai-model-categories-from-public-model-zoo-using-nvidia-triton-inference-server/
Mon, 19 Dec 2022 06:03:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5874
Continued]]>
如今,針對 TensorFlow 、 ONNX 、 PyTorch 、 Keras 、 MXNet 等不同框架,出現了大量最先進( SOTA )模型和建模解決方案的實現。如果您對數據集中已有的類別感興趣,可以使用這些模型進行開箱即用的推斷,也可以通過微調將其嵌入到定制業務場景中。 本文概述了流行的 DL 模型類別,并介紹了使用 NVIDIA Triton Inference Server 部署這些模型的端到端示例。客戶端應用程序可以按原樣使用,也可以根據用例場景進行修改。我將帶領您使用 Triton 推理服務器完成圖像分類、對象檢測和圖像分割公共模型的部署。本文中概述的步驟也可以應用于其他開源模型,只需稍作修改。 近年來,深度學習( DL )取得了顯著進步。通過解決多年來困擾人工智能界的眾多復雜問題,它徹底改變了人工智能的未來。目前,它正被用于醫療保健、航空航天工程、
Source
]]>
5874
-
自動駕駛的最優 AI 推理流水線設計
http://www.open-lab.net/zh-cn/blog/designing-an-optimal-ai-inference-pipeline-for-autonomous-driving/
Wed, 30 Nov 2022 10:52:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5788
Continued]]>
自動駕駛汽車必須能夠快速準確地檢測物體,以確保其駕駛員和道路上其他駕駛員的安全。由于自動駕駛( AD )和視覺檢查用例中對實時處理的需求,具有預處理和后處理邏輯的多個 AI 模型 組合在流水線中,并用于 機器學習 ( ML )推理。 流水線的每一步都需要加速,以確保低延遲工作流。延遲是獲取推理響應所需的時間。更快地處理 AD 數據將能夠更有效地分析和使用信息,創造更安全的駕駛環境。任何一個方面的延遲都會降低整個管道的速度。 為了實現低延遲推理工作流,電動汽車制造商 NIO 將 NVIDIA Triton 推理服務器集成到其 AD 推理管道中。 NVIDIA Triton 推理服務器是一個開源的多幀推理服務軟件。 這篇文章解釋了 NIO 如何在 GPU 上使用 NVIDIA Triton 協調其圖像預處理、后處理和 AI 模型的管道。它還展示了 NIO 如何減少網絡傳輸,
Source
]]>
5788
-
使用 NVIDIA NeMo Megatron 部署 1.3B GPT-3 型號
http://www.open-lab.net/zh-cn/blog/deploying-a-1-3b-gpt-3-model-with-nvidia-nemo-megatron/
Fri, 04 Nov 2022 02:53:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5642
Continued]]>
Large language models ( LLMs)是一些能夠理解書面語言的最先進的深度學習算法。許多現代 LLM 是使用谷歌 2017 年在 Attention Is All You Need 研究論文中引入的 transformer 網絡構建的。 NVIDIA NeMo Megatron 是一個端到端 GPU 加速框架,用于訓練和部署高達萬億參數的基于 transformer 的 LLM 。 2022 年 9 月, NVIDIA 宣布 NeMo Megatron is now available in Open Beta ,允許您使用自己的數據訓練和部署 LLM 。通過此次發布,幾個經過預訓練的檢查點已上傳到 HuggingFace ,使任何人都可以使用 GPU 在本地部署 LLM 。 本文介紹了使用 NeMo Megatron下載、
Source
]]>
5642
-
使用 NVIDIA Triton 推理服務器支持的 Amazon SageMaker 多模型端點在同一 GPU 上運行多個 AI 模型
http://www.open-lab.net/zh-cn/blog/run-multiple-ai-models-on-same-gpu-with-sagemaker-mme-powered-by-triton/
Tue, 25 Oct 2022 05:25:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5560
Continued]]>
去年 11 月,AWS 在 Amazon SageMaker 中集成了開源推理服務軟件 NVIDIA Triton Inference Server。機器學習 (ML) 團隊可以使用 Amazon SageMaker 作為一項完全托管的服務來大規模構建和部署 ML 模型。 通過這種集成,數據科學家和 ML 工程師可以輕松地使用 NVIDIA Triton 多框架、高性能推理,與 Amazon SageMaker 完全管理的模型部署一起使用。 今天, AWS 在 Amazon 上宣布了 Amazon GPU 多模型端點( MME )。 MME 提供在 GPU 上運行多個深度學習或 ML 模型的能力,同時使用 Triton 推理服務器。有關詳細信息,請參見 Run Multiple Deep Learning Models on GPU with Amazon…
Source
]]>
5560
-
NADP + Triton: 搭建穩定高效的推理平臺
http://www.open-lab.net/zh-cn/blog/nadp-triton-recommender-system/
Thu, 29 Sep 2022 02:20:45 +0000
http://www.open-lab.net/zh-cn/blog/?p=5296
Continued]]>
業務背景 蔚來自動駕駛研發平臺(NADP)是著力服務于自動駕駛核心業務方向的研發平臺。平臺化的推理能力作為常規機器學習平臺的重要組成部分,也是NADP所重點建設和支持的能力之一。 NADP所支持的推理業務,整體上有以下幾個特性: 經過我們從眾多方案的對比和篩選,NVIDIA Triton 能夠在上述每一個方面都能滿足我們的需求。比如,Triton 支持多個模型或模塊進行DAG式的編排。 其云原生友好的部署方式,能夠很輕的做到多GPU、多節點的擴展。從生產級別實踐的穩定性角度來看,即便是一個優秀的開源方案,作為平臺級的核心組件,也是需要長時間,高強度的驗證,才能放心的推廣到最核心業務上。經過半年的使用,Triton證明了自己,在保證強大功能的前提下,也提供了很好的穩定性。另外,NVIDIA有著優秀的生態建設與社區支持 ,提供了優質的Triton社區內容和文檔共享,
Source
]]>
5296
-
GTC 推出新語言、增強網絡安全和醫療 AI 框架
http://www.open-lab.net/zh-cn/blog/new-languages-enhanced-cybersecurity-and-medical-ai-frameworks-unveiled-at-gtc/
Wed, 21 Sep 2022 09:14:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5211
Continued]]>
在 GTC 2022 年, NVIDIA 對 AI 框架進行了增強,以構建實時語音 AI 應用程序、大規模設計高性能推薦者、將 AI 應用于網絡安全挑戰、創建 AI 驅動的醫療設備等。 展示了真實世界中的端到端 AI 框架,突出了客戶和合作伙伴在其行業和領域中的領先地位。當組織將其 AI 框架投入生產時, NVIDIA AI Enterprise 的企業支持可確保這些 AI 應用程序的成功。 觀看創始人兼首席執行官黃(黃仁勛)的 主題演講 ,探索 NVIDIA ( NVIDIA )的最新人工智能技術進步,并學習將人工智能投入生產的新方法。 NVIDIA 宣布對 Riva 進行新的更新,這是一個用于支持 speech AI 框架的加速 SDK 。構建和部署具有世界級自動語音識別( ASR )和文本到語音( TTS )功能的完全可定制實時 AI 管道:在云端、邊緣、
Source
]]>
5211
-
新的 SDK 加速 AI 研究、計算機視覺、數據科學等
http://www.open-lab.net/zh-cn/blog/new-sdks-accelerating-ai-research-computer-vision-data-science-and-more/
Wed, 21 Sep 2022 09:09:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5207
Continued]]>
NVIDIA 向開發者透露了 AI 軟件套件的主要更新,包括 JAX 、 NVIDIA CV-CUDA 和 NVIDIA RAPIDS 。 要了解 NVIDIA SDK 的最新進展,請觀看首席執行官黃延森(黃仁勛)發布的 主題演講 。 就在今天的 GTC 2022 年, NVIDIA 在 NVIDIA -AI 上引入了 JAX ,這是其 GPU 加速深度學習框架的最新補充。 JAX 是一個快速增長的高性能數值計算和機器學習研究庫。 JAX 可以自動區分本機 Python 函數并實現類似 NumPy 的 API 。 只需幾行代碼, JAX 就可以跨多節點和多 GPU 系統進行分布式訓練,并通過 NVIDIA GPU 上的 XLA 優化內核加速性能。 使用 JAX 實現的一些研究領域包括變壓器、強化學習、流體動力學、地球物理建模、藥物發現、計算機視覺等。
Source
]]>
5207
-
使用 NVIDIA Triton 解決人工智能推斷挑戰
http://www.open-lab.net/zh-cn/blog/solving-ai-inference-challenges-with-nvidia-triton/
Wed, 21 Sep 2022 08:33:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5193
Continued]]>
在生產中部署 AI 模型以滿足 AI 驅動應用程序的性能和可擴展性要求,同時保持低基礎設施成本是一項艱巨的任務。 加入 NVIDIA Triton 和 NVIDIA TensorRT 社區 ,了解最新的產品更新、錯誤修復、內容、最佳實踐等。 這篇文章為您提供了在生產中部署模型時常見的 AI 推理挑戰的高層次概述,以及目前如何跨行業使用 NVIDIA Triton 推理服務器 來解決這些問題。 我們還研究了 Triton 中最近添加的一些功能、工具和服務,它們簡化了生產中 AI 模型的部署,具有最佳性能和成本效益。 人工智能推理是運行人工智能模型進行預測的生產階段。推斷很復雜,但了解影響應用程序速度和性能的因素將有助于您在生產中交付快速、可擴展的 AI 。 這些因素的結合使得在生產中部署 AI 推理具有一定的挑戰性,
Source
]]>
5193
-
使用 FasterTransformer 和 Triton 推理服務器加速大型?Transformer?模型的推理
http://www.open-lab.net/zh-cn/blog/accelerated-inference-for-large-transformer-models-using-nvidia-fastertransformer-and-nvidia-triton-inference-server/
Wed, 03 Aug 2022 02:56:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=4781
Continued]]>
這是討論 NVIDIA FasterTransformer 庫的兩部分系列的第一部分,該庫是用于對任意大小(多達數萬億個參數)的Transformer進行分布式推理的最快庫之一。它提供了 FasterTransformer 的概述,包括使用該庫的好處。 使用 FasterTransformer 和 Triton 推理服務器部署 GPT-J 和 T5(第 2 部分)是一個指南,說明了使用 FasterTransformer 庫和 Triton 推理服務器以具有張量并行性的最佳方式為 T5-3B 和 GPT-J 6B 模型提供服務。 Transformers 是當今最具影響力的 AI 模型架構之一,正在塑造未來 AI 研發的方向。它們最初是作為自然語言處理 (NLP) 的工具而發明的,現在幾乎用于任何 AI 任務,包括計算機視覺、自動語音識別、分子結構分類和金融數據處理。
Source
]]>
4781
-
使用 FasterTransformer 和 Triton 推理服務器部署 GPT-J 和 T5
http://www.open-lab.net/zh-cn/blog/deploying-gpt-j-and-t5-with-fastertransformer-and-triton-inference-server/
Wed, 03 Aug 2022 02:41:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=4768
Continued]]>
這是關于 NVIDIA 工具的兩部分系列的第二部分,這些工具允許您運行大型Transformer模型以加速推理。 有關 NVIDIA FasterTransformer 庫(第 1 部分)的介紹,請參閱 使用 FasterTransformer 和 Triton 推理服務器加速大型 Transformer 模型的推理 這篇文章是大型Transformer模型(例如 EleutherAI 的 GPT-J 6B 和 Google 的 T5-3B)的優化推理指南。這兩種模型在許多下游任務中都表現出良好的效果,并且是研究人員和數據科學家最常用的模型之一。 NVIDIA Triton 中的 NVIDIA FasterTransformer (FT) 允許您以類似且簡單的方式運行這兩個模型,同時提供足夠的靈活性來集成/組合其他推理或訓練管道。
Source
]]>
4768
-
Transformers4Rec :使用 NVIDIA Merlin 庫構建基于會話的建議
http://www.open-lab.net/zh-cn/blog/transformers4rec-building-session-based-recommendations-with-an-nvidia-merlin-library/
Tue, 28 Jun 2022 05:32:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=4461
Continued]]>
推薦系統可以幫助您發現新產品并做出明智的決策。然而,在許多依賴于推薦的領域,如電子商務、新聞和流媒體服務,用戶可能無法跟蹤,或者根據當時的需求,用戶的口味可能會迅速變化。 基于會話的推薦系統是順序推薦的一個子領域,最近很受歡迎,因為它們可以在任何給定的時間點根據用戶的情況和偏好推薦項目。在這些領域中,捕捉用戶對項目的短期或上下文偏好很有幫助。 在本文中,我們將介紹基于會話的推薦任務,該任務由 NVIDIA Merlin 平臺的 Transformers4Rec 庫支持。然后,我們展示了使用 Transformers4Rec 在幾行代碼中創建基于會話的推薦模型是多么容易,最后,我們展示了使用 NVIDIA Merlin 庫的端到端基于會話的推薦管道。 NVIDIA Merlin 團隊于 ACM RecSys’21 發布,
Source
]]>
4461
-
實現智能制造的工業推理管道
http://www.open-lab.net/zh-cn/blog/implementing-industrial-inference-pipelines-for-smart-manufacturing/
Mon, 23 May 2022 04:38:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=4158
Continued]]>
在制造過程和質量管理體系中實施質量控制和保證方法,確保最終產品滿足客戶要求和滿意度。表面缺陷檢測系統可以使用圖像數據進行檢查和分類,以提供高質量的產品。隨著人工智能的發展,實時缺陷檢測通過傳感器和 預訓練 AI 模型 實現了優化和自動化,以實現可復制的質量控制。 瑞典公司 Sansera(柴油發動機連桿生產商)與 AI 公司 Aixia 合作,使用計算機視覺在其生產過程中實施自動化的深度學習缺陷檢測系統。 在公共汽車、卡車和船舶上發現,制造生產過程中的每根桿都必須具有高質量、一致性、可靠性和文件記錄。高分辨率視覺檢測系統必須實時檢測和分類缺陷。 為了幫助 Sansera 實現其制造過程質量控制目標,愛夏公司在 Sansera 的生產現場開發并部署了一條棒材檢驗和檢測管道。管道的核心是 NVIDIA Triton 推理服務器 部署在 NVIDIA Jetson…
Source
]]>
4158
人人超碰97caoporen国产