Inference – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 09 Apr 2025 05:55:50 +0000 zh-CN hourly 1 196178272 通過 AI 的全棧優化在 MLPerf 推理 v3.0 中創下新紀錄 http://www.open-lab.net/zh-cn/blog/setting-new-records-in-mlperf-inference-v3-0-with-full-stack-optimizations-for-ai/ Wed, 05 Apr 2023 03:03:51 +0000 http://www.open-lab.net/zh-cn/blog/?p=6677 Continued]]> 目前最令人興奮的計算應用程序依賴于在復雜的人工智能模型上進行訓練和運行推理,通常是在要求苛刻的實時部署場景中。需要高性能、加速的人工智能平臺來滿足這些應用程序的需求,并提供最佳的用戶體驗 新的人工智能模型不斷被發明,以實現新的功能,而人工智能驅動的應用程序往往依賴于許多這樣的模型協同工作。這意味著人工智能平臺必須能夠運行最廣泛的工作負載,并在所有工作負載上提供優異的性能。MLPerf Inference– 現在, v3.0 的第七版是一套值得信賴的、經過同行評審的標準化推理性能測試,代表了許多這樣的人工智能模型。 人工智能應用程序無處不在,從最大的超大規模數據中心到緊湊的邊緣設備。 MLPerf 推理同時代表數據中心和邊緣環境。它還代表了一系列真實世界的場景,如離線(批處理)處理、延遲受限的服務器、單流和多流場景。

Source

]]>
6677
使用 Dataiku 和 NVIDIA Data Science 進行主題建模和圖像分類 http://www.open-lab.net/zh-cn/blog/topic-modeling-and-image-classification-with-dataiku-and-nvidia-data-science/ Tue, 04 Apr 2023 03:09:47 +0000 http://www.open-lab.net/zh-cn/blog/?p=6680 Continued]]> 這個Dataiku platform日常人工智能簡化了深度學習。用例影響深遠,從圖像分類到對象檢測和自然語言處理( NLP )。 Dataiku 可幫助您對代碼和代碼環境進行標記、模型培訓、可解釋性、模型部署以及集中管理。 本文深入探討了用于圖像分類和對象檢測的高級 Dataiku 和 NVIDIA 集成。它還涵蓋了實時推理的深度學習模型部署以及如何使用開源RAPIDS和 cuML 庫,用于客戶支持 Tweet 主題建模用例。 NVIDIA 提供硬件 (NVIDIA A10 Tensor Core GPUs,在這種情況下)和各種 OSS(CUDA,RAPIDS) 完成工作 請注意,本文中的所有 NVIDIA AI 軟件都可以通過NVIDIA AI Enterprise,一個用于生產人工智能的安全端到端軟件套件,由 NVIDIA 提供企業支持 本節介紹使用 Dataiku 和…

Source

]]>
6680
利用三維合成數據進行自舉目標檢測模型訓練 http://www.open-lab.net/zh-cn/blog/bootstrapping-object-detection-model-training-with-3d-synthetic-data/ Wed, 29 Mar 2023 06:27:19 +0000 http://www.open-lab.net/zh-cn/blog/?p=6615 Continued]]> 訓練人工智能模型需要大量的數據。獲取大量訓練數據可能很困難、耗時且成本高昂。此外,所收集的數據可能無法涵蓋各種角落的情況,從而使人工智能模型無法準確預測各種場景。 Synthetic data提供了一種替代真實世界數據的方法,使人工智能研究人員和工程師能夠引導人工智能模型訓練。除了引導模型訓練外,研究人員還可以通過改變許多不同的參數(如位置、顏色、對象大小或照明條件)來快速生成新的數據集,以生成有助于創建通用模型的不同數據 這篇文章向你展示了如何使用一個模型,使用從NVIDIA Omniverse Replicator,一個以編程方式生成物理上精確的 3D 合成數據的 SDKpretrained model使用這些數據,而不是收集真實世界的數據。使用合成數據,可以創建所需的確切場景,甚至可以添加新元素或調整場景,從而進一步迭代對象檢測管道 要生成合成數據,

Source

]]>
6615
使用新的 NVIDIA Triton 和 NVIDIA TensorRT 功能為您的 AI 推理提供動力 http://www.open-lab.net/zh-cn/blog/power-your-ai-inference-with-new-nvidia-triton-and-nvidia-tensorrt-features/ Thu, 23 Mar 2023 06:40:56 +0000 http://www.open-lab.net/zh-cn/blog/?p=6624 Continued]]> NVIDIA AI 推理軟件包括NVIDIA Triton 推理服務器,開源推理服務軟件,以及NVIDIA TensorRT,一個用于高性能深度學習推理的 SDK ,包括深度學習推理優化器和運行時。它們為所有人工智能深度學習用例提供加速推理。 NVIDIA Triton 還支持傳統的機器學習( ML )模型和 CPU 上的推理。這篇文章解釋了該軟件最近添加的關鍵新功能。 NVIDIA Triton 中的新功能包括 Py Triton 本機 Python 支持、模型分析器更新和 NVIDIA Triton 管理服務。 PyTriton 功能提供了一個簡單的接口,可以在 Python 代碼中使用 NVIDIA Triton InferenceServer 。 Py Triton 使 Python 開發人員能夠使用 NVIDIA Triton…

Source

]]>
6624
NVIDIA L4 GPU 實現 AI 視頻和 AI 推理性能的超級充電 http://www.open-lab.net/zh-cn/blog/supercharging-ai-video-and-ai-inference-performance-with-nvidia-l4-gpus/ Tue, 21 Mar 2023 06:59:15 +0000 http://www.open-lab.net/zh-cn/blog/?p=6542 Continued]]> NVIDIA T4 于 4 年前作為通用 GPU 引入主流服務器。 T4 GPU 已被廣泛采用,目前是 NVIDIA 數據中心中容量最大的 GPU s 。 T4 GPU 被部署到人工智能推理、云游戲、視頻和視覺計算的用例中。 在 NVIDIA GTC 2023 主題演講中, NVIDIA 為人工智能工作負載推出了 several inference platforms ,包括 NVIDIA T4 的繼任者: NVIDIA L4 Tensor Core GPU 。 L4 GPU 現在是一款通用、節能的加速器,旨在滿足視頻、視覺計算、圖形、虛擬化、生成人工智能和邊緣計算的眾多應用的人工智能需求。 在這篇文章中,我們介紹了與上一代( T4 )相比, L4 GPU 的主流服務器如何提供更多的 AI 視頻性能,并實現更多的視頻流。您將在從視頻流到藥物發現的各種用例中找到經過驗證的結果,

Source

]]>
6542
適用于基于 NVIDIA 的 PC 的端到端人工智能: NVIDIA TensorRT 部署 http://www.open-lab.net/zh-cn/blog/end-to-end-ai-for-nvidia-based-pcs-nvidia-tensorrt-deployment/ Wed, 15 Mar 2023 03:25:20 +0000 http://www.open-lab.net/zh-cn/blog/?p=6451 Continued]]> 這篇文章是關于 優化端到人工智能 的系列文章中的第五篇。 NVIDIA TensorRT 是一種在 NVIDIA 硬件上部署光速推理的解決方案。有了人工智能模型架構, TensorRT 可以在部署前使用,以過度搜索最有效的執行策略。 TensorRT 優化包括重新排序圖中的操作,優化權重的內存布局,以及將操作融合到單個內核以減少 VRAM 的內存流量。要應用這些優化, TensorRT 必須具有完整的網絡定義及其權重。 評估的策略在 TensorRT 引擎中序列化,該引擎與應用程序一起提供,以在生產中實現最佳推理性能。在部署過程中,除了這個引擎之外,不需要其他任何東西來執行網絡。 包含已編譯的內核和對文件的序列化使該引擎僅與相同 計算能力 的 GPU 兼容。該文件也特定于 TensorRT 版本,但將與 8.6 之后的未來版本兼容。

Source

]]>
6451
使用集成模型在 NVIDIA Triton 推理服務器上為 ML 模型管道提供服務 http://www.open-lab.net/zh-cn/blog/serving-ml-model-pipelines-on-nvidia-triton-inference-server-with-ensemble-models/ Mon, 13 Mar 2023 04:36:03 +0000 http://www.open-lab.net/zh-cn/blog/?p=6474 Continued]]> 在許多生產級機器學習( ML )應用程序中,推理并不局限于在單個 ML 模型上運行前向傳遞。相反,通常需要執行 ML 模型的管道。例如,一個由三個模塊組成的對話式人工智能管道:一個將輸入音頻波形轉換為文本的自動語音識別( ASR )模塊,一個理解輸入并提供相關響應的大型語言模型( LLM )模塊,以及一個從 LLM 輸出產生語音的文本到語音( TTS )模塊。 或者,考慮一個文本到圖像的應用程序,其中管道由 LLM 和擴散模型組成,它們分別用于對輸入文本進行編碼和從編碼的文本合成圖像。此外,許多應用程序在將輸入數據饋送到 ML 模型之前需要對其進行一些預處理步驟,或者對這些模型的輸出進行后處理步驟。例如,輸入圖像在被饋送到計算機視覺模型之前可能需要被調整大小、裁剪和解碼,或者文本輸入在被饋送給 LLM 之前需要被標記化。 近年來, ML 模型中的參數數量激增,

Source

]]>
6474
基于 NVIDIA 的 PC 的端到端 AI : ONNX Runtime 中的 CUDA 和 TensorRT 執行提供程序 http://www.open-lab.net/zh-cn/blog/end-to-end-ai-for-nvidia-based-pcs-cuda-and-tensorrt-execution-providers-in-onnx-runtime/ Wed, 08 Feb 2023 05:42:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=6244 Continued]]> 這篇文章是 optimizing end-to-end AI 系列文章的第四篇。 有關更多信息,請參閱以下帖子: 正如在 End-to-End AI for NVIDIA-Based PCs 系列的上一篇文章中所解釋的, ONNX Runtime 中有多個執行提供程序( EP ),它們支持針對給定部署場景使用特定于硬件的功能或優化。本文介紹了 CUDA EP 和 TensorRT EP ,它們使用了高度優化的 NVIDIA 推理庫和各自的硬件功能,如 Tensor Core 。 除了 NVIDIA 硬件上的最佳性能外,這還允許在多個操作系統甚至數據中心、 PC 和嵌入式( NVIDIA Jetson )硬件上使用相同的 EP 。由于這些 EP 是特定于 NVIDIA 的,因此這是獲得 FP8 精度或 NVIDIA Ada Lovelace architecture 中的…

Source

]]>
6244
針對 NVIDIA GPU 的低延遲交易和快速回測的深度神經網絡基準 http://www.open-lab.net/zh-cn/blog/benchmarking-deep-neural-networks-for-low-latency-trading-and-rapid-backtesting-on-nvidia-gpus/ Thu, 02 Feb 2023 03:02:44 +0000 http://www.open-lab.net/zh-cn/blog/?p=6217 Continued]]> 降低對新市場事件的響應時間是算法交易的一個驅動力。對延遲敏感的交易公司通過在其系統中部署諸如現場可編程門陣列( FPGA )和專用集成電路( ASIC )等低級別硬件設備來跟上金融電子市場不斷增長的步伐。 然而,隨著市場變得越來越高效,交易者需要依靠更強大的模型,如深度神經網絡( DNN )來提高盈利能力。由于在低級別硬件設備上實現此類復雜模型需要大量投資,通用 GPU 為 FPGA 和 ASIC 提供了一種可行、經濟高效的替代方案。 NVIDIA 在 STAC 審計的 STAC-ML 推理基準 中證明,1 NVIDIA A100 Tensor Core GPU 可以以低延遲一致地運行 LSTM 模型推斷。這表明, GPU 可以替代或補充現代交易環境中通用性較差的低級硬件設備。 具有長短期記憶的深度神經網絡( LSTM )是時間序列預測的成熟工具。它們也適用于現代金融。

Source

]]>
6217
關于擴展 AI 訓練和推理存儲的提示 http://www.open-lab.net/zh-cn/blog/tips-on-scaling-storage-for-ai-training-and-inferencing/ Wed, 25 Jan 2023 07:43:25 +0000 http://www.open-lab.net/zh-cn/blog/?p=6132 Continued]]> GPU 在擴展 AI 方面有許多好處,從更快的模型訓練到 GPU 加速的欺詐檢測。在規劃 AI 模型和部署應用程序時,必須考慮可擴展性挑戰,尤其是性能和存儲。 無論使用何種情況,人工智能解決方案都有四個共同點: 在這些元素中, 數據存儲 通常是規劃過程中最被忽視的元素。為什么?因為隨著時間的推移,在創建和部署 AI 解決方案時并不總是考慮數據存儲需求。 AI 部署的大多數需求都可以通過 POC 或測試環境快速確認。 然而,挑戰在于 POC 傾向于解決單個時間點。培訓或推斷部署可能會持續數月或數年。由于許多公司迅速擴大了其人工智能項目的范圍,基礎設施也必須進行擴展,以適應不斷增長的模型和數據集。 這篇博客解釋了如何提前計劃和擴展數據存儲以進行訓練和推理。 首先,了解 AI 的數據存儲層次結構,包括 GPU 內存、數據結構和存儲設備(圖 2 )。

Source

]]>
6132
使用 NVIDIA Triton 推理服務器從公共庫 ModelZoo 部署不同的 AI 模型類別 http://www.open-lab.net/zh-cn/blog/deploying-diverse-ai-model-categories-from-public-model-zoo-using-nvidia-triton-inference-server/ Mon, 19 Dec 2022 06:03:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5874 Continued]]> 如今,針對 TensorFlow 、 ONNX 、 PyTorch 、 Keras 、 MXNet 等不同框架,出現了大量最先進( SOTA )模型和建模解決方案的實現。如果您對數據集中已有的類別感興趣,可以使用這些模型進行開箱即用的推斷,也可以通過微調將其嵌入到定制業務場景中。 本文概述了流行的 DL 模型類別,并介紹了使用 NVIDIA Triton Inference Server 部署這些模型的端到端示例。客戶端應用程序可以按原樣使用,也可以根據用例場景進行修改。我將帶領您使用 Triton 推理服務器完成圖像分類、對象檢測和圖像分割公共模型的部署。本文中概述的步驟也可以應用于其他開源模型,只需稍作修改。 近年來,深度學習( DL )取得了顯著進步。通過解決多年來困擾人工智能界的眾多復雜問題,它徹底改變了人工智能的未來。目前,它正被用于醫療保健、航空航天工程、

Source

]]>
5874
使用 NVIDIA TensorRT 在 Apache Beam 中簡化和加速機器學習預測 http://www.open-lab.net/zh-cn/blog/simplifying-and-accelerating-machine-learning-predictions-in-apache-beam-with-nvidia-tensorrt/ Fri, 16 Dec 2022 06:32:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5884 Continued]]> 為大規模運行機器學習模型而加載和預處理數據通常需要將數據處理框架和推理機無縫拼接在一起。 在這篇文章中,我們將介紹 NVIDIA TensorRT 與 Apache Beam SDK 的集成,并展示如何將復雜的推理場景完全封裝在數據處理管道中。我們還演示了如何通過幾行代碼處理來自批處理和流傳輸源的 TB 數據,以實現高吞吐量和低延遲模型推斷。 要將 TensorRT 與 Apache Beam 一起使用,在此階段,您需要 converted TensorRT engine file from a trained model. 以下是如何將 TensorFlow 對象檢測 SSD MobileNet v2 320 × 320 模型轉換為 ONNX ,從 ONNX 構建 TensorRT 引擎,并在本地運行引擎。 要將 TensorFlow 對象檢測 SSD…

Source

]]>
5884
工作站端到端 AI :優化簡介 http://www.open-lab.net/zh-cn/blog/end-to-end-ai-for-workstation-an-introduction-to-optimization/ Thu, 15 Dec 2022 06:51:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5894 Continued]]> 這篇文章是優化工作站端到端人工智能系列文章的第一篇。有關更多信息,請參見第 2 部分, 工作站端到端 AI : 使用 ONNX 轉換 AI 模型 和第 3 部分, 工作站端到端 AI : ONNX 運行時和優化 . GPU 的偉大之處在于它提供了巨大的并行性;它允許您同時執行許多任務。在最精細的層面上,這歸結為有數千個微小的處理內核同時運行同一條指令。但這并不是這種并行性停止的地方。還有其他方法可以利用經常被忽視的并行性,特別是在人工智能方面。 當你考慮人工智能功能的性能時,你到底是什么意思?您是否只是在考慮模型本身運行所需的時間,還是在考慮加載數據、預處理數據、傳輸數據以及寫回磁盤或顯示所需時間? 這個問題可能最好由體驗該功能的用戶來回答。通常會發現,實際的模型執行時間只是整個體驗的一小部分。 這篇文章是本系列文章的第一篇,它將引導您了解幾個特定于 API 的用例,包括:

Source

]]>
5894
工作站端到端 AI :使用 ONNX 轉換 AI 模型 http://www.open-lab.net/zh-cn/blog/end-to-end-ai-for-workstation-transitioning-ai-models-with-onnx/ Thu, 15 Dec 2022 06:50:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5890 Continued]]> 這篇文章是優化工作站端到端人工智能系列文章的第二篇。有關更多信息,請參見第 1 部分, 工作站端到端 AI : 優化簡介 和第 3 部分, 工作站端到端 AI : ONNX 運行時和優化 . 在這篇文章中,我討論了如何使用 ONNX 將人工智能模型從研究過渡到生產,同時避免常見錯誤。考慮到 PyTorch 已經成為最流行的機器學習框架,我的所有示例都使用它,但我也提供了 TensorFlow 教程的參考。 ONNX (開放式神經網絡交換)是描述深度學習模型的開放標準,旨在促進框架兼容性。 考慮以下場景:您可以在 PyTorch 中訓練神經網絡,然后在將其部署到生產環境之前通過 TensorRT 優化編譯器運行它。這只是許多可互操作的深度學習工具組合中的一種,包括可視化、性能分析器和優化器。 研究人員和 DevOps 不再需要將就一個未優化建模和部署性能的單一工具鏈。

Source

]]>
5890
工作站端到端 AI : ONNX 運行時和優化 http://www.open-lab.net/zh-cn/blog/end-to-end-ai-for-workstation-onnx-runtime-and-optimization/ Thu, 15 Dec 2022 06:36:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5887 Continued]]> 這篇文章是優化工作站端到端人工智能系列文章的第三篇。有關更多信息,請參見第 1 部分, 工作站端到端 AI :優化簡介 和第 2 部分, 工作站端到端 AI :使用 ONNX 轉換 AI 模型 . 當您的模型轉換為 ONNX 格式時,有幾種方法可以部署它,每種方法都有優缺點。 一種方法是使用 ONNX Runtime 。 ONNX 運行時充當后端,從中間表示( ONNX )讀取模型,處理推理會話,并在能夠調用硬件特定庫的執行提供程序上調度執行。有關詳細信息,請參見 Execution Providers 。 在這篇文章中,我將討論如何在高級別上使用 ONNX 運行時。我還深入探討了如何優化模型。 ONNX Runtime 與大多數編程語言兼容。與另一篇文章一樣,本文使用 Python 是為了簡潔和易讀。這些例子只是為了介紹關鍵思想。有關所有流行操作系統、

Source

]]>
5887
人人超碰97caoporen国产