AI Inference / Inference Microservices – NVIDIA 技術博客

AI Inference / Inference Microservices – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞和內容。 Wed, 14 May 2025 06:25:12 +0000 zh-CN hourly 1 196178272 在 Azure AI Foundry 上使用 NVIDIA NIM 加速 AI 推理 http://www.open-lab.net/zh-cn/blog/accelerated-ai-inference-with-nvidia-nim-on-azure-ai-foundry/ Mon, 12 May 2025 05:22:02 +0000 http://www.open-lab.net/zh-cn/blog/?p=13799 Continued]]> 將 NVIDIA NIM 微服務集成到 Azure AI Foundry ，標志著企業 AI 開發的重大飛躍。通過將 NIM 微服務與 Azure 可擴展的安全基礎架構相結合，企業組織現在可以比以往更高效地部署功能強大的即用型 AI 模型。 NIM 微服務容器化，可為預訓練和自定義 AI 模型提供 GPU 加速推理。NIM 微服務集成了 NVIDIA 和更廣泛的社區的領先推理技術，可為 NVIDIA 加速基礎設施上的最新 AI 模型提供優化的響應延遲和吞吐量。開發者可以通過符合每個領域行業標準的 API 訪問 AI 模型，從而簡化 AI 應用的開發。NIM 支持跨多個領域和一系列 AI 模型的 AI 用例，包括社區模型、NVIDIA AI Foundation 模型和 NVIDIA 合作伙伴提供的自定義 AI 模型。其中包括語音、圖像、視頻、3D、藥物研發、

]]>

13799

云端 Apache Spark 加速深度學習和大語言模型推理 http://www.open-lab.net/zh-cn/blog/accelerate-deep-learning-and-llm-inference-with-apache-spark-in-the-cloud/ Thu, 08 May 2025 06:18:25 +0000 http://www.open-lab.net/zh-cn/blog/?p=13821 Continued]]> Apache Spark 是用于大數據處理和分析的行業領先平臺。隨著非結構化數據（documents、emails、multimedia content）的日益普及，深度學習 (DL) 和大語言模型 (LLMs) 已成為現代數據分析工作流的核心組成部分。這些模型支持各種下游任務，例如圖像描述、語義標記、文檔摘要等。然而，將 GPU 密集型 DL 與 Spark 相結合一直是一項挑戰。 NVIDIA RAPIDS Accelerator for Apache Spark 和 Spark RAPIDS ML 庫可實現無縫 GPU 加速，但主要用于提取、轉換和加載 (ETL) 以及傳統機器學習 (ML) 工作負載。最近用于分布式訓練和推理的 Spark API (如上一篇博客中所述) 在 DL 集成方面取得了重大進展。本文以這項工作為基礎，

]]>

13821

NVIDIA Secure AI 正式發布 http://www.open-lab.net/zh-cn/blog/announcing-nvidia-secure-ai-general-availability/ Wed, 23 Apr 2025 05:39:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=13608 Continued]]> 隨著許多企業開始對其數據進行 AI 訓練或推理，需要保護數據和代碼，尤其是大語言模型 (LLMs) 。由于數據敏感性，許多客戶無法冒險將數據放在云端。此類數據可能包含個人身份信息 (PII) 或公司專有信息，且經過訓練的模型擁有寶貴的知識產權 (IP) 。 NVIDIA Confidential Computing (CC) 是保護大型 AI 模型和數據的出色解決方案。借助 NVIDIA CC，企業無需在性能和安全性之間做出權衡。NVIDIA 最初于 2023 年發布了 CC，并繼續與 CPU 合作伙伴、云提供商和獨立軟件供應商 (ISVs) 合作，以確保從傳統的加速工作負載到機密的加速工作負載的轉變是流暢和透明的。本文將介紹基于 NVIDIA HGX H100 8-GPU 和 NVIDIA HGX H200 8-GPU 的安全 AI（即 Protected…

]]>

13608

使用 NVIDIA TensorRT 優化基于 Transformer 的擴散模型以生成視頻 http://www.open-lab.net/zh-cn/blog/optimizing-transformer-based-diffusion-models-for-video-generation-with-nvidia-tensorrt/ Mon, 21 Apr 2025 06:03:20 +0000 http://www.open-lab.net/zh-cn/blog/?p=13623 Continued]]> 先進的圖像擴散模型需要數十秒才能處理單張圖像。這使得視頻擴散更具挑戰性，需要大量計算資源和高昂成本。通過在搭載 NVIDIA TensorRT 的 NVIDIA Hopper GPU 上利用最新的 FP8 量化功能，可以顯著降低推理成本，并以更少的 GPU 為更多用戶提供服務。雖然量化擴散器的部署可能比較復雜，但 TensorRT 背后的完整生態系統可以幫助克服這些挑戰。借助此方法，Adobe 將延遲降低了 60%，TCO 降低了近 40%，從而加快了推理速度并提高了響應速度。使用在由 Hopper GPU 加速的 Amazon Web Services (AWS) EC2 P5/P5en 上運行的 TensorRT 進行的優化部署，提高了可擴展性，以更少的 GPU 為更多用戶提供服務。本文將探討為增強 Adobe Firefly 視頻生成模型的性能而實施的策略和優化，

]]>

13623

NVIDIA 加速推理 Meta Llama 4 Scout 與 Maverick 模型 http://www.open-lab.net/zh-cn/blog/nvidia-accelerates-inference-on-meta-llama-4-scout-and-maverick/ Sat, 05 Apr 2025 06:37:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=13527 Continued]]> 最新一代熱門 Llama AI 模型現已支持 Llama 4 Scout 和 Llama 4 Maverick。它們由 NVIDIA 開源軟件加速，在 NVIDIA Blackwell B200 GPU 上每秒可實現超過 40K 輸出 token，并可作為 NVIDIA NIM 微服務進行試用。 Llama 4 模型現在采用混合專家 (MoE) 架構，原生支持多模態和多語言。Llama 4 模型提供各種多模態功能，推動規模、速度和效率的提升，使您能夠打造更加個性化的體驗。 Llama 4 Scout 是一個 109B 參數模型，每個令牌活躍 17B，由 16 位專家組成，擁有 10M 上下文長度的窗口，并針對單個 NVIDIA H100 GPU 優化和量化為 int4。這支持各種用例，包括多文檔摘要、解析大量用戶活動以執行個性化任務，以及對大量代碼庫進行推理。

]]>

13527

LLM 基準測試：基本概念 http://www.open-lab.net/zh-cn/blog/llm-benchmarking-fundamental-concepts/ Wed, 02 Apr 2025 08:02:10 +0000 http://www.open-lab.net/zh-cn/blog/?p=13428 Continued]]> 在過去幾年中，作為廣泛的 AI 革命的一部分，生成式 AI 和大語言模型 (LLMs) 越來越受歡迎。隨著基于 LLMs 的應用在各個企業中的推廣，我們需要確定不同 AI 服務解決方案的成本效益。部署 LLM 應用的成本取決于它每秒可以處理的查詢數量，同時響應最終用戶并支持可接受的響應準確度。本文特別關注 LLMs 吞吐量和延遲測量，以評估 LLM 應用成本。 NVIDIA 為開發者提供涵蓋芯片、系統和軟件的全棧創新。NVIDIA 推理軟件堆棧包括 NVIDIA Dynamo 、 NVIDIA TensorRT-LLM 和 NVIDIA NIM 微服務。為支持開發者實現基準測試推理性能，NVIDIA 還提供了開源生成式 AI 基準測試工具 GenAI-Perf 。詳細了解如何使用 GenAI-Perf 進行基準測試。可以使用各種工具來評估 LLMs 的性能。

]]>

13428

NVIDIA Blackwell 在 MLPerf Inference v5.0 中實現巨大的性能飛躍 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-massive-performance-leaps-in-mlperf-inference-v5-0/ Wed, 02 Apr 2025 05:32:46 +0000 http://www.open-lab.net/zh-cn/blog/?p=13408 Continued]]> 在不斷增長的模型大小、實時延遲要求以及最近的 AI 推理的推動下，大語言模型 (LLM) 推理的計算需求正在快速增長。與此同時，隨著 AI 采用率的增長， AI 工廠能否為盡可能多的用戶提供服務，同時保持良好的每位用戶體驗，是更大限度地提高其價值的關鍵。要在最新模型上實現高推理吞吐量和低推理延遲，需要在涵蓋芯片、網絡系統和軟件的整個技術堆棧中表現出色。 MLPerf Inference v5.0 是長期運行的基準套件中的最新版本，可測量一系列不同模型和用例的推理吞吐量。于 2019 年首次推出的 MLPerf Inference 不斷更新新的模型和場景，以確保它仍然是衡量 AI 計算平臺推理性能的有用工具。本輪測試新增三個新的基準測試：這些新基準測試加入了涵蓋各種模型和用例的眾多返回基準測試：ResNet-50、RetinaNet、3D U-Net、DLRMv2、

]]>

13408

借助 NVIDIA Mission Control 實現 AI 工廠自動化 http://www.open-lab.net/zh-cn/blog/automating-ai-factory-operations-with-nvidia-mission-control/ Tue, 25 Mar 2025 08:51:04 +0000 http://www.open-lab.net/zh-cn/blog/?p=13363 Continued]]> DeepSeek-R1 等先進的 AI 模型證明，企業現在可以構建專用于自己的數據和專業知識的尖端 AI 模型。這些模型可以根據獨特的用例進行定制，以前所未有的方式應對各種挑戰。基于早期 AI 采用者的成功，許多組織正在將重點轉移到全面生產的 AI 工廠。然而，創建高效 AI 工廠的過程復雜且耗時，并且不同于構建特定于垂直行業的 AI 的目標。它涉及到樓宇自動化，用于調配和管理復雜的基礎設施，在最新平臺上維護具有專業技能的站點可靠性工程師（SRE）團隊，以及大規模開發流程以實現超大規模的效率。此外，開發者需要一種方法來利用 AI 基礎設施的強大功能，同時具備超大規模數據中心的敏捷性、效率和規模，同時避免成本、復雜性和專業知識等方面的負擔。本文將介紹 NVIDIA Mission Control (一個為使用 NVIDIA 參考架構構建的 AI…

]]>

13363

借助 NVIDIA TensorRT-LLM 提升 Microsoft Azure AI Foundry 的 Llama 模型性能 http://www.open-lab.net/zh-cn/blog/boost-llama-model-performance-on-microsoft-azure-ai-foundry-with-nvidia-tensorrt-llm/ Thu, 20 Mar 2025 08:16:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=13245 Continued]]> 微軟與 NVIDIA 合作，宣布在其 Azure AI Foundry 平臺上實現 Meta Llama 系列模型的變革性性能提升。這些進步由 NVIDIA TensorRT-LLM 優化提供支持，在保持模型輸出質量的同時，顯著提高了吞吐量、降低了延遲并提高了成本效益。通過這些改進，Azure AI Foundry 客戶可以實現顯著的吞吐量提升：在模型目錄中的無服務器部署 (Model-as-a-Service) 產品中，Llama 3.3 70B 和 Llama 3.1 70B 模型的吞吐量提高 45%，Llama 3.1 8B 模型的吞吐量提高 34%。更快的令牌生成速度和更低的延遲使聊天機器人、虛擬助理和自動化客戶支持等實時應用程序的響應速度更快、效率更高。這轉化為更好的價格-性能比率，顯著降低了由 LLM 驅動的應用的每個 token 的成本。

]]>

13245

AI 推理時代的 NVIDIA Blackwell Ultra http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-ultra-for-the-era-of-ai-reasoning/ Wed, 19 Mar 2025 08:34:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=13254 Continued]]> 多年來，AI 的進步一直通過預訓練擴展遵循清晰的軌跡：更大的模型、更多的數據和更豐富的計算資源帶來了突破性的功能。在過去 5 年中，預訓練擴展使計算需求以驚人的速度增加了 50M 倍。但是，構建更智能的系統不再只是預訓練更大的模型。相反，它是關于改進它們并讓它們思考。通過將 AI 模型優化為專門任務，后訓練擴展可改進模型，以提供更多對話式響應。使用特定領域的合成數據調整模型，可增強其理解細微上下文并提供準確輸出的能力。合成數據生成作為訓練模型的可用內容沒有上限，這意味著在后訓練擴展中需要大量計算資源。現在，一種增強智能的新縮放定律已經出現：測試時縮放（test-time scaling）。測試時擴展也稱為長思考，可在 AI 推理過程中動態增加計算量，從而實現更深入的推理。AI 推理模型不僅能一次性生成答案，還能積極思考、權衡多種可能性，并實時優化答案。

]]>

13254

隆重推出 NVIDIA Dynamo：用于擴展推理AI模型的低延遲分布式推理框架 http://www.open-lab.net/zh-cn/blog/introducing-nvidia-dynamo-a-low-latency-distributed-inference-framework-for-scaling-reasoning-ai-models/ Tue, 18 Mar 2025 05:47:45 +0000 http://www.open-lab.net/zh-cn/blog/?p=13330 Continued]]> NVIDIA 今天在 GTC 2025 宣布發布 NVIDIA Dynamo 。NVIDIA Dynamo 是一個高吞吐量、低延遲的開源推理服務框架，用于在大規模分布式環境中部署生成式 AI 和推理模型。在 NVIDIA Blackwell 上運行開源 DeepSeek-R1 模型時，該框架最多可將請求數量提升 30 倍。NVIDIA Dynamo 與 PyTorch、SGLang 等開源工具兼容， NVIDIA TensorRT-LLM 和 vLLM，加入不斷擴大的推理工具社區，助力開發者和 AI 研究人員加速 AI。 NVIDIA Dynamo 引入了幾項關鍵創新，包括：從今天開始，NVIDIA Dynamo 可供開發者在 ai-dynamo/dynamo GitHub 存儲庫中使用。對于希望縮短生產時間并獲得企業級安全性、支持和穩定性的企業，

]]>

13330

NVIDIA Blackwell 實現世界紀錄的 DeepSeek-R1 推理性能 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-world-record-deepseek-r1-inference-performance/ Tue, 18 Mar 2025 05:30:54 +0000 http://www.open-lab.net/zh-cn/blog/?p=13327 Continued]]> NVIDIA 在 NVIDIA GTC 2025 上宣布了創下世界紀錄的 DeepSeek-R1 推理性能。搭載 8 個 NVIDIA Blackwell GPU 的單個 NVIDIA DGX 系統，在具有 671 億個參數的先進大型 DeepSeek-R1 模型上，每個用戶每秒可實現超過 250 個 token，或每秒超過 30,000 個 token 的最大吞吐量。得益于 NVIDIA 開放生態系統的推理開發者工具的改進 (現已針對 NVIDIA Blackwell 架構進行優化) ，這些性能頻譜兩端的快速性能提升得以實現。隨著 NVIDIA 平臺不斷突破最新 NVIDIA Blackwell Ultra GPU 和 NVIDIA Blackwell GPU 的推理極限，這些性能記錄將會得到改善。單個 DGX B200 8-GPU 系統和單個 DGX…

]]>

13327

借助 NVIDIA DGX 云無服務器推理在云環境中無縫擴展人工智能 http://www.open-lab.net/zh-cn/blog/seamlessly-scale-ai-across-cloud-environments-with-nvidia-dgx-cloud-serverless-inference/ Tue, 18 Mar 2025 02:07:41 +0000 http://www.open-lab.net/zh-cn/blog/?p=13272 Continued]]> NVIDIA DGX Cloud Serverless Inference 是一種自動擴展 AI 推理解決方案，可實現快速可靠的應用部署。 DGX Cloud Serverless Inference 由 NVIDIA Cloud Functions (NVCF) 提供支持，可在多云和本地環境中提取多集群基礎設施設置，以處理 GPU 加速的工作負載。無論是管理 AI 工作負載、高性能計算 (HPC) 、AI 模擬，還是容器化應用程序，該平臺都能讓您在抽象底層基礎設施的同時進行全球擴展。一次部署，隨處擴展。獨立軟件供應商 (ISV) 在部署和擴展 AI 應用時經常面臨挑戰。這些應用程序需要在全球范圍內或更接近客戶基礎設施所在的位置進行部署。這可能需要在多個云、數據中心和地理區域進行部署，從而導致復雜的基礎設施運營。Serverless AI 推理通過在云、

]]>

13272

聚焦：NAVER Place 利用 NVIDIA TensorRT-LLM 優化 SLM 基礎的垂直服務 http://www.open-lab.net/zh-cn/blog/spotlight-naver-place-optimizes-slm-based-vertical-services-with-nvidia-tensorrt-llm/ Fri, 28 Feb 2025 06:40:09 +0000 http://www.open-lab.net/zh-cn/blog/?p=13155 Continued]]> NAVER 是一家韓國熱門搜索引擎公司，提供 Naver Place ，這是一項基于地理的服務，可提供有關韓國數百萬家企業和興趣點的詳細信息。用戶可以搜索不同的地點、發表評論，以及實時進行預訂或下單。 NAVER Place 垂直服務基于小語言模型 (SLMs) 來提高可用性，并專門針對 Place、Map 和 Travel。本文分享了 NVIDIA 和 NAVER 如何使用 NVIDIA TensorRT-LLM 優化 SLM 推理性能，從而在 NVIDIA Triton Inference Server 上實現基于 SLM 的垂直服務。如需詳細了解 NAVER 如何使用 AI，請參閱 NAVER Place AI 開發團隊簡介。與大語言模型（LLMs）相比，小語言模型（SLMs）是能夠以更少的參數理解自然語言的 AI 模型。眾所周知，

]]>

13155

使用 NVIDIA TensorRT-LLM 前瞻性解碼優化 Qwen2.5-Coder 吞吐量 http://www.open-lab.net/zh-cn/blog/optimizing-qwen2-5-coder-throughput-with-nvidia-tensorrt-llm-lookahead-decoding/ Fri, 14 Feb 2025 04:58:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=12977 Continued]]> 專注于編碼的大語言模型（LLMs）已穩步應用于開發者工作流程。從配對編程到自我改進的 AI 智能體，這些模型可幫助開發者完成各種任務，包括增強代碼、修復錯誤、生成測試和編寫文檔。為促進開源 LLM 的開發，Qwen 團隊最近發布了 Qwen2.5-Coder，這是一系列先進的 LLM，用于跨熱門編程語言的代碼生成、推理和修復。本文將探討針對 NVIDIA TensorRT-LLM 支持的 Qwen2.5-Coder 模型進行推理優化的優勢，以及借助 NVIDIA NIM 輕松部署以提升變革潛力和編碼效率的好處。 Qwen2.5-Coder 模型在熱門的學術基準測試中取得了出色的性能。 NVIDIA TensorRT-LLM 已對 Qwen2.5-Coder 系列的三種熱門模型 (1.5B、7B 和 32B 版本) 進行優化，以實現高吞吐量和低延遲。

]]>

12977

人人超碰97caoporen国产