Amr Elmeleegy – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Wed, 25 Jun 2025 05:22:11 +0000
zh-CN
hourly
1
196178272 -
NVIDIA GB200 NVL72 和 NVIDIA Dynamo 如何提升 MoE 模型的推理性能
http://www.open-lab.net/zh-cn/blog/how-nvidia-gb200-nvl72-and-nvidia-dynamo-boost-inference-performance-for-moe-models/
Fri, 06 Jun 2025 05:19:07 +0000
http://www.open-lab.net/zh-cn/blog/?p=14403
Continued]]>
最新一批開源大語言模型 (LLMs) 采用了 Mixture of Experts (MoE) 架構,如 DeepSeek R1、Llama 4 和 Qwen3。與傳統的密集模型不同,MoE 在推理期間僅激活專門參數的子集 (稱為專家參數) 。這種選擇性激活可減少計算開銷,從而縮短推理時間并降低部署成本。 當與 NVIDIA Dynamo 的推理優化技術 (例如分解服務) 和 NVIDIA GB200 NVL72 的縱向擴展架構的大域相結合時,MoE 模型可以從復合效應中受益,從而將推理效率提升到新的水平。這種協同作用可以顯著增加 AI 工廠的利潤,使它們能夠在不犧牲用戶體驗的情況下,為每個 GPU 提供更多的用戶請求。 本博客借鑒了我們最近的研究成果,其中我們使用高保真數據中心級GPU性能模擬器評估了不同硬件配置中的數十萬個設計點。我們分析了分解和寬模型并行對MoE吞吐量的影響。
Source
]]>
14403
-
NVIDIA Dynamo 加速 llm-d 社區計劃,推動大規模分布式推理
http://www.open-lab.net/zh-cn/blog/nvidia-dynamo-accelerates-llm-d-community-initiatives-for-advancing-large-scale-distributed-inference/
Wed, 21 May 2025 04:52:27 +0000
http://www.open-lab.net/zh-cn/blog/?p=13915
Continued]]>
在 Red Hat Summit 2025 上推出的 llm-d 社區標志著開源生態系統在加速生成式 AI 推理創新方面邁出了重要一步。llm-d 基于 vLLM 和 Inference Gateway 構建,通過 Kubernetes 原生架構擴展了 vLLM 的功能,從而實現大規模推理部署。 本文將介紹支持 llm-d 項目的關鍵 NVIDIA Dynamo 組件。 大規模分布式推理利用模型并行技術(例如 tensor、pipeline 和 expert parallelism),這些技術依賴于 internode 和 intranode、低延遲、高吞吐量的通信。它們還需要在 disaggregated serving 環境中,在預填充和解碼 GPU 工作者之間快速傳輸 KV 緩存。 為實現高吞吐量、低延遲的分布式和分解數據傳輸,llm-d 利用了 NVIDIA…
Source
]]>
13915
-
NVIDIA Dynamo 新增 GPU 自動縮放、Kubernetes 自動化和網絡優化功能
http://www.open-lab.net/zh-cn/blog/nvidia-dynamo-adds-gpu-autoscaling-kubernetes-automation-and-networking-optimizations/
Tue, 20 May 2025 05:09:19 +0000
http://www.open-lab.net/zh-cn/blog/?p=13920
Continued]]>
在 NVIDIA GTC 2025 上,我們宣布推出 NVIDIA Dynamo ,這是一種高吞吐量、低延遲的開源推理服務框架,用于在大規模分布式環境中部署生成式 AI 和推理模型。 Dynamo 的最新 v0.2 版本包括: 在本文中,我們將介紹這些功能,以及它們如何幫助您從 GPU 投資中獲得更多收益。 21 世紀初,云計算迅速采用的關鍵驅動因素之一是 autoscaling,即根據實時需求自動調整計算能力的能力。通過消除提前為峰值負載配置基礎設施的需求,autoscaling 可實現成本效益和運營靈活性。雖然這一概念已得到充分確認,但將其有效應用于 LLM 推理工作負載仍然是一項重大挑戰。 傳統的自動縮放依賴于簡單的指標,例如每秒查詢次數 (QPS) 。然而,在現代 LLM 服務環境中,并非所有推理請求都是相同的 (尤其是那些使用解服務等技術的環境) ,
Source
]]>
13920
-
隆重推出 NVIDIA Dynamo:用于擴展推理AI模型的低延遲分布式推理框架
http://www.open-lab.net/zh-cn/blog/introducing-nvidia-dynamo-a-low-latency-distributed-inference-framework-for-scaling-reasoning-ai-models/
Tue, 18 Mar 2025 05:47:45 +0000
http://www.open-lab.net/zh-cn/blog/?p=13330
Continued]]>
NVIDIA 今天在 GTC 2025 宣布發布 NVIDIA Dynamo 。NVIDIA Dynamo 是一個高吞吐量、低延遲的開源推理服務框架,用于在大規模分布式環境中部署生成式 AI 和推理模型。在 NVIDIA Blackwell 上運行開源 DeepSeek-R1 模型時,該框架最多可將請求數量提升 30 倍。NVIDIA Dynamo 與 PyTorch、SGLang 等開源工具兼容, NVIDIA TensorRT-LLM 和 vLLM,加入不斷擴大的推理工具社區,助力開發者和 AI 研究人員加速 AI。 NVIDIA Dynamo 引入了幾項關鍵創新,包括: 從今天開始,NVIDIA Dynamo 可供開發者在 ai-dynamo/dynamo GitHub 存儲庫中使用。對于希望縮短生產時間并獲得企業級安全性、支持和穩定性的企業,
Source
]]>
13330
-
聚焦:Perplexity AI 利用 NVIDIA 推理棧每月服務 4 億個搜索請求
http://www.open-lab.net/zh-cn/blog/spotlight-perplexity-ai-serves-400-million-search-queries-a-month-using-nvidia-inference-stack/
Thu, 05 Dec 2024 07:26:26 +0000
http://www.open-lab.net/zh-cn/blog/?p=12401
Continued]]>
對 AI 賦能服務的需求持續快速增長,這給 IT 和基礎設施團隊帶來了越來越大的壓力。這些團隊的任務是配置必要的硬件和軟件來滿足這一需求,同時平衡成本效益和最佳用戶體驗。Perplexity AI 的推理團隊面臨著這一挑戰。Perplexity AI 是一款由 AI 驅動的搜索引擎,每月可處理超過 435 million 個查詢。每個查詢代表多個 AI 推理請求。 為了滿足這一需求,Perplexity 推理團隊轉而使用 NVIDIA H100 Tensor Core GPUs 、 NVIDIA Triton Inference Server 和 NVIDIA TensorRT-LLM 來進行經濟高效的 大語言模型(LLM) 部署。本文根據他們的實操經驗,詳細介紹了一些部署最佳實踐和節省的 TCO。 為了支持其廣泛的用戶群并滿足搜索、總結和問答等方面的各種請求,
Source
]]>
12401
-
借助 NVIDIA TensorRT-LLM 分塊預填充提高 AI 推理效率和簡化部署
http://www.open-lab.net/zh-cn/blog/streamlining-ai-inference-performance-and-deployment-with-nvidia-tensorrt-llm-chunked-prefill/
Fri, 15 Nov 2024 07:04:02 +0000
http://www.open-lab.net/zh-cn/blog/?p=12029
Continued]]>
在本 博文 中,我們詳細介紹了分塊預填充,這是 NVIDIA TensorRT-LLM 的一項功能,可提高 GPU 利用率并簡化開發者的部署體驗。本文基于之前的博文,討論了 TensorRT-LLM 中的高級 KV 緩存優化功能如何在需要系統預填充的用例中將性能提升高達 5 倍。 當用戶向模型提交請求時,它將經歷兩個不同的計算階段:預填充和解碼。每個階段使用 GPU 計算資源的方式各不相同。 在預填充階段,系統會處理所有輸入令牌以計算 KV 緩存,然后使用該緩存生成輸出的第一個令牌。此階段的計算要求很高,可以有效利用 GPU 龐大的并行計算資源。 在解碼階段,系統會單獨生成輸出 tokens,使用每個新 tokens 更新預填充階段的中間狀態。由于中間狀態計算的繁重計算工作是在預填充階段完成的,因此解碼階段主要涉及僅處理新生成的 tokens。因此,
Source
]]>
12029
-
NVIDIA TensorRT-LLM KV 緩存早期重用實現首個令牌速度 5 倍提升
http://www.open-lab.net/zh-cn/blog/5x-faster-time-to-first-token-with-nvidia-tensorrt-llm-kv-cache-early-reuse/
Fri, 08 Nov 2024 08:12:22 +0000
http://www.open-lab.net/zh-cn/blog/?p=12068
Continued]]>
在上一篇 博客文章 中,我們展示了通過將鍵值 (KV) 緩存卸載到 CPU 內存來重復使用該緩存如何在基于 x86 的 NVIDIA H100 Tensor Core GPU 上將首次生成令牌 (Time To First Token, TTFT) 的速度提升高達 14 倍,在 NVIDIA GH200 Superchip 上可將其提升高達 28 倍。在本文中,我們介紹了可以進一步推動 TTFT 加速的 KV 緩存重復使用技術和最佳實踐。 許多任務(包括問答和代碼生成)都迅速采用了 LLM 模型。為了生成響應,這些模型首先將用戶的提示符轉換為 tokens,然后將其轉換為 dense vectors。隨后會進行大量的 dot-product operations,以數學方式對 tokens 之間的關系建模,并構建對用戶輸入的上下文理解。
Source
]]>
12068
-
NVSwitch 和 TensorRT-LLM MultiShot 共同加速 AllReduce 速度達 3 倍
http://www.open-lab.net/zh-cn/blog/3x-faster-allreduce-with-nvswitch-and-tensorrt-llm-multishot/
Fri, 01 Nov 2024 09:11:33 +0000
http://www.open-lab.net/zh-cn/blog/?p=11840
Continued]]>
在用戶數量可能在數百到數十萬之間波動,且輸入序列長度隨每個請求而變化的生產環境中,部署生成式 AI 工作負載會面臨獨特的挑戰。要在這些環境中實現低延遲推理,無論 GPU 生成方式或顯存容量如何,多 GPU 設置都是必需的。為了提高生產級設置中的推理性能,我們很高興推出 TensorRT-LLM Multi-shot,這是一種新的多 GPU 通信協議,利用 NVIDIA NVLink Switch 可將通信速度大幅提升高達 3 倍。本博客概述了這一新功能,以及它如何幫助開發者和解決方案架構師克服傳統多 GPU 通信方法的限制。 對于低延遲推理,無論單個 GPU 的顯存容量如何,多 GPU 都至關重要。但是,在低并發情況下,GPU 花在交換數據上的時間可能超過花在計算上的時間。為了獲得最佳性能, 高效的 AllReduce 操作 –結合每個參與其中的 GPU 的部分結果的集合操作…
Source
]]>
11840
-
NVIDIA Triton 推理服務器在 MLPerf Inference 4.1 基準測試中實現出色性能
http://www.open-lab.net/zh-cn/blog/nvidia-triton-inference-server-achieves-outstanding-performance-in-mlperf-inference-4-1-benchmarks/
Wed, 28 Aug 2024 06:44:39 +0000
http://www.open-lab.net/zh-cn/blog/?p=11085
Continued]]>
六年前,我們踏上了開發 AI 推理服務解決方案的旅程,該解決方案專為高吞吐量和時間敏感型生產用例而設計。當時,ML 開發者正在部署定制的、框架特定的 AI 解決方案,這推高了他們的運營成本,并且無法滿足其延遲和吞吐量服務級別協議。 我們很早就決定構建一個多功能的開源服務器,能夠服務于任何模型,不管其AI后端框架如何。 今天,NVIDIA Triton Inference Server 是 NVIDIA 最受歡迎的開源項目之一,被一些世界領先的組織用于在生產環境中部署 AI 模型,包括 Amazon、Microsoft、Oracle Cloud、American Express、Snap、Docusign 等。 我們很高興地宣布,NVIDIA Triton 在配備 8 個 H200 GPU 的系統上運行,實現了一個重要的里程碑,與 MLPerf Inference v4.1…
Source
]]>
11085
-
借助 NVIDIA Grace 系列革新數據中心效率
http://www.open-lab.net/zh-cn/blog/revolutionizing-data-center-efficiency-with-the-nvidia-grace-family/
Fri, 02 Aug 2024 05:38:22 +0000
http://www.open-lab.net/zh-cn/blog/?p=10938
Continued]]>
到 2025 年,數據處理需求的指數級增長預計將達到 175 ZB。這與 CPU 性能提升的緩慢步伐形成了鮮明的對比。十多年來,半導體的進步跟不上摩爾定律預測的步伐,因此迫切需要更高效的計算解決方案。 NVIDIA GPU 已經成為滿足這些不斷增長的計算需求的最高效方式。其處理復雜任務和并行處理工作負載的能力使其能夠最大限度地提高每單位能耗所完成的工作,使其能效比傳統 CPU 高 20 倍,適用于各種數據中心工作負載,包括人工智能、高性能計算 (HPC)、數據處理以及視頻和圖像處理。 隨著越來越多的應用程序得到加速,需要在 CPU 方面進行創新,以更大限度地提高數據中心的效率。加速計算需要從硬件到軟件、平臺和跨多個領域的應用程序的全棧創新,以充分發揮數據中心的潛力。 NVIDIA 始終如一地提供突破性的 GPU 和網絡。但是,盡管 GPU 在并行工作負載方面表現優異,
Source
]]>
10938
-
揭開萬億參數大型語言模型 AI 推理部署的神秘面紗
http://www.open-lab.net/zh-cn/blog/demystifying-ai-inference-deployments-for-trillion-parameter-large-language-models/
Wed, 12 Jun 2024 06:06:56 +0000
http://www.open-lab.net/zh-cn/blog/?p=10336
Continued]]>
人工智能(AI)正在改變各行各業,解決精準藥物發現、自動駕駛汽車開發等重大人類科學挑戰,并解決自動創建電子商務產品描述和從法律合同中提取見解等商業問題。 如今,每家企業都在探索大語言模型(LLMs),以創造競爭優勢。NVIDIA 云合作伙伴正在介入,為企業的人工智能之旅提供支持。例如,NexGen Cloud 為客戶提供通過其按需云平臺 Hyperstack 運行proofs-of-concept(PoCs)的機會,然后再致力于大規模的 supercloud 合同。您可以立即試用新一代 NVIDIA GPUs,從而快速采用其他服務層,例如 NVIDIA AI 平臺。 在試點項目取得成功后,許多企業正在將這些計劃投入生產,以提高利潤。這就提出了一個重要問題:企業如何在提供出色用戶體驗的同時保持強勁的投資回報? 大語言模型(LLM)生成的 tokens…
Source
]]>
10336
-
借助 AI、可感知表情的 OCR 和 Snapchat 的 Screenshop 增強服裝購物體驗
http://www.open-lab.net/zh-cn/blog/enhancing-the-apparel-shopping-experience-with-ai-emoji-aware-ocr-and-snapchats-screenshop/
Fri, 17 May 2024 05:08:29 +0000
http://www.open-lab.net/zh-cn/blog/?p=10114
Continued]]>
是否曾在照片中看到有人穿著一件炫酷的襯衫或獨特的服裝,并想知道他們是從哪里買來的?價格是多少?也許您甚至考慮過自己買一件。 這項挑戰激發了 Snap 的 ML 工程團隊推出 Screenshop,這是 Snapchat 應用中的一項服務,該服務使用 AI 在線定位并推薦與圖像中看到的風格相匹配的時尚商品。 Screenshop 于 2021 年集成到 Snapchat 應用中。它使用開源物體檢測和圖像分類模型開發,該模型由 Snap 的 ML 工程師在內部進行了微調。該模型檢測圖像中顯示的服裝項目類型,然后將其傳遞到時尚嵌入模型,該模型使用相似度搜索在時尚目錄中找到外觀相似的項目。 Screenshop 的 AI 制作流程最初使用 TensorFlow 構建和提供,TensorFlow 是一種廣泛使用的開源框架,用于開發機器學習和人工智能應用程序。
Source
]]>
10114
-
在 NVIDIA AI 推理平臺上使用 Stable Diffusion XL 生成令人驚嘆的圖像
http://www.open-lab.net/zh-cn/blog/generate-stunning-images-with-stable-diffusion-xl-on-the-nvidia-ai-inference-platform-2/
Thu, 07 Mar 2024 08:39:43 +0000
http://www.open-lab.net/zh-cn/blog/?p=9245
Continued]]>
擴散模型正在各行各業中改變創意工作流程。這些模型通過采用降噪擴散技術,將隨機噪聲逐步塑造為 AI 生成的藝術,從而根據簡單的文本或圖像輸入生成令人驚嘆的圖像。這些模型可用于許多企業用例,例如為營銷創建個性化內容、為照片中的物體生成想象力的背景、為游戲設計動態高質量環境和角色等。 雖然擴散模型是增強工作流程的有用工具,但在大規模部署時,這些模型會非常計算密集。在非專用硬件 (如 CPU) 上生成一批四張圖像可能需要幾分鐘時間,這可能會阻礙創意流程,并且成為許多開發者滿足嚴格服務級別協議 (SLA) 的障礙。 在本文中,我們將向您展示 NVIDIA AI 推理平臺 可以專注于解決這些挑戰,穩定 Diffusion XL(SDXL)。我們首先探討企業在生產環境中部署 SDXL 時面臨的常見挑戰,然后深入探討如何 Google Cloud 的 G2 實例 由NVIDIA L4 Tensor…
Source
]]>
9245
-
在 NVIDIA AI 推理平臺上使用 Stable Diffusion XL 生成令人驚嘆的圖像
http://www.open-lab.net/zh-cn/blog/generate-stunning-images-with-stable-diffusion-xl-on-the-nvidia-ai-inference-platform/
Wed, 06 Mar 2024 06:25:59 +0000
http://www.open-lab.net/zh-cn/blog/?p=9121
Continued]]>
擴散模型正在各行各業中改變創意工作流程。這些模型通過采用降噪擴散技術,將隨機噪聲逐步塑造為 AI 生成的藝術,從而根據簡單的文本或圖像輸入生成令人驚嘆的圖像。這些模型可用于許多企業用例,例如為營銷創建個性化內容、為照片中的物體生成想象力的背景、為游戲設計動態高質量環境和角色等。 雖然擴散模型是增強工作流程的有用工具,但在大規模部署時,這些模型會非常計算密集。在非專用硬件 (如 CPU) 上生成一批四張圖像可能需要幾分鐘時間,這可能會阻礙創意流程,并且成為許多開發者滿足嚴格服務級別協議 (SLA) 的障礙。 在本文中,我們將向您展示 NVIDIA AI 推理平臺 可以專注于解決這些挑戰,穩定 Diffusion XL(SDXL)。我們首先探討企業在生產環境中部署 SDXL 時面臨的常見挑戰,然后深入探討如何 Google Cloud 的 G2 實例 由NVIDIA L4 Tensor…
Source
]]>
9121
人人超碰97caoporen国产