Ashraf Eassa – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 05 Jun 2025 07:03:06 +0000 zh-CN hourly 1 196178272 NVIDIA Blackwell 在 MLPerf Training v5.0 中實現高達 2.6 倍的性能提升 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-up-to-2-6x-higher-performance-in-mlperf-training-v5-0/ Wed, 04 Jun 2025 06:53:24 +0000 http://www.open-lab.net/zh-cn/blog/?p=14119 Continued]]> 創建先進的大語言模型 (LLM) 的過程始于預訓練過程。預訓練最先進的模型具有很高的計算要求,因為熱門的開放權重模型具有數百億到數千億個參數,并使用數萬億個令牌進行訓練。模型智能隨著模型參數數量和訓練數據集大小的增加而增長,訓練模型所需的計算量也在增加,因此需要更高性能的訓練集群來解鎖更智能、更強大的模型,同時控制訓練時間。 預訓練模型后,可以對其進行后訓練,以進一步增強其功能。例如,企業可以使用自己的專有數據集定制預訓練模型,以提高該組織特定用例的知識水平和響應準確性。其他后訓練技術可用于增加支持的上下文長度,以及增強具有推理能力的模型。總體而言,雖然單個模型的后訓練計算密集程度可能比現在的預訓練模型低,但隨著研究人員尋找提高模型能力的新方法,以及許多組織可以自定義模型,后訓練模型的計算密集程度也在快速增長。 MLPerf Training v5.0…

Source

]]>
14119
NVIDIA Blackwell 在 MLPerf Inference v5.0 中實現巨大的性能飛躍 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-massive-performance-leaps-in-mlperf-inference-v5-0/ Wed, 02 Apr 2025 05:32:46 +0000 http://www.open-lab.net/zh-cn/blog/?p=13408 Continued]]> 在不斷增長的模型大小、實時延遲要求以及最近的 AI 推理的推動下, 大語言模型 (LLM) 推理的計算需求正在快速增長。與此同時,隨著 AI 采用率的增長, AI 工廠 能否為盡可能多的用戶提供服務,同時保持良好的每位用戶體驗,是更大限度地提高其價值的關鍵。要在最新模型上實現高推理吞吐量和低推理延遲,需要在涵蓋芯片、網絡系統和軟件的整個技術堆棧中表現出色。 MLPerf Inference v5.0 是長期運行的基準套件中的最新版本,可測量一系列不同模型和用例的推理吞吐量。于 2019 年首次推出的 MLPerf Inference 不斷更新新的模型和場景,以確保它仍然是衡量 AI 計算平臺推理性能的有用工具。 本輪測試新增三個新的基準測試: 這些新基準測試加入了涵蓋各種模型和用例的眾多返回基準測試:ResNet-50、RetinaNet、3D U-Net、DLRMv2、

Source

]]>
13408
NVIDIA Blackwell 實現世界紀錄的 DeepSeek-R1 推理性能 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-world-record-deepseek-r1-inference-performance/ Tue, 18 Mar 2025 05:30:54 +0000 http://www.open-lab.net/zh-cn/blog/?p=13327 Continued]]> NVIDIA 在 NVIDIA GTC 2025 上宣布了創下世界紀錄的 DeepSeek-R1 推理性能 。 搭載 8 個 NVIDIA Blackwell GPU 的單個 NVIDIA DGX 系統 ,在具有 671 億個參數的先進大型 DeepSeek-R1 模型上,每個用戶每秒可實現超過 250 個 token,或每秒超過 30,000 個 token 的最大吞吐量。得益于 NVIDIA 開放生態系統的推理開發者工具的改進 (現已針對 NVIDIA Blackwell 架構進行優化) ,這些性能頻譜兩端的快速性能提升得以實現。 隨著 NVIDIA 平臺不斷突破最新 NVIDIA Blackwell Ultra GPU 和 NVIDIA Blackwell GPU 的推理極限,這些性能記錄將會得到改善。 單個 DGX B200 8-GPU 系統和單個 DGX…

Source

]]>
13327
借助 NVIDIA 全棧解決方案提升 AI 推理性能 http://www.open-lab.net/zh-cn/blog/optimize-ai-inference-performance-with-nvidia-full-stack-solutions/ Tue, 24 Dec 2024 05:43:02 +0000 http://www.open-lab.net/zh-cn/blog/?p=12923 Continued]]> AI 驅動的應用的爆炸式發展對開發者提出了前所未有的要求,他們必須在提供先進的性能與管理運營復雜性和成本以及 AI 基礎設施之間取得平衡。 NVIDIA 正在為開發者提供涵蓋芯片、系統和軟件的全棧創新,重新定義 AI 推理 的可能性,使其比以往更快、更高效、更具可擴展性。 六年前,NVIDIA 著手打造 AI 推理服務器,專為構建高吞吐量、延遲關鍵型生產應用的開發者而設計。當時,許多開發者都在努力使用定制的、特定于框架的服務器,這些服務器增加了復雜性,增加了運營成本,并且難以滿足嚴格的服務水平協議(service-level agreements)關于延遲和吞吐量的要求。 為解決這一問題,NVIDIA 開發了 NVIDIA Triton Inference Server ,這是一個開源平臺,能夠為來自任何 AI 框架的模型提供服務。通過整合特定于框架的推理服務器,

Source

]]>
12923
借助 NVIDIA TensorRT-LLM 預測解碼,將 Llama 3.3 的推理吞吐量提升 3 倍 http://www.open-lab.net/zh-cn/blog/boost-llama-3-3-70b-inference-throughput-3x-with-nvidia-tensorrt-llm-speculative-decoding/ Tue, 17 Dec 2024 04:36:12 +0000 http://www.open-lab.net/zh-cn/blog/?p=12513 Continued]]> 隨著近期新增的 Llama 3.3 70B (一種純文本指令調整模型),Meta 的開放 大語言模型 (LLMs) 集合將繼續增長。Llama 3.3 相對于較舊的 Llama 3.1 70B 模型提供了增強的性能,甚至可以在數學、推理、編碼和多語種支持等多項任務中匹配更大、計算成本更高的 Llama 3.1 405B 模型的功能。 NVIDIA TensorRT-LLM 是一款功能強大的推理引擎,可在最新的 LLM 上提供先進的性能,并整合了許多優化措施,可提供出色的 Llama 3.3 70B 推理吞吐量。其中包括在飛批處理、 KV 緩存 、 自定義 FP8 量化 、推測解碼等,可實現快速、經濟高效的 LLM 服務。 動態批處理默認作為運行時配置參數激活,TensorRT-LLM 支持同時批處理多個不同的請求,從而提高服務吞吐量。通過在上下文和生成階段交錯處理請求,

Source

]]>
12513
Llama 3.2 全棧優化釋放 NVIDIA GPU 的高性能 http://www.open-lab.net/zh-cn/blog/llama-3-2-full-stack-optimizations-unlock-high-performance-on-nvidia-gpus/ Tue, 19 Nov 2024 09:20:22 +0000 http://www.open-lab.net/zh-cn/blog/?p=12199 Continued]]> Meta 最近發布了 Llama 3.2 系列視覺語言模型(VLM),其中包含 11B 參數和 90B 參數變體。這些模型是多模態模型,支持文本和圖像輸入。此外,Meta 還推出了 Llama 3.2 的純文本 小語言模型(SLM) 變體,具有 1B 和 3B 參數。NVIDIA 已對 Llama 3.2 模型集合進行優化,以便在全球數百萬個 GPU 上提供出色的性能和經濟高效的服務 – 從我們功能強大的數據中心和云 GPU 到本地 NVIDIA RTX 工作站 ,甚至是使用 NVIDIA Jetson 的低功耗邊緣設備。 Llama 3.2 VLM 支持長達 128K 的文本標記,以及分辨率為 1120 x 1120 像素的單張圖像輸入。為了實現低延遲響應,提供出色的用戶體驗,同時提供高吞吐量以經濟高效地提供這些模型,NVIDIA 平臺在技術堆棧的每一層都進行了優化。

Source

]]>
12199
NVIDIA Blackwell 在 MLPerf 訓練 v4.1 中將 LLM 訓練性能提高一倍 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-doubles-llm-training-performance-in-mlperf-training-v4-1/ Wed, 13 Nov 2024 07:46:17 +0000 http://www.open-lab.net/zh-cn/blog/?p=12054 Continued]]> 隨著模型規模的擴大以及使用更多數據進行訓練,它們的能力也隨之提升,實用性也隨之提升。為了快速訓練這些模型,需要在數據中心規模上提供更高的性能。NVIDIA Blackwell 平臺在 2024 年 GTC 大會上推出,現已全面投產,集成了七類芯片:GPU、CPU、DPU、NVLink Switch 芯片、InfiniBand Switch 和 Ethernet Switch。Blackwell 平臺在每個 GPU 的性能方面實現了巨大飛躍,旨在支持創建更大規模的 AI 集群,從而推動下一代 LLM 的開發。 在最新一輪的 MLPerf 訓練 (一套 AI 訓練基準測試) 中,NVIDIA 使用 Blackwell 平臺首次提交了基準測試預覽類別的測試結果。這些結果表明,在每個 MLPerf 訓練基準測試中,與基于 Hopper 的提交相比,每個加速器的提升幅度很大。

Source

]]>
12054
NVSwitch 和 TensorRT-LLM MultiShot 共同加速 AllReduce 速度達 3 倍 http://www.open-lab.net/zh-cn/blog/3x-faster-allreduce-with-nvswitch-and-tensorrt-llm-multishot/ Fri, 01 Nov 2024 09:11:33 +0000 http://www.open-lab.net/zh-cn/blog/?p=11840 Continued]]> 在用戶數量可能在數百到數十萬之間波動,且輸入序列長度隨每個請求而變化的生產環境中,部署生成式 AI 工作負載會面臨獨特的挑戰。要在這些環境中實現低延遲推理,無論 GPU 生成方式或顯存容量如何,多 GPU 設置都是必需的。為了提高生產級設置中的推理性能,我們很高興推出 TensorRT-LLM Multi-shot,這是一種新的多 GPU 通信協議,利用 NVIDIA NVLink Switch 可將通信速度大幅提升高達 3 倍。本博客概述了這一新功能,以及它如何幫助開發者和解決方案架構師克服傳統多 GPU 通信方法的限制。 對于低延遲推理,無論單個 GPU 的顯存容量如何,多 GPU 都至關重要。但是,在低并發情況下,GPU 花在交換數據上的時間可能超過花在計算上的時間。為了獲得最佳性能, 高效的 AllReduce 操作 –結合每個參與其中的 GPU 的部分結果的集合操作…

Source

]]>
11840
NVIDIA Grace CPU 實現全球頂級數據中心性能和突破性能效優勢 http://www.open-lab.net/zh-cn/blog/nvidia-grace-cpu-delivers-world-class-data-center-performance-and-breakthrough-energy-efficiency/ Wed, 09 Oct 2024 05:11:03 +0000 http://www.open-lab.net/zh-cn/blog/?p=11758 Continued]]> NVIDIA 將 NVIDIA Grace CPU 設計為一種新型高性能數據中心 CPU,旨在提供突破性的 能效 ,并針對數據中心規模的性能進行了優化。 與傳統 CPU 計算相比,加速計算在性能和能效方面實現了巨大的飛躍。為了實現這些加速,需要數據中心規模的全棧創新,涵蓋芯片、系統、軟件和算法。為適合的工作負載選擇合適的架構并提供出色的節能性能對于最大限度地提高數據中心的性能和最小化占用空間至關重要。 隨著工作負載的加速程度不斷提高,目前仍有一些用例主要在傳統 CPU 上運行,尤其是圖形分析等稀疏和“分支”序列化任務的代碼。與此同時,數據中心受到越來越多的電力限制,限制了其能力的增長。這意味著所有可以加速的工作負載都應該加速。那些無法加速的工作負載必須在盡可能高效的計算上運行,而 CPU 必須針對這些工作負載進行優化。

Source

]]>
11758
NVIDIA Blackwell 平臺在 MLPerf Inference v4.1 中創下新的 LLM 推理記錄 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-platform-sets-new-llm-inference-records-in-mlperf-inference-v4-1/ Wed, 28 Aug 2024 07:05:54 +0000 http://www.open-lab.net/zh-cn/blog/?p=11091 Continued]]> 大型語言模型 (LLM) 推理是一項全棧挑戰。實現高吞吐量、低延遲推理需要強大的 GPU、高帶寬 GPU 之間的互連、高效的加速庫和高度優化的推理引擎。 MLPerf Inference v4.1 是廣受認可的熱門 MLPerf Inference 基準測試的最新版本,由 MLCommons 聯盟開發。該基準測試包括許多熱門 AI 模型,涵蓋從 LLM 和生成式 AI 到推薦系統和計算機視覺的各種用例。這些基準測試會定期更新,以確保市場相關性。 在這一輪中,NVIDIA 憑借整個 NVIDIA 技術堆棧的創新提交了許多出色的結果。亮點包括: 本文將對這些結果進行詳細介紹。 NVIDIA Blackwell 架構在 NVIDIA GTC 2024 上推出,是一種新型 AI 超級芯片。它由 2080 億個晶體管精心制作而成,并采用專為 NVIDIA 定制的 TSMC…

Source

]]>
11091
NVIDIA Triton 推理服務器在 MLPerf Inference 4.1 基準測試中實現出色性能 http://www.open-lab.net/zh-cn/blog/nvidia-triton-inference-server-achieves-outstanding-performance-in-mlperf-inference-4-1-benchmarks/ Wed, 28 Aug 2024 06:44:39 +0000 http://www.open-lab.net/zh-cn/blog/?p=11085 Continued]]> 六年前,我們踏上了開發 AI 推理服務解決方案的旅程,該解決方案專為高吞吐量和時間敏感型生產用例而設計。當時,ML 開發者正在部署定制的、框架特定的 AI 解決方案,這推高了他們的運營成本,并且無法滿足其延遲和吞吐量服務級別協議。 我們很早就決定構建一個多功能的開源服務器,能夠服務于任何模型,不管其AI后端框架如何。 今天,NVIDIA Triton Inference Server 是 NVIDIA 最受歡迎的開源項目之一,被一些世界領先的組織用于在生產環境中部署 AI 模型,包括 Amazon、Microsoft、Oracle Cloud、American Express、Snap、Docusign 等。 我們很高興地宣布,NVIDIA Triton 在配備 8 個 H200 GPU 的系統上運行,實現了一個重要的里程碑,與 MLPerf Inference v4.1…

Source

]]>
11085
NVIDIA NVLink 和 NVIDIA NVSwitch 加速大語言模型推理性能 http://www.open-lab.net/zh-cn/blog/nvidia-nvlink-and-nvidia-nvswitch-supercharge-large-language-model-inference/ Mon, 12 Aug 2024 07:03:12 +0000 http://www.open-lab.net/zh-cn/blog/?p=10993 Continued]]> 大型語言模型(LLM)越來越大,增加了處理推理請求所需的計算量。為了滿足服務當今LLM的實時延遲要求,并為盡可能多的用戶提供服務,多GPU計算是必不可少的。這不僅能夠降低延遲,提高用戶體驗,還能夠提高吞吐量,降低服務成本。兩者同時重要。 即使大型模型可以裝入單個state-of-the-art GPU的內存中,該GPU生成令牌的速率也取決于可用于處理請求的總計算量。通過結合多個state-of-the-art GPU的計算能力,可以實現最新模型的實時用戶體驗。 為了解對每秒高令牌的需求,以下 GIF 展示了兩種情況: 通過使用多個 GPU 的組合計算性能和張量并行 (TP) 等技術來運行大型模型,可以快速處理推理請求,從而實現實時響應。通過精心選擇用于運行模型的 GPU 數量,云推理服務還可以同時優化用戶體驗和成本。

Source

]]>
10993
借助 NVIDIA Grace 系列革新數據中心效率 http://www.open-lab.net/zh-cn/blog/revolutionizing-data-center-efficiency-with-the-nvidia-grace-family/ Fri, 02 Aug 2024 05:38:22 +0000 http://www.open-lab.net/zh-cn/blog/?p=10938 Continued]]> 到 2025 年,數據處理需求的指數級增長預計將達到 175 ZB。這與 CPU 性能提升的緩慢步伐形成了鮮明的對比。十多年來,半導體的進步跟不上摩爾定律預測的步伐,因此迫切需要更高效的計算解決方案。 NVIDIA GPU 已經成為滿足這些不斷增長的計算需求的最高效方式。其處理復雜任務和并行處理工作負載的能力使其能夠最大限度地提高每單位能耗所完成的工作,使其能效比傳統 CPU 高 20 倍,適用于各種數據中心工作負載,包括人工智能、高性能計算 (HPC)、數據處理以及視頻和圖像處理。 隨著越來越多的應用程序得到加速,需要在 CPU 方面進行創新,以更大限度地提高數據中心的效率。加速計算需要從硬件到軟件、平臺和跨多個領域的應用程序的全棧創新,以充分發揮數據中心的潛力。 NVIDIA 始終如一地提供突破性的 GPU 和網絡。但是,盡管 GPU 在并行工作負載方面表現優異,

Source

]]>
10938
NVIDIA NeMo 借助混合狀態空間模型加速 LLM 創新發展 http://www.open-lab.net/zh-cn/blog/nvidia-nemo-accelerates-llm-innovation-with-hybrid-state-space-model-support/ Wed, 17 Jul 2024 04:23:24 +0000 http://www.open-lab.net/zh-cn/blog/?p=10638 Continued]]> 當今的大型語言模型(LLM)基于 2017 年推出的 Transformer 模型架構。自那時以來,AI 計算性能的快速進步使創建更大的基于 Transformer 的 LLM 成為可能,這極大地提高了其功能。基于 Transformer 的高級 LLM 正在為許多令人興奮的應用提供支持,如智能聊天機器人、計算機代碼生成和甚至 芯片設計 等。 訓練先進的 LLM 需要高效且通用的軟件堆棧。為此,NVIDIA NeMo 提供了一個端到端平臺,用于構建、自定義和部署 LLM。Integrated 深入集成到 NeMo 框架中的是 Megatron-Core,一個基于 PyTorch 的庫,提供了大規模訓練 LLM 所需的基本組件和優化。隨著模型開發者探索新的模型架構,NVIDIA 平臺不斷擴展,以實現創新。 今天,NVIDIA 宣布 NeMo 和 Megatron-Core…

Source

]]>
10638
NVIDIA 在 MLPerf Training v4.0 中創造了新的生成式 AI 性能和規模記錄 http://www.open-lab.net/zh-cn/blog/nvidia-sets-new-generative-ai-performance-and-scale-records-in-mlperf-training-v4-0/ Wed, 12 Jun 2024 06:26:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=10340 Continued]]> 生成式 AI 模型具有多種用途,例如幫助編寫計算機代碼、創作故事、作曲、生成圖像、制作視頻等。而且,隨著這些模型的大小不斷增加,并且使用更多數據進行訓練,它們將產生更高質量的輸出。 構建和部署這些更智能的模型需要非常大的計算量,需要許多高性能處理器并行工作,并由高效、通用的軟件進行編排。 例如,Meta 宣布訓練其最新的 Llama 3 系列中的 大語言模型(LLMs),使用搭載 24,576 個 NVIDIA H100 Tensor Core GPUs 的人工智能集群。模型越大,Llama 3 70B 就需要總計6.4 million H100 GPU-hours進行訓練。 預訓練 LLM 后,可以通過各種技術包括模型微調,以提高特定任務的準確性。隨著企業開始在各種應用中采用 LLM,LLM 微調正迅速成為核心行業工作負載。 AI 訓練是一項全棧挑戰,

Source

]]>
10340
人人超碰97caoporen国产