Jinho Suh – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 10 Apr 2024 08:56:56 +0000 zh-CN hourly 1 196178272 NVIDIA H200 Tensor Core GPU 和 NVIDIA TensorRT-LLM 集 MLPerf LLM 推理記錄 http://www.open-lab.net/zh-cn/blog/nvidia-h200-tensor-core-gpus-and-nvidia-tensorrt-llm-set-mlperf-llm-inference-records/ Wed, 27 Mar 2024 08:46:53 +0000 http://www.open-lab.net/zh-cn/blog/?p=9478 Continued]]> 隨著生成式 AI 模型的持續創新,生成式 AI 在計算應用方面取得了巨大進步,從而大幅增強人類能力。這些模型包括 生成式 AI 模型,例如 大型語言模型 (LLM),用于創作營銷文案、編寫代碼、渲染圖像、作曲和生成視頻等。隨著新模型的不斷出現,所需的計算量也隨之增加。 生成式 AI 的計算強度要求芯片、系統和軟件要卓越。MLPerf 推理是一個基準套件,用于衡量多個熱門深度學習用例的推理性能。最新版本 MLPerf Inference v4.0 加入兩個新工作負載,代表了熱門的現代生成式 AI 用例。其中一個是基于最大的 Meta Lama 2 系列大型語言模型 (LLM) 的 LLM 基準測試,以及另一個是基于 Stable Diffusion XL 穩定漫反射的。 NVIDIA 加速計算平臺利用 NVIDIA H200 Tensor Core GPU。

Source

]]>
9478
NVIDIA GH200 Grace Hopper 超級芯片首次亮相,取得領先的 MLPerf 推理 v3.1 結果 http://www.open-lab.net/zh-cn/blog/leading-mlperf-inference-v3-1-results-gh200-grace-hopper-superchip-debut/ Mon, 11 Sep 2023 05:43:33 +0000 http://www.open-lab.net/zh-cn/blog/?p=7833 Continued]]> 人工智能正在改變計算方式,推動AI在全球范圍內的應用部署。智能聊天機器人、圖像和視頻合成的簡單文本提示、個性化內容推薦以及醫學成像只是人工智能應用的幾個例子。 推理工作負載對計算要求很高,而且多種多樣,要求平臺能夠快速處理從未見過的數據上的許多預測,并在各種人工智能模型上運行推理。希望部署人工智能的組織需要一種方法,在各種工作負載、環境和部署場景中客觀評估基礎設施的性能。人工智能訓練和推理都是如此。 MLPerf 推理 v3.1 是由 MLCommons 聯盟開發的最新版本,它是行業標準的人工智能推理基準套件。這個版本補充了 MLPerf 培訓和 MLPerf HPC。MLPerf 推理 v3.1 能夠衡量各種重要工作負載的推理性能,包括圖像分類、對象檢測、自然語言處理、語音識別和推薦系統,以及常見的數據中心和邊緣部署場景。 MLPerf 推理 v3.1…

Source

]]>
7833
新的 MLPerf 推理網絡部門展示 NVIDIA InfiniBand 和 GPUDirect RDMA 功能 http://www.open-lab.net/zh-cn/blog/new-mlperf-inference-network-division-showcases-infiniband-and-gpudirect-rdma-capabilities/ Thu, 06 Jul 2023 04:01:17 +0000 http://www.open-lab.net/zh-cn/blog/?p=7377 Continued]]> 在 MLPerf Inference v3.0 中,NVIDIA 首次向新推出的 網絡分割 投入,現在是 MLPerf 推理數據中心套件的一部分。網絡分割旨在模擬真實的數據中心設置,努力將包括硬件和軟件在內的網絡效果納入端到端推理性能。 網絡部門中有兩種類型的節點:前端節點生成查詢,這些查詢通過標準網絡結構(如以太網或InfiniBand)發送,由加速器節點處理,加速器節點執行推理。 圖 1 顯示了 Closed 分區完全在單個節點上運行。在“網絡”部分中,查詢在“前端”節點上生成,并傳輸到“加速器”節點進行推理。 在網絡部分,加速器節點包含推理加速器以及所有網絡組件。這包括網絡接口控制器( NIC )、網絡交換機和網絡結構。因此,雖然網絡部門試圖衡量加速器節點和網絡的性能,但它排除了前端節點的影響,因為后者在基準測試中的作用有限。

Source

]]>
7377
通過 AI 的全棧優化在 MLPerf 推理 v3.0 中創下新紀錄 http://www.open-lab.net/zh-cn/blog/setting-new-records-in-mlperf-inference-v3-0-with-full-stack-optimizations-for-ai/ Wed, 05 Apr 2023 03:03:51 +0000 http://www.open-lab.net/zh-cn/blog/?p=6677 Continued]]> 目前最令人興奮的計算應用程序依賴于在復雜的人工智能模型上進行訓練和運行推理,通常是在要求苛刻的實時部署場景中。需要高性能、加速的人工智能平臺來滿足這些應用程序的需求,并提供最佳的用戶體驗 新的人工智能模型不斷被發明,以實現新的功能,而人工智能驅動的應用程序往往依賴于許多這樣的模型協同工作。這意味著人工智能平臺必須能夠運行最廣泛的工作負載,并在所有工作負載上提供優異的性能。MLPerf Inference– 現在, v3.0 的第七版是一套值得信賴的、經過同行評審的標準化推理性能測試,代表了許多這樣的人工智能模型。 人工智能應用程序無處不在,從最大的超大規模數據中心到緊湊的邊緣設備。 MLPerf 推理同時代表數據中心和邊緣環境。它還代表了一系列真實世界的場景,如離線(批處理)處理、延遲受限的服務器、單流和多流場景。

Source

]]>
6677
在 MLPerf 推理 2.0 上獲得最佳性能 http://www.open-lab.net/zh-cn/blog/getting-the-best-performance-on-mlperf-inference-2-0/ Wed, 06 Apr 2022 06:41:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=3595 Continued]]> Megatron 530B 等機型正在擴大人工智能可以解決的問題范圍。然而,隨著模型的復雜性不斷增加,它們對人工智能計算平臺構成了雙重挑戰: 我們需要的是一個多功能的人工智能平臺,它可以在各種各樣的模型上提供所需的性能,用于訓練和推理。 為了評估這種性能, MLPerf 是唯一一個行業標準人工智能基準,用于測試六個應用程序中的數據中心和邊緣平臺,測量吞吐量、延遲和能效。 在 MLPerf 推理 2.0 , NVIDIA 交付領先的結果在所有工作負載和場景,同時數據中心 GPU 和最新的參賽者,NVIDIA Jetson AGX ORIN SOC 平臺,為邊緣設備和機器人建造。 除了硬件,還需要大量的軟件和優化工作才能充分利用這些平臺。 MLPerf 推理 2.0 的結果展示了如何獲得處理當今日益龐大和復雜的人工智能模型所需的性能。

Source

]]>
3595
人人超碰97caoporen国产