基準 – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 18 May 2023 05:31:33 +0000
zh-CN
hourly
1
196178272 -
使用 Alpa 和 Ray 在大型 GPU 集群中高效擴展 LLM 訓練
http://www.open-lab.net/zh-cn/blog/efficiently-scale-llm-training-across-a-large-gpu-cluster-with-alpa-and-ray/
Mon, 15 May 2023 05:21:27 +0000
http://www.open-lab.net/zh-cn/blog/?p=6976
Continued]]>
近年來,大型語言模型( LLM )的數量激增,它們超越了傳統的語言任務,擴展到生成式人工智能這包括像 ChatGPT 和 Stable Diffusion 這樣的模型。隨著這種對生成人工智能的關注不斷增長,人們越來越需要一種現代機器學習( ML )基礎設施,使日常從業者能夠訪問可擴展性。 本文介紹了兩個開源框架,Alpa.ai和Ray.io,共同努力實現訓練 1750 億參數所需的規模JAX transformer具有流水線并行性的模型。我們詳細探討了這兩個集成框架,以及它們的組合架構、對開發人員友好的 API 、可伸縮性和性能。 Alpa 和 Ray 的核心都是為了提高開發人員的速度和有效地擴展模型。 Alpa 框架的流水線并行功能可以輕松地在多個 GPU 上并行化大型模型的計算,并減輕開發人員的認知負擔。 Ray 提供了一個分布式計算框架,可以簡化跨多臺機器的資源擴展和管理。
Source
]]>
6976
-
使用 VMware vSphere 8 和 NVIDIA BlueField DPU 加速 Redis 性能
http://www.open-lab.net/zh-cn/blog/accelerating-redis-performance-using-vmware-vsphere-8-and-nvidia-bluefield-dpus/
Fri, 05 May 2023 03:24:40 +0000
http://www.open-lab.net/zh-cn/blog/?p=6920
Continued]]>
向現代分布式工作負載的轉變,以及更高的網絡速度,增加了基礎設施服務的開銷。為企業提供動力的應用程序可用的 CPU 周期較少。部署數據處理器( DPU )來卸載和加速這些基礎設施服務可以提供更快的性能、更低的 CPU 利用率和更好的能源效率。 許多現代工作負載是分布式的,這意味著它們不再只適用于一臺服務器。相反,它們在多個服務器上同時運行,以實現更大的可擴展性和可用性。此類工作負載包括網絡和電子商務應用程序,如 NoSQL 數據庫、分析、人工智能和 Redis 等關鍵價值商店。 許多公司在 vSphere 企業工作負載平臺上運行這些分布式工作負載。隨著應用程序的不同部分在虛擬機和主機之間進行通信, vSphere 必須投入越來越多的 CPU 功率來管理數據移動和網絡等基礎架構工作負載。 在 CPU 和 DPU 上運行網絡和安全基礎設施服務,
Source
]]>
6920
-
新的 GPU 庫降低了 Apache Spark ML 的計算成本
http://www.open-lab.net/zh-cn/blog/new-gpu-library-lowers-compute-costs-for-apache-spark-ml/
Tue, 18 Apr 2023 03:24:38 +0000
http://www.open-lab.net/zh-cn/blog/?p=6726
Continued]]>
Spark MLlib是Apache Spark用于大規模machine learning并且提供了許多流行的機器學習算法的內置實現。這些實現創建于十年前,但沒有利用現代計算加速器,如 NVIDIA GPU 。 為了解決這一差距,我們最近開源了 Spark RAPIDS ML(NVIDIA/spark-rapids-ml) ,一個 Python 包,為 Py Spark ML 應用程序提供 GPU 加速。通過這樣做,我們實現了以下關鍵目標: 您可以從NVIDIA/spark-rapids-mlApache v2 許可證下的 GitHub 存儲庫。初始版本為以下 Spark ML 算法提供了 GPU 加速度: 該版本還包括以下內容的 Spark ML API 兼容版本: 我們之所以最初選擇算法,是因為我們的第三個目標:盡可能使用現有的 NVIDIA 加速 ML 庫。
Source
]]>
6726
-
使用 NVIDIA Isaac ROS 開發人員預覽版 3 構建高性能機器人應用程序
http://www.open-lab.net/zh-cn/blog/build-high-performance-robotic-applications-with-nvidia-isaac-ros-developer-preview-3/
Tue, 18 Apr 2023 03:11:56 +0000
http://www.open-lab.net/zh-cn/blog/?p=6719
Continued]]>
機器人的復雜性正在增加,具有更高的自主性、更多的傳感器數量和多樣性,以及更多基于傳感器融合的算法。硬件加速對于運行這些日益復雜的工作負載至關重要,從而使機器人應用程序能夠以更高的速度和能效運行更大的工作負載。 NVIDIA Isaac ROS的使命一直致力于為 ROS 開發人員提供開發高性能、節能機器人應用所需的加速計算包和工具 NVIDIA 還在 ROS2 中開創了加速計算的先河,并在每個版本中不斷改進。在過去的兩年里,已經添加了 20 多個硬件加速 ROS 包,并支持最新的 ROS 2 分發。 該團隊去年與 Open Robotics 合作,包括自適應和類型協商,以提高提供硬件加速器的計算平臺上的 ROS 性能。他們還實施了 ISAAC ROS 的適應和類型協商,稱為 NITROS (NVIDIA Isaac Transport for ROS).
Source
]]>
6719
-
通過 AI 的全棧優化在 MLPerf 推理 v3.0 中創下新紀錄
http://www.open-lab.net/zh-cn/blog/setting-new-records-in-mlperf-inference-v3-0-with-full-stack-optimizations-for-ai/
Wed, 05 Apr 2023 03:03:51 +0000
http://www.open-lab.net/zh-cn/blog/?p=6677
Continued]]>
目前最令人興奮的計算應用程序依賴于在復雜的人工智能模型上進行訓練和運行推理,通常是在要求苛刻的實時部署場景中。需要高性能、加速的人工智能平臺來滿足這些應用程序的需求,并提供最佳的用戶體驗 新的人工智能模型不斷被發明,以實現新的功能,而人工智能驅動的應用程序往往依賴于許多這樣的模型協同工作。這意味著人工智能平臺必須能夠運行最廣泛的工作負載,并在所有工作負載上提供優異的性能。MLPerf Inference– 現在, v3.0 的第七版是一套值得信賴的、經過同行評審的標準化推理性能測試,代表了許多這樣的人工智能模型。 人工智能應用程序無處不在,從最大的超大規模數據中心到緊湊的邊緣設備。 MLPerf 推理同時代表數據中心和邊緣環境。它還代表了一系列真實世界的場景,如離線(批處理)處理、延遲受限的服務器、單流和多流場景。
Source
]]>
6677
-
通過 GROMACS 大幅提高多節點 NVIDIA GPU 的可擴展性
http://www.open-lab.net/zh-cn/blog/massively-improved-multi-node-nvidia-gpu-scalability-with-gromacs/
Thu, 09 Feb 2023 02:54:24 +0000
http://www.open-lab.net/zh-cn/blog/?p=6266
Continued]]>
GROMACS 是一種廣泛用于模擬生物分子系統的科學軟件包,在理解對疾病預防和治療重要的重要生物學過程中發揮著至關重要的作用。 GROMACS 可以并行使用多個 GPU 以盡可能快地運行每個模擬。 在過去幾年中, NVIDIA 和 主要 GROMACS 開發人員 合作進行了一系列多 GPU 和多節點優化。 在這篇文章中,我們展示了這些改進中的最新進展,通過啟用 GPU 粒子網格 Ewald ( PME )分解和 GPU directcommunication :新 GROMACS 2023 發布版本中提供的一項功能。我們觀察到,通過這項工作,性能提高了 21 倍。 在 之前的文章 中,我們對單個節點內的多 GPU 可伸縮性進行了優化,包括 GPU direct 通信的開發。我們描述了 GROMACS 通常如何將一個 GPU 分配給 PME…
Source
]]>
6266
-
針對 NVIDIA GPU 的低延遲交易和快速回測的深度神經網絡基準
http://www.open-lab.net/zh-cn/blog/benchmarking-deep-neural-networks-for-low-latency-trading-and-rapid-backtesting-on-nvidia-gpus/
Thu, 02 Feb 2023 03:02:44 +0000
http://www.open-lab.net/zh-cn/blog/?p=6217
Continued]]>
降低對新市場事件的響應時間是算法交易的一個驅動力。對延遲敏感的交易公司通過在其系統中部署諸如現場可編程門陣列( FPGA )和專用集成電路( ASIC )等低級別硬件設備來跟上金融電子市場不斷增長的步伐。 然而,隨著市場變得越來越高效,交易者需要依靠更強大的模型,如深度神經網絡( DNN )來提高盈利能力。由于在低級別硬件設備上實現此類復雜模型需要大量投資,通用 GPU 為 FPGA 和 ASIC 提供了一種可行、經濟高效的替代方案。 NVIDIA 在 STAC 審計的 STAC-ML 推理基準 中證明,1 NVIDIA A100 Tensor Core GPU 可以以低延遲一致地運行 LSTM 模型推斷。這表明, GPU 可以替代或補充現代交易環境中通用性較差的低級硬件設備。 具有長短期記憶的深度神經網絡( LSTM )是時間序列預測的成熟工具。它們也適用于現代金融。
Source
]]>
6217
-
領先的 MLPerf Training 2.1 ,具有針對 AI 的全棧優化
http://www.open-lab.net/zh-cn/blog/leading-mlperf-training-2-1-with-full-stack-optimizations-for-ai/
Wed, 09 Nov 2022 06:26:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5672
Continued]]>
MLCommons 開發的 MLPerf 基準是組織衡量其機器學習模型跨工作負載培訓性能的關鍵評估工具。 MLPerf Training v2.1- 這個以 AI 培訓為重點的基準套件的第七次迭代測試了廣泛流行的 AI 用例的性能,包括以下: 許多人工智能應用程序利用流水線中部署的多個人工智能模型。這意味著,人工智能平臺必須能夠運行當今可用的所有模型,并提供支持新模型創新的性能和靈活性。 NVIDIA AI platform 在此輪中提交了所有工作負載的結果,它仍然是唯一一個提交了所有 MLPerf 培訓工作負載結果的平臺。 在這一輪中, NVIDIA 使用新的 H100 Tensor Core GPU 提交了其首個 MLPerf 訓練結果,與首次提交的 A100 Tensor Core GPU 相比,性能提高了 6.7 倍,與最新的 A100 結果相比,
Source
]]>
5672
-
為 NVIDIA MLPerf Training v2.0 性能提供動力的全堆棧優化
http://www.open-lab.net/zh-cn/blog/boosting-mlperf-training-performance-with-full-stack-optimization/
Thu, 30 Jun 2022 02:02:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=4498
Continued]]>
MLPerf benchmarks 由工業界、學術界和研究實驗室的人工智能領導者組成的聯盟開發,旨在提供標準、公平和有用的深度學習性能測量。 MLPerf 訓練側重于測量時間,以便為以下任務訓練一系列常用的神經網絡: 減少培訓時間對于加快部署時間、最小化總體擁有成本和最大化投資回報至關重要。 然而,與平臺性能一樣重要的是它的多功能性。訓練每個模型的能力,以及提供基礎設施可替代性以運行從訓練到推理的所有人工智能工作負載的能力,對于使組織能夠最大限度地實現其基礎設施投資的回報至關重要。 NVIDIA platform 具有全堆棧創新和豐富的開發人員和應用程序生態系統,仍然是唯一提交所有八個 MLPerf 訓練測試結果,以及提交所有 MLPerf 推理和 MLPerf 高性能計算( HPC )測試結果的系統。 在本文中,您將了解 NVIDIA 在整個堆棧中部署的方法,
Source
]]>
4498
-
通過全棧創新推動高性能計算
http://www.open-lab.net/zh-cn/blog/fueling-high-performance-computing-with-full-stack-innovation/
Wed, 01 Jun 2022 07:42:18 +0000
http://www.open-lab.net/zh-cn/blog/?p=4244
Continued]]>
高性能計算(HPC)已成為科學發現的基本工具。 無論是發現新的拯救生命的藥物,對抗氣候變化,還是創建精確的世界模擬,這些解決方案都需要巨大且快速增長的處理能力。它們越來越超出傳統計算方法的范圍。 這就是為什么業界接受 NVIDIA GPU加速計算的原因。與人工智能相結合,它為科學進步帶來了性能上百萬倍的飛躍。如今,2700個應用程序可以從 NVIDIA GPU 的加速中受益,而且這個數字在不斷增長的300萬開發者社區的支持下繼續上升。 要在整個 HPC 應用程序范圍內實現數倍的加速,需要在堆棧的各個級別進行不懈的創新。這從芯片和系統開始,一直到應用程序框架本身。 NVIDIA 平臺每年都在繼續提供顯著的性能改進,在體系結構和整個 NVIDIA 軟件堆棧方面都取得了不懈的進步。與六年前發布的 P100 相比, H100 Tensor Core GPU…
Source
]]>
4244
-
在 MLPerf 推理 2.0 上獲得最佳性能
http://www.open-lab.net/zh-cn/blog/getting-the-best-performance-on-mlperf-inference-2-0/
Wed, 06 Apr 2022 06:41:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=3595
Continued]]>
Megatron 530B 等機型正在擴大人工智能可以解決的問題范圍。然而,隨著模型的復雜性不斷增加,它們對人工智能計算平臺構成了雙重挑戰: 我們需要的是一個多功能的人工智能平臺,它可以在各種各樣的模型上提供所需的性能,用于訓練和推理。 為了評估這種性能, MLPerf 是唯一一個行業標準人工智能基準,用于測試六個應用程序中的數據中心和邊緣平臺,測量吞吐量、延遲和能效。 在 MLPerf 推理 2.0 , NVIDIA 交付領先的結果在所有工作負載和場景,同時數據中心 GPU 和最新的參賽者,NVIDIA Jetson AGX ORIN SOC 平臺,為邊緣設備和機器人建造。 除了硬件,還需要大量的軟件和優化工作才能充分利用這些平臺。 MLPerf 推理 2.0 的結果展示了如何獲得處理當今日益龐大和復雜的人工智能模型所需的性能。
Source
]]>
3595
-
使用最新的由 NVIDIA 驅動的實例,在云端節省時間和金錢
http://www.open-lab.net/zh-cn/blog/saving-time-and-money-in-the-cloud-with-the-latest-nvidia-powered-instances/
Tue, 01 Mar 2022 07:10:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=3148
Continued]]>
人工智能正在改變每一個行業,實現傳統軟件無法實現的強大的新應用程序和用例。隨著人工智能的不斷擴散,以及人工智能模型的規模和復雜性的不斷增加,人工智能計算性能的重大進步需要跟上。 這就是 NVIDIA 平臺的所在地。 憑借跨越芯片、系統、軟件甚至整個數據中心的全堆棧方法, NVIDIA 為所有人工智能工作負載(包括人工智能培訓)提供了最高的性能和最大的通用性。NVIDIA 在 MLPerf 培訓 v1 中展示了這一點。 1 ,行業標準的最新版本,經同行評審的基準套件,用于測量跨廣泛網絡的 ML 培訓性能。由 NVIDIA A100 GPU 核心張量 提供動力的系統,包括 Azure NDm A100 v4 云實例 ,提供了圖表上的最佳結果,創造了新的記錄,并且是唯一完成所有八項 MLPerf 訓練測試的系統。 所有主要的云服務提供商都提供了由 A100 供電的NVIDIA GPU…
Source
]]>
3148
-
通過全堆棧優化提升 NVIDIA MLPerf Training v1.1 的性能
http://www.open-lab.net/zh-cn/blog/boosting-mlperf-training-v1-1-performance-with-full-stack-optimization/
Wed, 01 Dec 2021 05:30:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=2511
Continued]]>
自 v1.0 以來已經過去了五個月,所以是時候進行新一輪 MLPerf 培訓基準了。在這個 v1.1 版本中,整個硬件和軟件堆棧的優化看到了基于 NVIDIA 平臺提交的基準測試套件的持續改進。這種改進在所有不同的尺度上都是一致的,從單個機器到工業超級計算機,例如由 560 個 NVIDIA DGX A100 系統組成的英偉達 SeleN 和由 768 個節點 A100 系統組成的微軟 Azure NDM A100 V4 集群。 越來越多的組織使用MLPerf基準來指導其AI基礎設施戰略。MLPerf(VZX19的一部分)是由學術界、研究實驗室和工業界的人工智能領導者組成的全球聯盟,其使命是 建立公平和有用的基準 ,為在規定條件下進行的硬件、軟件和服務的培訓和推理性能提供公正的評估。為了保持行業趨勢的領先地位,MLPerf不斷發展,定期舉行新的測試,并添加代表AI最先進水平的新工作負載。
Source
]]>
2511
人人超碰97caoporen国产