InfiniBand – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 12 Dec 2024 04:05:50 +0000
zh-CN
hourly
1
196178272 -
NVIDIA Blackwell 在 MLPerf 訓練 v4.1 中將 LLM 訓練性能提高一倍
http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-doubles-llm-training-performance-in-mlperf-training-v4-1/
Wed, 13 Nov 2024 07:46:17 +0000
http://www.open-lab.net/zh-cn/blog/?p=12054
Continued]]>
隨著模型規模的擴大以及使用更多數據進行訓練,它們的能力也隨之提升,實用性也隨之提升。為了快速訓練這些模型,需要在數據中心規模上提供更高的性能。NVIDIA Blackwell 平臺在 2024 年 GTC 大會上推出,現已全面投產,集成了七類芯片:GPU、CPU、DPU、NVLink Switch 芯片、InfiniBand Switch 和 Ethernet Switch。Blackwell 平臺在每個 GPU 的性能方面實現了巨大飛躍,旨在支持創建更大規模的 AI 集群,從而推動下一代 LLM 的開發。 在最新一輪的 MLPerf 訓練 (一套 AI 訓練基準測試) 中,NVIDIA 使用 Blackwell 平臺首次提交了基準測試預覽類別的測試結果。這些結果表明,在每個 MLPerf 訓練基準測試中,與基于 Hopper 的提交相比,每個加速器的提升幅度很大。
Source
]]>
12054
-
利用 NVIDIA SHARP 網絡計算提升系統性能
http://www.open-lab.net/zh-cn/blog/advancing-performance-with-nvidia-sharp-in-network-computing/
Fri, 25 Oct 2024 06:13:03 +0000
http://www.open-lab.net/zh-cn/blog/?p=11791
Continued]]>
AI 和科學計算應用是分布式計算問題的絕佳示例。這些問題太大了,計算太密集,無法在單臺機器上運行。這些計算被分解為并行任務,這些任務分布在數千個計算引擎中,如 CPU 和 GPU。 為了實現可擴展的性能,該系統依賴于在多個節點上劃分工作負載,如訓練數據、模型參數或兩者。然后,這些節點必須頻繁交換信息,例如模型訓練中反向傳播期間新處理的模型計算的梯度,需要高效的集合通信,如 all-reduce、broadcast 以及 gather 和 scatter 操作。 這些集合通信模式可確保整個分布式系統中模型參數的同步和收斂。這些操作的效率對于最大限度地減少通信開銷和最大限度地提高并行計算至關重要,因為優化不佳的集合通信可能會導致瓶頸,限制可擴展性。 瓶頸源于以下幾個因素: 克服這一瓶頸需要改進網絡技術(例如 InfiniBand 或 RDMA)和算法優化(例如分層 all…
Source
]]>
11791
-
NVIDIA SuperNIC 驅動新一代 AI 網絡發展
http://www.open-lab.net/zh-cn/blog/powering-next-generation-ai-networking-with-nvidia-supernics/
Tue, 15 Oct 2024 04:39:33 +0000
http://www.open-lab.net/zh-cn/blog/?p=11675
Continued]]>
在生成式 AI 時代,加速網絡對于為大規模分布式 AI 工作負載構建高性能計算結構至關重要。NVIDIA 在該領域繼續保持領先地位,提供先進的以太網和 InfiniBand 解決方案,可最大限度地提高 AI 工廠和云數據中心的性能和效率。 這些解決方案的核心是 NVIDIA SuperNIC,一種經過優化的新型網絡加速器,可為超大規模 AI 工作負載提供支持。這些 SuperNIC 是 NVIDIA Spectrum-X 以太網和 Quantum-X800 InfiniBand 網絡平臺的關鍵組件,旨在提供前所未有的可擴展性和性能。 NVIDIA SuperNIC 產品組合中的最新成員 ConnectX-8 SuperNIC 與 BlueField-3 SuperNIC 一起,共同推動加速的大規模 AI 計算結構的新一輪創新浪潮。
Source
]]>
11675
-
利用 NVIDIA Magnum IO NVSHMEM 3.0 實現跨平臺應用程序的可移植性和兼容性增強
http://www.open-lab.net/zh-cn/blog/enhancing-application-portability-and-compatibility-across-new-platforms-using-nvidia-magnum-io-nvshmem-3-0/
Fri, 06 Sep 2024 09:04:14 +0000
http://www.open-lab.net/zh-cn/blog/?p=11311
Continued]]>
NVSHMEM 是一個并行編程接口,可為 NVIDIA GPU 集群提供高效且可擴展的通信。NVSHMEM 是 NVIDIA Magnum IO 的一部分,基于 OpenSHMEM,可為跨越多個 GPU 內存的數據創建全局地址空間,并可通過細粒度的 GPU 初始化操作、CPU 初始化操作和 CUDA 流操作進行訪問。 現有的通信模型(例如 Message Passing Interface(MPI))使用 CPU 編排數據傳輸。相比之下,NVSHMEM 使用 GPU 發起的異步數據傳輸,從而消除 CPU 和 GPU 之間的同步開銷。 本文將詳細介紹NVSHMEM 3.0版本,包括我們在各個平臺和系統中啟用的新功能和支持。 NVSHMEM 3.0 引入了多節點、多互連支持、主機設備 ABI 向后兼容性和 CPU 輔助 InfiniBand GPU…
Source
]]>
11311
-
借助 NVIDIA Quantum InfiniBand 簡化 AI 網絡運營
http://www.open-lab.net/zh-cn/blog/simplifying-network-operations-for-ai-with-nvidia-quantum-infiniband/
Tue, 23 Jan 2024 04:18:58 +0000
http://www.open-lab.net/zh-cn/blog/?p=8809
Continued]]>
一個常見的技術誤區是,性能和復雜性直接相關。也就是說,高性能的實現也是實現和管理最具挑戰性的。但是,在考慮數據中心網絡時,情況并非如此。 與以太網相比,InfiniBand 可能聽起來令人生畏且新奇,但它實際上是更易于部署和維護的,因為它從一開始就是為了實現最高性能而設計的。當您考慮 AI 基礎設施的連接時,InfiniBand 集群操作和維護指南可以幫助您盡可能簡化全棧 InfiniBand 網絡的設置和操作。 本指南全面介紹了簡化網絡運營的基本步驟,特別詳細介紹了如何使用 NVIDIA Unified Fabric Manager(UFM)來協助初始配置和持續維護計劃,適用于第 0 天、第 1 天和第 2 天的網絡運營。 UFM 是一個功能強大的工具集,具有廣泛的遙測和分析功能。但是,開始使用 UFM 了解集群監控和管理的基礎知識不需要任何高級前提條件或專業知識。
Source
]]>
8809
-
高性能計算的能效:平衡速度與可持續性
http://www.open-lab.net/zh-cn/blog/energy-efficiency-in-high-performance-computing-balancing-speed-and-sustainability/
Tue, 14 Nov 2023 06:21:21 +0000
http://www.open-lab.net/zh-cn/blog/?p=8236
Continued]]>
計算世界正處于巨變的邊緣。 對計算能力的需求,尤其是高性能計算 (HPC) 逐年增長,這也意味著能源消耗也在增長。然而,潛在的問題當然是,能源是一種具有局限性的資源。因此,世界面臨的問題是,我們如何更好地將計算重點從性能轉移到能效。 在考慮這個問題時,必須考慮到任務完成率與能耗之間的相關性。這種關系通常會被忽略,但它可能是一個關鍵因素。 本文將探討速度與能效之間的關系,以及向更快完成任務轉變所帶來的影響*. 以交通運輸為例。 在物體運動的情況下,在除真空之外的任何其他情況下,阻力與行駛速度的平方成正比。這意味著在給定距離內,行駛速度是行駛速度的兩倍,所需的力和能量是行駛速度的四倍。人員和貨物在地球周圍移動意味著在空氣或水(在物理學中,兩者都是“流體”)中行駛,這個概念有助于解釋為什么行駛速度更快需要更多的能量。 大多數運輸技術都依賴礦物燃料,
Source
]]>
8236
-
適用于數據中心和 AI 時代的網絡
http://www.open-lab.net/zh-cn/blog/networking-for-data-centers-and-the-era-of-ai/
Thu, 12 Oct 2023 06:19:21 +0000
http://www.open-lab.net/zh-cn/blog/?p=8021
Continued]]>
十多年來,傳統的云數據中心一直是計算基礎設施的基石,滿足了各種用戶和應用程序的需求。然而,近年來,為了跟上技術的進步和對 AI 驅動的計算需求的激增,數據中心進行了發展。本文探討了網絡在塑造數據中心的未來和推動 AI 時代方面發揮的關鍵作用。 目前正在涌現兩類不同的數據中心:AI 工廠和 AI 云。這兩類數據中心都是為滿足 AI 工作負載的獨特需求而定制的,其特點是依賴于加速計算。 AI 工廠旨在處理大規模的工作流程,并開發大語言模型 (LLM) 和其他基礎 AI 模型。這些模型是構建更先進 AI 系統的基礎模組。為了實現跨數千個 GPU 的無縫擴展和資源高效利用,強大的高性能網絡勢在必行。 AI 云擴展了傳統云基礎設施的功能,以支持大規模生成式人工智能應用程序。生成式 AI 超越了傳統的 AI 系統,它基于其訓練的數據創建新的內容,例如圖像、文本和音頻。
Source
]]>
8021
-
新的 MLPerf 推理網絡部門展示 NVIDIA InfiniBand 和 GPUDirect RDMA 功能
http://www.open-lab.net/zh-cn/blog/new-mlperf-inference-network-division-showcases-infiniband-and-gpudirect-rdma-capabilities/
Thu, 06 Jul 2023 04:01:17 +0000
http://www.open-lab.net/zh-cn/blog/?p=7377
Continued]]>
在 MLPerf Inference v3.0 中,NVIDIA 首次向新推出的 網絡分割 投入,現在是 MLPerf 推理數據中心套件的一部分。網絡分割旨在模擬真實的數據中心設置,努力將包括硬件和軟件在內的網絡效果納入端到端推理性能。 網絡部門中有兩種類型的節點:前端節點生成查詢,這些查詢通過標準網絡結構(如以太網或InfiniBand)發送,由加速器節點處理,加速器節點執行推理。 圖 1 顯示了 Closed 分區完全在單個節點上運行。在“網絡”部分中,查詢在“前端”節點上生成,并傳輸到“加速器”節點進行推理。 在網絡部分,加速器節點包含推理加速器以及所有網絡組件。這包括網絡接口控制器( NIC )、網絡交換機和網絡結構。因此,雖然網絡部門試圖衡量加速器節點和網絡的性能,但它排除了前端節點的影響,因為后者在基準測試中的作用有限。
Source
]]>
7377
-
為網絡管理員導航生成式人工智能
http://www.open-lab.net/zh-cn/blog/navigating-generative-ai-for-network-admins/
Thu, 25 May 2023 06:33:54 +0000
http://www.open-lab.net/zh-cn/blog/?p=7130
Continued]]>
我們都知道人工智能正在改變世界。對于網絡管理員來說,人工智能可以以一些驚人的方式改善日常運營: 然而,人工智能無法取代經驗豐富的網絡管理員的專業知識。人工智能旨在增強你的能力,就像一個虛擬助理。因此,人工智能可能會成為你最好的朋友,但生成型人工智能也是一種新的數據中心工作負載,它帶來了新的范式轉變: NVIDIA 集體通信庫( NCCL )。 網絡管理員不得不處理許多其他最近的更改: 不久前,我們可能已經通過特定網絡命令行界面( CLI )的專業水平來衡量新網絡管理員的價值。隨著混合云計算和 DevOps 的出現,從 CLI 到 API 的轉變越來越大。 Ansible 、 SALT 和 Python 方面的技能現在比 Cisco 認證更有價值。 甚至您監控和管理網絡的方式也發生了變化。您已經從使用 SNMP 和 NetFlow…
Source
]]>
7130
-
使用 Alpa 和 Ray 在大型 GPU 集群中高效擴展 LLM 訓練
http://www.open-lab.net/zh-cn/blog/efficiently-scale-llm-training-across-a-large-gpu-cluster-with-alpa-and-ray/
Mon, 15 May 2023 05:21:27 +0000
http://www.open-lab.net/zh-cn/blog/?p=6976
Continued]]>
近年來,大型語言模型( LLM )的數量激增,它們超越了傳統的語言任務,擴展到生成式人工智能這包括像 ChatGPT 和 Stable Diffusion 這樣的模型。隨著這種對生成人工智能的關注不斷增長,人們越來越需要一種現代機器學習( ML )基礎設施,使日常從業者能夠訪問可擴展性。 本文介紹了兩個開源框架,Alpa.ai和Ray.io,共同努力實現訓練 1750 億參數所需的規模JAX transformer具有流水線并行性的模型。我們詳細探討了這兩個集成框架,以及它們的組合架構、對開發人員友好的 API 、可伸縮性和性能。 Alpa 和 Ray 的核心都是為了提高開發人員的速度和有效地擴展模型。 Alpa 框架的流水線并行功能可以輕松地在多個 GPU 上并行化大型模型的計算,并減輕開發人員的認知負擔。 Ray 提供了一個分布式計算框架,可以簡化跨多臺機器的資源擴展和管理。
Source
]]>
6976
-
通過 AI 的全棧優化在 MLPerf 推理 v3.0 中創下新紀錄
http://www.open-lab.net/zh-cn/blog/setting-new-records-in-mlperf-inference-v3-0-with-full-stack-optimizations-for-ai/
Wed, 05 Apr 2023 03:03:51 +0000
http://www.open-lab.net/zh-cn/blog/?p=6677
Continued]]>
目前最令人興奮的計算應用程序依賴于在復雜的人工智能模型上進行訓練和運行推理,通常是在要求苛刻的實時部署場景中。需要高性能、加速的人工智能平臺來滿足這些應用程序的需求,并提供最佳的用戶體驗 新的人工智能模型不斷被發明,以實現新的功能,而人工智能驅動的應用程序往往依賴于許多這樣的模型協同工作。這意味著人工智能平臺必須能夠運行最廣泛的工作負載,并在所有工作負載上提供優異的性能。MLPerf Inference– 現在, v3.0 的第七版是一套值得信賴的、經過同行評審的標準化推理性能測試,代表了許多這樣的人工智能模型。 人工智能應用程序無處不在,從最大的超大規模數據中心到緊湊的邊緣設備。 MLPerf 推理同時代表數據中心和邊緣環境。它還代表了一系列真實世界的場景,如離線(批處理)處理、延遲受限的服務器、單流和多流場景。
Source
]]>
6677
-
優化數據中心網絡
http://www.open-lab.net/zh-cn/blog/optimizing-your-data-center-network/
Tue, 24 May 2022 03:51:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=4134
Continued]]>
通過以下兩種方式更新關鍵網絡架構,可以優化數據中心:通過網絡技術或 NetDevOps 中的操作效率。在本文中,我們將確定并評估可應用于網絡體系結構以優化網絡的技術。 我們將介紹五個更新,您應該考慮這些更新來改進數據中心: VXLAN 是一種覆蓋技術,它使用封裝允許第二層覆蓋 VLAN 跨第三層網絡。第 2 層網絡有一些固有的缺點: VXLAN 克服了這些缺陷,允許網絡運營商在第 3 層路由結構上進行優化。仍然可以實現第 2 層覆蓋,但由于依賴 EVPN 作為控制平面,因此不再需要生成樹來進行控制平面收斂。 EVPN 通過 BGP 地址族交換 MAC 信息,而不是依賴廣播泛洪和學習的低效性。此外, VXLAN 使用 24 位 ID ,可定義多達 1600 萬個虛擬網絡,而 VLAN 只有 12 位 ID ,僅限于 4094 個虛擬網絡。
Source
]]>
4134
-
NVIDIA DGX A100 助力百圖生科構建獨特的生物計算引擎
http://www.open-lab.net/zh-cn/blog/nvidia-dgx-a100-biomap/
Thu, 19 May 2022 08:42:39 +0000
http://www.open-lab.net/zh-cn/blog/?p=4039
Continued]]>
本案例中通過 NVIDIA DGX A100 80GB 和 NVIDIA 網絡交換機,百圖生科構建了獨特的生物計算引擎,建立高質量、高效率的靶點篩查和藥物設計,從而構建藥物研發平臺。從海量生物數據與信息中抽取知識,繪制 “BioMap” ,將創新藥物研發的 “大海撈針” 變為 “按圖索驥” 。 • 本案例主要應用到 DGX A100 80GB; NVIDIA 網絡交換機。 • 本案例中, NVIDIA 精英級合作伙伴信弘智能助力百圖生科部署了高效的 AI 計算平臺。 百圖生科(BioMap)是一家生物計算驅動的生命科學平臺公司,致力于將先進 AI 技術與前沿生物技術相結合,構建獨特的靶點挖掘及藥物設計能力,開發創新的藥物和診斷產品。 利用生物計算引擎,加速對復雜疾病機理的發現進程,從而提升生命科學研發的效率。
Source
]]>
4039
-
宣布 NVIDIA Nsight Systems 2021 . 5
http://www.open-lab.net/zh-cn/blog/announcing-nsight-systems-2021-5/
Wed, 10 Nov 2021 04:56:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=2287
Continued]]>
NVIDIA Nsight Systems 的最新更新 – 性能分析工具現在可下載 。此版本旨在幫助您跨 CPU 和 GPU 調整和擴展軟件,并引入了一些旨在增強評測體驗的改進。 Nsight Systems 是強大的調試和評測 NVIDIA Nsight Tools Suite 的一部分。您可以從 Nsight Systems 開始查看整個系統視圖,避免基于假設和誤報指標選擇效率較低的優化。 多報告視圖增強功能(即將推出)可以改進調查。它們支持合并到單個時間軸報表中,這些報表是現有會話的延續,或者是從其他服務器節點、 VM 、容器、列組和進程同時捕獲的報表。 NVIDIA NIC Infiniband 度量采樣(實驗)使您能夠了解服務器通信的詳細信息,例如吞吐量、數據包計數和擁塞通知。 使用 DirectX12 跟蹤,
Source
]]>
2287
-
使用 Magnum IO 加速云本機超級計算
http://www.open-lab.net/zh-cn/blog/accelerating-cloud-native-supercomputing-with-magnum-io/
Tue, 09 Nov 2021 06:54:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=2135
Continued]]>
超級計算機是一項重要的投資,但對于研究人員和科學家來說,它們是極其寶貴的工具。為了有效和安全地共享這些數據中心的計算能力, NVIDIA 引入了云本地超級計算架構。它結合了裸機性能、多租戶和超級計算的性能隔離。 Magnum IO是數據中心的 I / O 子系統,它引入了新的增強功能,以加速支持多租戶數據中心的 I / O 和通信。我們將這些增強功能稱為 Magnum IO ,用于云本機超級計算架構。 它們由 NVIDIA Quantum-2 InfiniBand 平臺提供,該平臺包括 NVIDIA Quantum-2 交換機系列、BlueField-3 DPU 和 ConnectX-7 網絡適配器。 基于 GPU 的高性能計算已經通過機器學習和模擬改變了科學并增強了實驗。運行這些深度學習框架和模擬工具的 GPU 會消耗數 PB 的數據,并在整個數據中心造成擁塞和瓶頸。
Source
]]>
2135
人人超碰97caoporen国产