超級計算/集群 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 20 Jul 2023 05:35:46 +0000 zh-CN hourly 1 196178272 量子經典超級計算機的編程 http://www.open-lab.net/zh-cn/blog/programming-the-quantum-classical-supercomputer/ Wed, 19 Jul 2023 05:32:38 +0000 http://www.open-lab.net/zh-cn/blog/?p=7428 Continued]]> 異構計算架構——那些結合了各種協同工作的處理器類型的架構——在人工智能、機器學習( ML )、量子物理和通用數據科學中的計算工作負載的持續可擴展性方面被證明是非常有價值的。 這一開發的關鍵在于能夠抽象出異構體系結構,并促進一個框架,使設計和實現這類應用程序更加高效。實現這一點的最著名的編程模型是 CUDA Toolkit,它能夠按照單指令多數據模型將工作并行地分發到數千個 GPU 核心。 最近,一種新形式的節點級協處理器技術引起了計算科學界的注意:量子計算機,它依靠量子物理的非直觀定律,利用疊加、糾纏和干涉等原理來處理信息。這種獨特的加速器技術可能在非常具體的應用中被證明是有用的,并準備與 CPU 和 GPU 協同工作,開創了一個以前被認為不可行的計算進步時代。 問題變成了:如果你用量子協處理器增強現有的經典異構計算架構,你將如何以適合計算可擴展性的方式對其進行編程?

Source

]]>
7428
利用 MLAG 最大限度地提高 AI 以太網結構性能 http://www.open-lab.net/zh-cn/blog/maximizing-hpc-cluster-ethernet-fabric-performance-with-mlag/ Wed, 21 Jun 2023 07:17:18 +0000 http://www.open-lab.net/zh-cn/blog/?p=7287 Continued]]> 對于專門為人工智能訓練而構建的 HPC 集群,例如 NVIDIA DGX BasePOD 和 NVIDIA DGX SuperPOD,微調集群對于提高和優化整體性能至關重要,包括調整以太網結構、存儲結構和計算結構的性能。 本文討論了如何最大限度地提高以太網結構的整體吞吐量,通過使用Multi-Chassis Link Aggregation(MLAG),可在NVIDIA Cumulus Linux上實現。MLAG 使兩個獨立的交換機能夠向下游主機通告相同的 LACP 系統 ID,因此,下游主機會認為它們連接到單個 LACP 伙伴。 使用 MLAG 的一個好處是物理交換機級冗余。如果兩個上行鏈路交換機中的任何一個發生故障,則下游主機流量將不會受到影響。第二個好處是聚合債券的上行鏈可以同時使用。最后, MLAG 技術使用諸如 VRR / VRRP 之類的技術提供網關級冗余。

Source

]]>
7287
CUDA 12.1 支持大內核參數 http://www.open-lab.net/zh-cn/blog/cuda-12-1-supports-large-kernel-parameters/ Mon, 05 Jun 2023 06:57:22 +0000 http://www.open-lab.net/zh-cn/blog/?p=7163 Continued]]> CUDA 內核函數參數通過恒定存儲器傳遞給設備,并且被限制為 4096 字節。 CUDA 12.1 將此參數限制從 4096 字節增加到 32764 字節,在所有設備架構上都有效,包括 NVIDIA Volta 及以上。 以前,傳遞超過 4096 字節的內核參數需要通過將多余的參數復制到常量內存中來繞過內核參數限制或,如下面的片段所示。 這種方法限制了可用性,因為您必須顯式管理常量內存分配和副本。復制操作還增加了顯著的延遲,降低了接受大于 4096 字節參數的延遲綁定內核的性能。 從 CUDA 12 . 1 開始,您現在可以在 NVIDIA Volta 及更高版本上傳遞多達 32764 個字節作為內核參數,從而得到下面第二個片段中所示的簡化實現。 請注意,在前面的兩個示例中,內核參數都用限定符,以指示它們是只讀的。 注意,

Source

]]>
7163
宣布推出 NVIDIA DGX GH200 :首款 100 兆字節 GPU 內存系統 http://www.open-lab.net/zh-cn/blog/announcing-nvidia-dgx-gh200-first-100-terabyte-gpu-memory-system/ Sun, 28 May 2023 05:54:54 +0000 http://www.open-lab.net/zh-cn/blog/?p=7111 Continued]]> 在COMPUTEX 2023, NVIDIA 宣布NVIDIA DGX GH200,這標志著 GPU 的又一突破——加速計算,為最苛刻的巨型人工智能工作負載提供動力。除了描述 NVIDIA DGX GH200 體系結構的關鍵方面外,本文還討論了如何使用NVIDIA Base Command實現快速部署,加快用戶入職,并簡化系統管理。 GPU 的統一內存編程模型是過去 7 年來復雜加速計算應用取得各種突破的基石。 2016 年, NVIDIA 推出NVLink技術和帶有 CUDA-6 的統一內存編程模型,旨在增加 GPU 加速工作負載的可用內存。 從那時起,每個 DGX 系統的核心都是與 NVLink 互連的基板上的 GPU 復合體,其中每個 GPU 可以以 NVLink 的速度訪問另一個的存儲器。許多具有 GPU 復合體的 DGX 通過高速網絡互連,形成更大的超級計算機,

Source

]]>
7111
人人超碰97caoporen国产