• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 數據中心/云端

    NVIDIA NVLink 和 NVIDIA NVSwitch 加速大語言模型推理性能

    大型語言模型(LLM)越來越大,增加了處理推理請求所需的計算量。為了滿足服務當今LLM的實時延遲要求,并為盡可能多的用戶提供服務,多GPU計算是必不可少的。這不僅能夠降低延遲,提高用戶體驗,還能夠提高吞吐量,降低服務成本。兩者同時重要。

    即使大型模型可以裝入單個state-of-the-art GPU的內存中,該GPU生成令牌的速率也取決于可用于處理請求的總計算量。通過結合多個state-of-the-art GPU的計算能力,可以實現最新模型的實時用戶體驗。

    為了解對每秒高令牌的需求,以下 GIF 展示了兩種情況:

    • 5 個令牌/秒:低于正常的人類閱讀速度,而非實時。
    • 50 個令牌/秒:出色的用戶體驗。
    GIF displays three lines of a Shakespeare quote from Macbeth with words appearing one at a time.
    圖 1.5 個令牌/秒輸出示例
    GIF displays 20 lines of a Shakespeare quote from Macbeth with entire lines appearing quickly.
    圖 2.50 個令牌/秒輸出示例

    通過使用多個 GPU 的組合計算性能和張量并行 (TP) 等技術來運行大型模型,可以快速處理推理請求,從而實現實時響應。通過精心選擇用于運行模型的 GPU 數量,云推理服務還可以同時優化用戶體驗和成本。

    有關用于平衡用戶體驗的并行技術的更多信息,請參閱Demystifying AI Inference Deployments for Trillion Parameter Large Language Models

    多 GPU 推理是通信密集型推理

    多 GPU TP 推理的工作原理是將每個模型層的計算拆分為服務器中的兩個、四個甚至八個 GPU。理論上,兩個 GPU 可以將模型的運行速度提升 2 倍,四個 GPU 可以提升 4 倍,八個 GPU 可以提升 8 倍。

    但是,每個 GPU 無法獨立完成其工作。在每個 GPU 完成模型層各自部分的執行后,每個 GPU 必須將計算結果發送到每個其他 GPU,執行 all-to-all reduction。只有這樣,推理執行才能繼續到下一個模型層。

    盡可能縮短 GPU 之間的結果通信時間至關重要,因為在此通信期間,Tensor Core 通常保持空閑狀態,等待數據繼續處理。

    在此通信步驟中,必須傳輸大量數據。對 Llama 3.1 70B(8K 輸入令牌和 256 個輸出令牌)的單個查詢需要從每個 GPU 傳輸多達 20GB 的 TP 同步數據。由于多個查詢通過批處理并行處理,以提高推理吞吐量,因此傳輸的數據量增加了倍數。

    因此,高帶寬 GPU 到 GPU 互連對于多 GPU 推理至關重要。

    NVSwitch 對于快速的多 GPU LLM 推理至關重要

    為了實現良好的多 GPU 擴展,AI 服務器首先需要每個 GPU 具有出色的互連帶寬。它還必須提供快速連接,以使所有 GPU 能夠盡快與所有其他 GPU 交換數據。

    NVIDIA Hopper 架構 GPU 可以使用第四代 NVLink 以 900 GB/s 的速度進行通信。借助 NVSwitch,服務器中的每個 NVIDIA Hopper GPU 都可以與任何其他 NVIDIA Hopper GPU 同時以 900 GB/s 的速度進行通信。

    峰值速率并不取決于通信的 GPU 數量。這意味著,NVSwitch 是無阻塞的。每個配備 8 個 GPU 的 NVIDIA HGX H100 和 NVIDIA HGX H200 系統都配備 4 個第三代 NVSwitch 芯片。每個 NVSwitch 芯片的總雙向帶寬高達 25.6 Tb/s,令人驚嘆。

    Picture of the NVIDIA Hopper Architecture GPU with a callout showing the four NVSwitch chips.
    圖 3.配備四個 NVIDIA NVSwitch 設備的 HGX H200 8-GPU

    為便于比較,假設一臺服務器配備 8 個 H200 GPU,但沒有使用 NVSwitch,而是使用服務器主板上的點對點連接(圖 4)。

    Diagram shows 8 GPUs on the top, each with links going to every other GPU. On the bottom, 8 GPUs are connected to each other with a centralized NVSwitch.
    圖 4.G支持和不支持 NVSwitch 多對多交換機拓撲的 PU 到 GPU 帶寬

    在點對點設計中,盡管沒有四個高速交換機可以降低系統成本,但每個 GPU 都必須將相同的 900 GB/s 連接拆分為七個專用的 128 GB/s 點對點連接,每個連接都連接到系統中的另一個 GPU。這意味著 GPU 之間的通信速度取決于正在通信的 GPU 數量。

    GPU 數量 點到點帶寬 NVSwitch 帶寬
    2 128 GB/秒 900 GB/s
    4 3 x 128 GB/s 900 GB/s
    8 7 x 128 GB/秒 900 GB/s
    表 1.GPU 與 GPU 帶寬比較

    表 1 顯示了通過點對點互連連接的 GPU 與通過 NVSwitch 連接的 GPU 之間的 GPU 到 GPU 帶寬比較。

    對于只需要兩個 GPU 以實現用戶體驗和成本最佳平衡的模型(例如 Llama 3.1 70B),點對點架構僅提供 128 GB/s 的帶寬。20 GB 的數據將消耗 150 毫秒,僅執行眾多多對多減少中的一個。由于通信用度高,Amdahl 定律限制了每增加一個 GPU 可能實現的加速。

    與此同時,使用 NVSwitch 的系統將提供完整的 900 GB/s 帶寬,僅需 22 毫秒傳輸 20 GB,從而大幅減少 GPU 之間通信所花費的時間。這對整體推理吞吐量和用戶體驗產生了重大的影響。

    On the top of the diagram are two GPUs connected with a small green line, with an indicator that communication makes up a large portion of the execution time. On the bottom, two GPUs are connected via NVSwitch, with communication making up a small portion of the execution time.
    圖 5.使用和不使用 NVSwitch 的多 GPU 通信

    云服務通常為模型服務設置固定的響應時間預算,以提供良好的最終用戶體驗。這通常意味著能夠以快于人類閱讀速度的速度生成令牌。為了最大限度地提高吞吐量并降低服務成本,我們會在保持響應時間的同時對請求進行盡可能高的批量處理,以充分發揮云服務的優勢。

    表 2 顯示了在每秒 30-50 個令牌/用戶的不同實時響應時間預算下測量的 Llama 3.1 70億吞吐量。


    實時響應預算 tok/s/用戶
    吞吐量tok/s/GPU (批量大小) NVSwitch 交換機 優勢
    單個 GPU TP = 1 點到點 TP = 2 NVSwitch 交換機 TP = 2
    30 67 (2) 80 (6) 115 (9) 1.4 倍
    35 不符合 74 (5) 104 (7) 1.4 倍
    40 不符合 67 (4) 87 (5) 1.3 倍
    45 不符合 56 (3) 76 (4) 1.4 倍
    50 不符合 43 (2) 63 (3) 1.5 倍
    表 2. 在各種實時用戶體驗目標下的批量大小中,Llama 3.1 70B 推理的吞吐量和 NVSwitch 優勢

    使用內部測量對吞吐量建模。H200 GPU,ISL/OSL = 8k/256、

    如表 2 所示,單個 GPU 配置 (TP=1) 在實現實時性能方面面臨挑戰。使用跨兩個 GPU 的張量并行分割模型可結合兩個 GPU 的計算資源,在各種實時體驗預算中實現高吞吐量。使用 TP=2 和 NVSwitch 的 NVIDIA H200 GPU 的實時推理吞吐量比不使用 NVSwitch 的同類 GPU 高 1.5 倍。

    為了展示 NVSwitch 如何受益于增加 GPU 到 GPU 通信流量的場景,表 3 顯示了在固定批量大小下的整體服務器吞吐量。更大的批量大小意味著來自越來越多的用戶的請求可以一次性處理,從而提高整體服務器利用率并降低每次推理的成本。


    批量大小
    吞吐量 tok/s/GPU
    NVSwitch 交換機優勢
    點到點 NVSwitch 交換機
    1 25 26 1.0 倍
    2 44 47 1.1 倍
    4 66 76 1.2 倍
    8 87 110 1.3 倍
    16 103 142 1.4 倍
    32 112 168 1.5 倍
    表 3.不同固定批量大小下 Llama 3.1 70B 推理的吞吐量和 NVSwitch 優勢

    使用內部測量對吞吐量建模。H200 GPU,TP = 2,ISL/OSL = 8K/256、

    隨著批量大小的增加,GPU 到 GPU 的流量也會增加,與點到點拓撲相比,NVSwitch 提供的優勢也會增加。但是,即使批量大小相對較小,收益也會明顯增加。

    NVLink 和 NVSwitch 基于 NVIDIA Hopper 架構在 GPU 之間提供高帶寬的通信,并為當今經濟高效的實時大型模型推理提供明顯優勢。

    隨著模型規模的不斷增長,NVIDIA 通過 NVLink 和 NVSwitch 不斷創新,為更大的 NVLink 領域突破實時推理性能的極限。

    NVIDIA Blackwell 架構采用第五代 NVLink,將每個 GPU 的 NVLink 速度提高一倍,達到 1800 GB/s。對于 Blackwell,還推出了新的 NVSwitch 芯片和 NVLink 交換機托盤,以支持更大的 NVLink 域大小。

    NVIDIA GB200 NVL72 系統采用機架級設計,可連接 36 個 NVIDIA Grace CPU 和 72 個 NVIDIA Blackwell GPU,并借助第五代 NVLink,使所有 72 個 GPU 能夠作為單個 GPU 發揮作用,與上一代產品相比,實時萬億參數推理的速度提高了 30 倍。

    ?

    +3

    標簽

    人人超碰97caoporen国产