大型語言模型(LLM)越來越大,增加了處理推理請求所需的計算量。為了滿足服務當今LLM的實時延遲要求,并為盡可能多的用戶提供服務,多GPU計算是必不可少的。這不僅能夠降低延遲,提高用戶體驗,還能夠提高吞吐量,降低服務成本。兩者同時重要。
即使大型模型可以裝入單個state-of-the-art GPU的內存中,該GPU生成令牌的速率也取決于可用于處理請求的總計算量。通過結合多個state-of-the-art GPU的計算能力,可以實現最新模型的實時用戶體驗。
為了解對每秒高令牌的需求,以下 GIF 展示了兩種情況:
- 5 個令牌/秒:低于正常的人類閱讀速度,而非實時。
- 50 個令牌/秒:出色的用戶體驗。

通過使用多個 GPU 的組合計算性能和張量并行 (TP) 等技術來運行大型模型,可以快速處理推理請求,從而實現實時響應。通過精心選擇用于運行模型的 GPU 數量,云推理服務還可以同時優化用戶體驗和成本。
有關用于平衡用戶體驗的并行技術的更多信息,請參閱Demystifying AI Inference Deployments for Trillion Parameter Large Language Models。
多 GPU 推理是通信密集型推理
多 GPU TP 推理的工作原理是將每個模型層的計算拆分為服務器中的兩個、四個甚至八個 GPU。理論上,兩個 GPU 可以將模型的運行速度提升 2 倍,四個 GPU 可以提升 4 倍,八個 GPU 可以提升 8 倍。
但是,每個 GPU 無法獨立完成其工作。在每個 GPU 完成模型層各自部分的執行后,每個 GPU 必須將計算結果發送到每個其他 GPU,執行 all-to-all reduction。只有這樣,推理執行才能繼續到下一個模型層。
盡可能縮短 GPU 之間的結果通信時間至關重要,因為在此通信期間,Tensor Core 通常保持空閑狀態,等待數據繼續處理。
在此通信步驟中,必須傳輸大量數據。對 Llama 3.1 70B(8K 輸入令牌和 256 個輸出令牌)的單個查詢需要從每個 GPU 傳輸多達 20GB 的 TP 同步數據。由于多個查詢通過批處理并行處理,以提高推理吞吐量,因此傳輸的數據量增加了倍數。
因此,高帶寬 GPU 到 GPU 互連對于多 GPU 推理至關重要。
NVSwitch 對于快速的多 GPU LLM 推理至關重要
為了實現良好的多 GPU 擴展,AI 服務器首先需要每個 GPU 具有出色的互連帶寬。它還必須提供快速連接,以使所有 GPU 能夠盡快與所有其他 GPU 交換數據。
NVIDIA Hopper 架構 GPU 可以使用第四代 NVLink 以 900 GB/s 的速度進行通信。借助 NVSwitch,服務器中的每個 NVIDIA Hopper GPU 都可以與任何其他 NVIDIA Hopper GPU 同時以 900 GB/s 的速度進行通信。
峰值速率并不取決于通信的 GPU 數量。這意味著,NVSwitch 是無阻塞的。每個配備 8 個 GPU 的 NVIDIA HGX H100 和 NVIDIA HGX H200 系統都配備 4 個第三代 NVSwitch 芯片。每個 NVSwitch 芯片的總雙向帶寬高達 25.6 Tb/s,令人驚嘆。

為便于比較,假設一臺服務器配備 8 個 H200 GPU,但沒有使用 NVSwitch,而是使用服務器主板上的點對點連接(圖 4)。

在點對點設計中,盡管沒有四個高速交換機可以降低系統成本,但每個 GPU 都必須將相同的 900 GB/s 連接拆分為七個專用的 128 GB/s 點對點連接,每個連接都連接到系統中的另一個 GPU。這意味著 GPU 之間的通信速度取決于正在通信的 GPU 數量。
GPU 數量 | 點到點帶寬 | NVSwitch 帶寬 |
2 | 128 GB/秒 | 900 GB/s |
4 | 3 x 128 GB/s | 900 GB/s |
8 | 7 x 128 GB/秒 | 900 GB/s |
表 1 顯示了通過點對點互連連接的 GPU 與通過 NVSwitch 連接的 GPU 之間的 GPU 到 GPU 帶寬比較。
對于只需要兩個 GPU 以實現用戶體驗和成本最佳平衡的模型(例如 Llama 3.1 70B),點對點架構僅提供 128 GB/s 的帶寬。20 GB 的數據將消耗 150 毫秒,僅執行眾多多對多減少中的一個。由于通信用度高,Amdahl 定律限制了每增加一個 GPU 可能實現的加速。
與此同時,使用 NVSwitch 的系統將提供完整的 900 GB/s 帶寬,僅需 22 毫秒傳輸 20 GB,從而大幅減少 GPU 之間通信所花費的時間。這對整體推理吞吐量和用戶體驗產生了重大的影響。
云服務通常為模型服務設置固定的響應時間預算,以提供良好的最終用戶體驗。這通常意味著能夠以快于人類閱讀速度的速度生成令牌。為了最大限度地提高吞吐量并降低服務成本,我們會在保持響應時間的同時對請求進行盡可能高的批量處理,以充分發揮云服務的優勢。
表 2 顯示了在每秒 30-50 個令牌/用戶的不同實時響應時間預算下測量的 Llama 3.1 70億吞吐量。
實時響應預算 tok/s/用戶 |
吞吐量tok/s/GPU (批量大小) | NVSwitch 交換機 優勢 | ||
單個 GPU TP = 1 | 點到點 TP = 2 | NVSwitch 交換機 TP = 2 | ||
30 | 67 (2) | 80 (6) | 115 (9) | 1.4 倍 |
35 | 不符合 | 74 (5) | 104 (7) | 1.4 倍 |
40 | 不符合 | 67 (4) | 87 (5) | 1.3 倍 |
45 | 不符合 | 56 (3) | 76 (4) | 1.4 倍 |
50 | 不符合 | 43 (2) | 63 (3) | 1.5 倍 |
使用內部測量對吞吐量建模。H200 GPU,ISL/OSL = 8k/256、
如表 2 所示,單個 GPU 配置 (TP=1) 在實現實時性能方面面臨挑戰。使用跨兩個 GPU 的張量并行分割模型可結合兩個 GPU 的計算資源,在各種實時體驗預算中實現高吞吐量。使用 TP=2 和 NVSwitch 的 NVIDIA H200 GPU 的實時推理吞吐量比不使用 NVSwitch 的同類 GPU 高 1.5 倍。
為了展示 NVSwitch 如何受益于增加 GPU 到 GPU 通信流量的場景,表 3 顯示了在固定批量大小下的整體服務器吞吐量。更大的批量大小意味著來自越來越多的用戶的請求可以一次性處理,從而提高整體服務器利用率并降低每次推理的成本。
批量大小 |
吞吐量 tok/s/GPU | NVSwitch 交換機優勢 |
|
點到點 | NVSwitch 交換機 | ||
1 | 25 | 26 | 1.0 倍 |
2 | 44 | 47 | 1.1 倍 |
4 | 66 | 76 | 1.2 倍 |
8 | 87 | 110 | 1.3 倍 |
16 | 103 | 142 | 1.4 倍 |
32 | 112 | 168 | 1.5 倍 |
使用內部測量對吞吐量建模。H200 GPU,TP = 2,ISL/OSL = 8K/256、
隨著批量大小的增加,GPU 到 GPU 的流量也會增加,與點到點拓撲相比,NVSwitch 提供的優勢也會增加。但是,即使批量大小相對較小,收益也會明顯增加。
針對萬億參數模型推理持續進行 NVLink 創新
NVLink 和 NVSwitch 基于 NVIDIA Hopper 架構在 GPU 之間提供高帶寬的通信,并為當今經濟高效的實時大型模型推理提供明顯優勢。
隨著模型規模的不斷增長,NVIDIA 通過 NVLink 和 NVSwitch 不斷創新,為更大的 NVLink 領域突破實時推理性能的極限。
NVIDIA Blackwell 架構采用第五代 NVLink,將每個 GPU 的 NVLink 速度提高一倍,達到 1800 GB/s。對于 Blackwell,還推出了新的 NVSwitch 芯片和 NVLink 交換機托盤,以支持更大的 NVLink 域大小。
NVIDIA GB200 NVL72 系統采用機架級設計,可連接 36 個 NVIDIA Grace CPU 和 72 個 NVIDIA Blackwell GPU,并借助第五代 NVLink,使所有 72 個 GPU 能夠作為單個 GPU 發揮作用,與上一代產品相比,實時萬億參數推理的速度提高了 30 倍。
?