NVSwitch 和 TensorRT-LLM MultiShot 共同加速 AllReduce 速度達 3 倍

Fri, 01 Nov 2024 09:11:33 +0000

在用戶數量可能在數百到數十萬之間波動，且輸入序列長度隨每個請求而變化的生產環境中，部署生成式 AI 工作負載會面臨獨特的挑戰。要在這些環境中實現低延遲推理，無論 GPU 生成方式或顯存容量如何，多 GPU 設置都是必需的。為了提高生產級設置中的推理性能，我們很高興推出 TensorRT-LLM Multi-shot，這是一種新的多 GPU 通信協議，利用 NVIDIA NVLink Switch 可將通信速度大幅提升高達 3 倍。本博客概述了這一新功能，以及它如何幫助開發者和解決方案架構師克服傳統多 GPU 通信方法的限制。對于低延遲推理，無論單個 GPU 的顯存容量如何，多 GPU 都至關重要。但是，在低并發情況下，GPU 花在交換數據上的時間可能超過花在計算上的時間。為了獲得最佳性能，高效的 AllReduce 操作 –結合每個參與其中的 GPU 的部分結果的集合操作…

Source

]]>

Anton Korzh – NVIDIA 技術博客

NVSwitch 和 TensorRT-LLM MultiShot 共同加速 AllReduce 速度達 3 倍