Anton Korzh – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 06 Nov 2024 09:15:10 +0000 zh-CN hourly 1 196178272 NVSwitch 和 TensorRT-LLM MultiShot 共同加速 AllReduce 速度達 3 倍 http://www.open-lab.net/zh-cn/blog/3x-faster-allreduce-with-nvswitch-and-tensorrt-llm-multishot/ Fri, 01 Nov 2024 09:11:33 +0000 http://www.open-lab.net/zh-cn/blog/?p=11840 Continued]]> 在用戶數量可能在數百到數十萬之間波動,且輸入序列長度隨每個請求而變化的生產環境中,部署生成式 AI 工作負載會面臨獨特的挑戰。要在這些環境中實現低延遲推理,無論 GPU 生成方式或顯存容量如何,多 GPU 設置都是必需的。為了提高生產級設置中的推理性能,我們很高興推出 TensorRT-LLM Multi-shot,這是一種新的多 GPU 通信協議,利用 NVIDIA NVLink Switch 可將通信速度大幅提升高達 3 倍。本博客概述了這一新功能,以及它如何幫助開發者和解決方案架構師克服傳統多 GPU 通信方法的限制。 對于低延遲推理,無論單個 GPU 的顯存容量如何,多 GPU 都至關重要。但是,在低并發情況下,GPU 花在交換數據上的時間可能超過花在計算上的時間。為了獲得最佳性能, 高效的 AllReduce 操作 –結合每個參與其中的 GPU 的部分結果的集合操作…

Source

]]>
11840
人人超碰97caoporen国产