Brian Pharris – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 06 Nov 2024 09:15:10 +0000 zh-CN hourly 1 196178272 NVSwitch 和 TensorRT-LLM MultiShot 共同加速 AllReduce 速度達 3 倍 http://www.open-lab.net/zh-cn/blog/3x-faster-allreduce-with-nvswitch-and-tensorrt-llm-multishot/ Fri, 01 Nov 2024 09:11:33 +0000 http://www.open-lab.net/zh-cn/blog/?p=11840 Continued]]> 在用戶數量可能在數百到數十萬之間波動,且輸入序列長度隨每個請求而變化的生產環境中,部署生成式 AI 工作負載會面臨獨特的挑戰。要在這些環境中實現低延遲推理,無論 GPU 生成方式或顯存容量如何,多 GPU 設置都是必需的。為了提高生產級設置中的推理性能,我們很高興推出 TensorRT-LLM Multi-shot,這是一種新的多 GPU 通信協議,利用 NVIDIA NVLink Switch 可將通信速度大幅提升高達 3 倍。本博客概述了這一新功能,以及它如何幫助開發者和解決方案架構師克服傳統多 GPU 通信方法的限制。 對于低延遲推理,無論單個 GPU 的顯存容量如何,多 GPU 都至關重要。但是,在低并發情況下,GPU 花在交換數據上的時間可能超過花在計算上的時間。為了獲得最佳性能, 高效的 AllReduce 操作 –結合每個參與其中的 GPU 的部分結果的集合操作…

Source

]]>
11840
全棧創新為 NVIDIA 最高 MLPerf 推斷 2.1 結果提供燃料 http://www.open-lab.net/zh-cn/blog/full-stack-innovation-fuels-highest-mlperf-inference-2-1-results-for-nvidia/ Thu, 08 Sep 2022 05:50:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5288 Continued]]> 如今,人工智能驅動的應用程序正在實現更豐富的體驗,這是由更大和更復雜的人工智能模型以及許多模型在管道中的應用所推動的。為了滿足注入人工智能的應用程序日益增長的需求,人工智能平臺不僅必須提供高性能,而且必須具有足夠的通用性,以便在各種人工智能模型中提供這種性能。為了最大限度地提高基礎設施利用率并優化 CapEx ,在同一基礎設施上運行整個 AI 工作流的能力至關重要:從數據準備和模型培訓到部署推理。 MLPerf 基準 已成為行業標準、同行評議的深度學習績效衡量標準,涵蓋人工智能培訓、人工智能推理和 高性能計算 ( HPC )。 MLPerf 推斷 2.1 是 MLPerf 推理基準套件的最新迭代,涵蓋了廣泛的常見 AI 用例,包括推薦、自然語言處理、語音識別、醫學成像、圖像分類和對象檢測。 在這一輪中, NVIDIA 在最新 NVIDIA H100 Tensor Core GPU…

Source

]]>
5288
人人超碰97caoporen国产