Low-Latency Inference – NVIDIA 技術博客

AI Fabric 的彈性以及網絡融合的重要性

Fri, 11 Apr 2025 05:53:07 +0000

高性能計算和深度學習工作負載對延遲極為敏感。數據包丟失會導致通信管道中的重傳或停頓，從而直接增加延遲并中斷 GPU 之間的同步。這可能會降低集合運算（例如 all-reduce 或 broadcast）的性能，因為這些運算需要每個 GPU 的參與才能進行。本文重點介紹基于 NVIDIA 以太網的東西向 AI 網絡解決方案 Spectrum-X。我從 AI 工作負載的角度討論了 AI 結構的彈性、鏈路翼的后果、鏈路故障，以及 NVIDIA 集合通信庫 (NCCL) 。 NCCL 專為高速和低延遲環境而設計，通常通過支持 RDMA 的無損網絡 (例如 InfiniBand、NVLink 或適用于 Ethernet 的 Spectrum-X) 實現。其性能可能會受到網絡事件的顯著影響：為獲得最佳性能，NCCL 應在網絡上運行，并盡可能減少延遲、抖動和丟包。

Source

]]>

聚焦：Perplexity AI 利用 NVIDIA 推理棧每月服務 4 億個搜索請求

Thu, 05 Dec 2024 07:26:26 +0000

對 AI 賦能服務的需求持續快速增長，這給 IT 和基礎設施團隊帶來了越來越大的壓力。這些團隊的任務是配置必要的硬件和軟件來滿足這一需求，同時平衡成本效益和最佳用戶體驗。Perplexity AI 的推理團隊面臨著這一挑戰。Perplexity AI 是一款由 AI 驅動的搜索引擎，每月可處理超過 435 million 個查詢。每個查詢代表多個 AI 推理請求。為了滿足這一需求，Perplexity 推理團隊轉而使用 NVIDIA H100 Tensor Core GPUs 、 NVIDIA Triton Inference Server 和 NVIDIA TensorRT-LLM 來進行經濟高效的大語言模型（LLM）部署。本文根據他們的實操經驗，詳細介紹了一些部署最佳實踐和節省的 TCO。為了支持其廣泛的用戶群并滿足搜索、總結和問答等方面的各種請求，

Source

]]>