Low-Latency Inference – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 17 Apr 2025 05:59:48 +0000 zh-CN hourly 1 196178272 AI Fabric 的彈性以及網絡融合的重要性 http://www.open-lab.net/zh-cn/blog/ai-fabric-resiliency-and-why-network-convergence-matters/ Fri, 11 Apr 2025 05:53:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=13584 Continued]]> 高性能計算和深度學習工作負載對延遲極為敏感。數據包丟失會導致通信管道中的重傳或停頓,從而直接增加延遲并中斷 GPU 之間的同步。這可能會降低集合運算(例如 all-reduce 或 broadcast)的性能,因為這些運算需要每個 GPU 的參與才能進行。 本文重點介紹基于 NVIDIA 以太網的東西向 AI 網絡解決方案 Spectrum-X。我從 AI 工作負載的角度討論了 AI 結構的彈性、鏈路翼的后果、鏈路故障,以及 NVIDIA 集合通信庫 (NCCL) 。 NCCL 專為高速和低延遲環境而設計,通常通過支持 RDMA 的無損網絡 (例如 InfiniBand、NVLink 或適用于 Ethernet 的 Spectrum-X) 實現。其性能可能會受到網絡事件的顯著影響: 為獲得最佳性能,NCCL 應在網絡上運行,并盡可能減少延遲、抖動和丟包。

Source

]]>
13584
聚焦:Perplexity AI 利用 NVIDIA 推理棧每月服務 4 億個搜索請求 http://www.open-lab.net/zh-cn/blog/spotlight-perplexity-ai-serves-400-million-search-queries-a-month-using-nvidia-inference-stack/ Thu, 05 Dec 2024 07:26:26 +0000 http://www.open-lab.net/zh-cn/blog/?p=12401 Continued]]> 對 AI 賦能服務的需求持續快速增長,這給 IT 和基礎設施團隊帶來了越來越大的壓力。這些團隊的任務是配置必要的硬件和軟件來滿足這一需求,同時平衡成本效益和最佳用戶體驗。Perplexity AI 的推理團隊面臨著這一挑戰。Perplexity AI 是一款由 AI 驅動的搜索引擎,每月可處理超過 435 million 個查詢。每個查詢代表多個 AI 推理請求。 為了滿足這一需求,Perplexity 推理團隊轉而使用 NVIDIA H100 Tensor Core GPUs 、 NVIDIA Triton Inference Server 和 NVIDIA TensorRT-LLM 來進行經濟高效的 大語言模型(LLM) 部署。本文根據他們的實操經驗,詳細介紹了一些部署最佳實踐和節省的 TCO。 為了支持其廣泛的用戶群并滿足搜索、總結和問答等方面的各種請求,

Source

]]>
12401
人人超碰97caoporen国产