Posts by Amr Elmeleegy
AI 平臺/部署
2025年 5月 21日
NVIDIA Dynamo 加速 llm-d 社區計劃,推動大規模分布式推理
在 Red Hat Summit 2025 上推出的 llm-d 社區標志著開源生態系統在加速生成式 AI 推理創新方面邁出了重要一步。
1 MIN READ
數據中心/云端
2025年 5月 20日
NVIDIA Dynamo 新增 GPU 自動縮放、Kubernetes 自動化和網絡優化功能
在 NVIDIA GTC 2025 上,我們宣布推出 NVIDIA Dynamo ,這是一種高吞吐量、低延遲的開源推理服務框架,
2 MIN READ
數據中心/云端
2025年 3月 18日
隆重推出 NVIDIA Dynamo:用于擴展推理AI模型的低延遲分布式推理框架
NVIDIA 今天在 GTC 2025 宣布發布 NVIDIA Dynamo 。NVIDIA Dynamo 是一個高吞吐量、
4 MIN READ
AI 平臺/部署
2024年 12月 5日
聚焦:Perplexity AI 利用 NVIDIA 推理棧每月服務 4 億個搜索請求
對 AI 賦能服務的需求持續快速增長,這給 IT 和基礎設施團隊帶來了越來越大的壓力。這些團隊的任務是配置必要的硬件和軟件來滿足這一需求,
2 MIN READ
數據中心/云端
2024年 11月 15日
借助 NVIDIA TensorRT-LLM 分塊預填充提高 AI 推理效率和簡化部署
在本 博文 中,我們詳細介紹了分塊預填充,這是 NVIDIA TensorRT-LLM 的一項功能,
1 MIN READ
AI 平臺/部署
2024年 11月 8日
NVIDIA TensorRT-LLM KV 緩存早期重用實現首個令牌速度 5 倍提升
在上一篇 博客文章 中,我們展示了通過將鍵值 (KV) 緩存卸載到 CPU 內存來重復使用該緩存如何在基于 x86 的 NVIDIA…
2 MIN READ