數據中心/云端

2025年 7月 7日
LLM 推理基準測試:使用 TensorRT-LLM 進行性能調優
這是大語言模型延遲 – 吞吐量基準測試系列的第三篇博文,旨在指導開發者如何使用 TensorRT-LLM 對 LLM 推理進行基準測試。
3 MIN READ

2025年 7月 7日
使用 DPU 加速的 Kubernetes 服務代理增強 AI 工廠
隨著 AI 借助代理式 AI 向規劃、研究和推理發展,工作流變得越來越復雜。為了高效部署代理式 AI 應用,AI 云需要軟件定義、
2 MIN READ

2025年 7月 2日
先進的 NVIDIA CUDA 內核優化技術:手寫 PTX
隨著加速計算不斷提升 AI 和科學計算各個領域的應用程序性能,人們對 GPU 優化技術的興趣也越來越濃厚,以確保應用程序獲得盡可能好的性能。
3 MIN READ

2025年 6月 25日
NVIDIA DOCA 3.0 助力 AI 平臺開啟網絡新紀元
NVIDIA DOCA 框架已發展成為新一代 AI 基礎設施的重要組成部分。從初始版本到備受期待的 NVIDIA DOCA 3.0 發布,
3 MIN READ

2025年 6月 24日
隆重推出 NVFP4,實現高效準確的低精度推理
為了充分利用 AI,優化至關重要。當開發者考慮優化用于推理的 AI 模型時,通常會想到量化、蒸餾和剪枝等模型壓縮技術。毫無疑問,
4 MIN READ

2025年 6月 24日
NVIDIA Run:ai 和 Amazon SageMaker HyperPod 攜手簡化復雜 AI 訓練管理
NVIDIA Run:ai 和 Amazon Web Services 引入了集成,使開發者能夠無縫擴展和管理復雜的 AI 訓練工作負載。
2 MIN READ

2025年 6月 18日
基準測試大型語言模型推理成本以實現更智能的擴展和部署
這是大語言模型延遲-吞吐量基準測試系列的第三篇博文,旨在指導開發者如何通過估算總體擁有成本 (TCO) 來確定 LLM 推理的成本。
3 MIN READ

2025年 6月 18日
編譯器資源管理器:CUDA 開發者必備的內核實驗室
您是否曾想過,當您編寫 GPU 核函數時,CUDA 編譯器究竟會生成什么?是否曾想與同事輕松分享精簡的 CUDA 示例,
2 MIN READ

2025年 6月 18日
NVIDIA 集合通信庫 2.26 實現性能和監控功能的提升
NVIDIA 集合通信庫 (NCCL) 可實現針對 NVIDIA GPU 和網絡優化的多 GPU 和多節點通信基元。
3 MIN READ

2025年 6月 17日
通過 NVIDIA Holoscan for Media 上的全新 AI 應用實例,實現實時 AI 媒體效果增強
直播媒體工作流越來越多地使用 AI 微服務來增強制作能力。然而,先進的 AI 模型大多托管在云端,由于網絡延遲、帶寬和實時可擴展性方面的限制,
1 MIN READ

2025年 6月 12日
借助 RAPIDS 單細胞技術推動十億細胞分析和生物學突破
細胞生物學和虛擬細胞模型的未來取決于大規模測量和分析數據。在過去 10 年里,單細胞實驗一直以驚人的速度增長,從數百個細胞開始,
2 MIN READ

2025年 6月 11日
隆重推出 NVIDIA DGX 云 Lepton:面向開發者的統一 AI 平臺
AI 原生應用的時代已經到來。開發者正在構建先進的代理式 AI 和物理 AI 系統,但跨地區和 GPU 提供商進行擴展仍然是一項挑戰。
2 MIN READ

2025年 6月 10日
由 NVIDIA 驅動的現代超級計算機如何推動速度和科學的極限
現代高性能計算 (HPC) 實現的不僅僅是快速計算,它還為正在解鎖科學突破的 AI 系統提供支持。 HPC 已經經歷了多次迭代,
2 MIN READ

2025年 6月 9日
借助 EoRA 快速恢復 LLM 壓縮錯誤的免微調方法
模型壓縮技術已經過廣泛探索,可減少為大語言模型 (LLM) 或其他大型神經網絡提供服務所需的計算資源。 但是,與未壓縮的模型相比,
5 MIN READ

2025年 6月 6日
NVIDIA GB200 NVL72 和 NVIDIA Dynamo 如何提升 MoE 模型的推理性能
最新一批開源大語言模型 (LLMs) 采用了 Mixture of Experts (MoE) 架構,如 DeepSeek R1、
4 MIN READ

2025年 6月 5日
分析基板管理控制器以保護數據中心基礎設施
現代數據中心依靠 Baseboard Management Controllers (BMCs) 進行遠程管理。
2 MIN READ