數據中心/云端

2025年 7月 23日
在 Azure 上使用 Apache Spark 和 NVIDIA AI 進行無服務器分布式數據處理
將大量文本庫轉換為數字表示 (稱為嵌入) 的過程對于生成式 AI 至關重要。從語義搜索和推薦引擎到檢索增強生成 (RAG) ,
2 MIN READ

2025年 7月 22日
了解 NCCL 調優以加速 GPU 之間的通信
NVIDIA 集合通信庫 (NCCL) 對于 AI 工作負載中的快速 GPU 到 GPU 通信至關重要,可使用各種優化和調優來提升性能。但是,
3 MIN READ

2025年 7月 18日
使用 JAX 和 XLA 優化推理工作負載的低延遲通信
在生產環境中使用大語言模型 (LLM) 進行推理需要滿足嚴格的延遲限制。此過程的關鍵階段是 LLM 解碼,
2 MIN READ

2025年 7月 18日
使用 Ansible 和 Git 實現 NVIDIA Air 網絡設計自動化
NVIDIA Air 的核心是實現自動化。您可以對網絡的每個部分進行編碼和版本控制,并將其設置為自動觸發。這包括創建拓撲、
2 MIN READ

2025年 7月 15日
NVIDIA Dynamo 新增對 AWS 服務的支持,可大規模提供經濟高效的推理
Amazon Web Services (AWS) 開發者和解決方案架構師現在可以在基于 NVIDIA GPU 的 Amazon EC2…
2 MIN READ

2025年 7月 15日
借助 AWS 上的 NVIDIA Run:ai 加速 AI 模型編排
在開發和部署高級 AI 模型時,訪問可擴展的高效 GPU 基礎設施至關重要。但是,在云原生、容器化環境中管理此基礎設施可能既復雜又昂貴。
2 MIN READ

2025年 7月 14日
NCCL 深度解析:跨數據中心通信與網絡拓撲感知
隨著 AI 訓練規模的擴大,單個數據中心 (DC) 不足以提供所需的計算能力。
2 MIN READ

2025年 7月 14日
借助 NCCL 2.27 實現快速推理和彈性訓練
隨著 AI 工作負載的擴展,快速可靠的 GPU 通信變得至關重要,這不僅適用于訓練,而且越來越適用于大規模推理。
3 MIN READ

2025年 7月 10日
InfiniBand 多層安全保護數據中心和 AI 工作負載
在當今數據驅動的世界中,安全性不僅僅是一項功能,更是基礎。隨著 AI、HPC 和超大規模云計算的指數級增長,
1 MIN READ

2025年 7月 7日
LLM 推理基準測試:使用 TensorRT-LLM 進行性能調優
這是大語言模型延遲 – 吞吐量基準測試系列的第三篇博文,旨在指導開發者如何使用 TensorRT-LLM 對 LLM 推理進行基準測試。
3 MIN READ

2025年 7月 7日
使用 DPU 加速的 Kubernetes 服務代理增強 AI 工廠
隨著 AI 借助代理式 AI 向規劃、研究和推理發展,工作流變得越來越復雜。為了高效部署代理式 AI 應用,AI 云需要軟件定義、
2 MIN READ

2025年 7月 2日
先進的 NVIDIA CUDA 內核優化技術:手寫 PTX
隨著加速計算不斷提升 AI 和科學計算各個領域的應用程序性能,人們對 GPU 優化技術的興趣也越來越濃厚,以確保應用程序獲得盡可能好的性能。
3 MIN READ

2025年 6月 25日
NVIDIA DOCA 3.0 助力 AI 平臺開啟網絡新紀元
NVIDIA DOCA 框架已發展成為新一代 AI 基礎設施的重要組成部分。從初始版本到備受期待的 NVIDIA DOCA 3.0 發布,
3 MIN READ

2025年 6月 24日
隆重推出 NVFP4,實現高效準確的低精度推理
為了充分利用 AI,優化至關重要。當開發者考慮優化用于推理的 AI 模型時,通常會想到量化、蒸餾和剪枝等模型壓縮技術。毫無疑問,
4 MIN READ

2025年 6月 24日
NVIDIA Run:ai 和 Amazon SageMaker HyperPod 攜手簡化復雜 AI 訓練管理
NVIDIA Run:ai 和 Amazon Web Services 引入了集成,使開發者能夠無縫擴展和管理復雜的 AI 訓練工作負載。
2 MIN READ

2025年 6月 18日
基準測試大型語言模型推理成本以實現更智能的擴展和部署
這是大語言模型延遲-吞吐量基準測試系列的第三篇博文,旨在指導開發者如何通過估算總體擁有成本 (TCO) 來確定 LLM 推理的成本。
3 MIN READ