云服務

2025年 8月 1日
通過訓練后量化優化 LLM 的性能和準確性
量化是開發者的核心工具,旨在以最小的開銷來提高推理性能。通過以可控的方式降低模型精度,無需重新訓練,該技術可顯著降低延遲、
4 MIN READ

2025年 7月 15日
借助亞馬遜云科技上的?NVIDIA Run:ai?加速?AI?模型編排
在開發和部署高級 AI 模型時,訪問可擴展的高效 GPU 基礎設施至關重要。但是,在云原生、容器化環境中管理此基礎設施可能既復雜又昂貴。
1 MIN READ

2025年 7月 14日
借助 NCCL 2.27 實現快速推理和彈性訓練
隨著 AI 工作負載的擴展,快速可靠的 GPU 通信變得至關重要,這不僅適用于訓練,而且越來越適用于大規模推理。
3 MIN READ

2025年 7月 7日
LLM 推理基準測試:使用 TensorRT-LLM 進行性能調優
這是大語言模型延遲 – 吞吐量基準測試系列的第三篇博文,旨在指導開發者如何使用 TensorRT-LLM 對 LLM 推理進行基準測試。
3 MIN READ

2025年 7月 7日
使用 DPU 加速的 Kubernetes 服務代理增強 AI 工廠
隨著 AI 借助代理式 AI 向規劃、研究和推理發展,工作流變得越來越復雜。為了高效部署代理式 AI 應用,AI 云需要軟件定義、
2 MIN READ

2025年 7月 7日
提出一個維基百科規模的問題:如何利用數百萬 token 的實時推理使世界更加智能
現代 AI 應用越來越依賴于將龐大的參數數量與數百萬個令牌的上下文窗口相結合的模型。無論是經過數月對話的 AI 智能體、
3 MIN READ

2025年 6月 25日
NVIDIA DOCA 3.0 助力 AI 平臺開啟網絡新紀元
NVIDIA DOCA 框架已發展成為新一代 AI 基礎設施的重要組成部分。從初始版本到備受期待的 NVIDIA DOCA 3.0 發布,
3 MIN READ

2025年 6月 24日
隆重推出 NVFP4,實現高效準確的低精度推理
為了充分利用 AI,優化至關重要。當開發者考慮優化用于推理的 AI 模型時,通常會想到量化、蒸餾和剪枝等模型壓縮技術。毫無疑問,
4 MIN READ

2025年 6月 24日
NVIDIA Run:ai 和 Amazon SageMaker HyperPod 攜手簡化復雜 AI 訓練管理
NVIDIA Run:ai 和 Amazon Web Services 引入了集成,使開發者能夠無縫擴展和管理復雜的 AI 訓練工作負載。
2 MIN READ

2025年 6月 18日
搶先體驗 NVIDIA GB200 系統如何幫助 LMarena 構建評估 LLM 的模型
在 NVIDIA 和 Nebius 的幫助下,加州大學伯克利分校的 LMArena 可以更輕松地了解哪些大語言模型在特定任務中表現出色。
2 MIN READ

2025年 6月 11日
隆重推出 NVIDIA DGX 云 Lepton:面向開發者的統一 AI 平臺
AI 原生應用的時代已經到來。開發者正在構建先進的代理式 AI 和物理 AI 系統,但跨地區和 GPU 提供商進行擴展仍然是一項挑戰。
2 MIN READ

2025年 6月 9日
借助 EoRA 快速恢復 LLM 壓縮錯誤的免微調方法
模型壓縮技術已經過廣泛探索,可減少為大語言模型 (LLM) 或其他大型神經網絡提供服務所需的計算資源。 但是,與未壓縮的模型相比,
5 MIN READ

2025年 5月 22日
Blackwell 借助 Meta 的 Llama 4 Maverick 突破 1000 TPS/ 用戶門檻
NVIDIA 的大語言模型 (LLM) 推理速度創下了世界紀錄。在包含 400 億參數的 Llama 4 Maverick 模型 (…
3 MIN READ

2025年 5月 18日
宣布推出適用于基準測試 AI 云基礎設施的 NVIDIA 示例云
長期以來,在云端訓練 大語言模型 (LLMs) 和部署 AI 工作負載的開發者和企業一直面臨著一項根本性挑戰:
1 MIN READ

2025年 5月 15日
使用 NVIDIA CUDA-X 和 Coiled 簡化云端環境設置并加速數據科學運算
想象一下,分析紐約市數百萬次的拼車旅程 — — 跟蹤各自治市的模式、比較服務定價或確定有利可圖的取車地點。
4 MIN READ

2025年 5月 14日
借助 NVIDIA Nemo 框架,在遠程數據中心網絡中加速 LLM 訓練
多數據中心訓練對 AI 工廠至關重要,因為預訓練擴展會推動更大模型的創建,導致對計算性能的需求超過單個設施的能力。
2 MIN READ