AI Inference / Inference Microservices

2025年 6月 26日

在 NVIDIA Jetson 和 RTX 上運行 Google DeepMind 的 Gemma 3n

截至今日，NVIDIA 現已支持在 NVIDIA RTX 和 Jetson 上全面推出 Gemma 3n。上個月，

1 MIN READ

2025年 6月 24日

隆重推出 NVFP4，實現高效準確的低精度推理

為了充分利用 AI，優化至關重要。當開發者考慮優化用于推理的 AI 模型時，通常會想到量化、蒸餾和剪枝等模型壓縮技術。毫無疑問，

4 MIN READ

2025年 6月 12日

使用 NVIDIA TensorRT for RTX 運行高性能 AI 應用

NVIDIA TensorRT for RTX 現可作為 SDK 下載，該 SDK 可集成到 Windows 和 Linux 的 C++ 和…

2 MIN READ

2025年 6月 9日

借助 EoRA 快速恢復 LLM 壓縮錯誤的免微調方法

模型壓縮技術已經過廣泛探索，可減少為大語言模型 (LLM) 或其他大型神經網絡提供服務所需的計算資源。但是，與未壓縮的模型相比，

5 MIN READ

2025年 6月 3日

NVIDIA Base Command Manager 為 AI 集群管理提供免費的啟動程序

隨著 AI 和高性能計算 (HPC) 工作負載變得越來越常見和復雜，系統管理員和集群管理員是確保一切平穩運行的核心。他們的工作 (構建、

1 MIN READ

2025年 5月 22日

Blackwell 借助 Meta 的 Llama 4 Maverick 突破 1000 TPS/ 用戶門檻

NVIDIA 的大語言模型 (LLM) 推理速度創下了世界紀錄。在包含 400 億參數的 Llama 4 Maverick 模型 (…

3 MIN READ

2025年 5月 21日

NVIDIA Dynamo 加速 llm-d 社區計劃，推動大規模分布式推理

在 Red Hat Summit 2025 上推出的 llm-d 社區標志著開源生態系統在加速生成式 AI 推理創新方面邁出了重要一步。

1 MIN READ

2025年 5月 19日

NVIDIA TensorRT for RTX 在 Windows 11 上推出優化的推理 AI 庫

在 Windows 上，創意、游戲和生產力應用方面的 AI 體驗正在迅速擴展。有各種框架可用于在臺式機、

3 MIN READ

2025年 5月 18日

借助 NVIDIA NVLink Fusion 將半定制計算平臺集成到機架級架構

為了高效應對 AI 工作負載，數據中心正在被重構。這是一項非常復雜的工作，因此，

2 MIN READ

2025年 5月 12日

在 Azure AI Foundry 上使用 NVIDIA NIM 加速 AI 推理

將 NVIDIA NIM 微服務集成到 Azure AI Foundry ，標志著企業 AI 開發的重大飛躍。

4 MIN READ

2025年 5月 8日

云端 Apache Spark 加速深度學習和大語言模型推理

Apache Spark 是用于大數據處理和分析的行業領先平臺。隨著非結構化數據（documents、emails、

4 MIN READ

2025年 4月 23日

NVIDIA Secure AI 正式發布

隨著許多企業開始對其數據進行 AI 訓練或推理，需要保護數據和代碼，尤其是大語言模型 (LLMs) 。由于數據敏感性，

1 MIN READ

2025年 4月 21日

使用 NVIDIA TensorRT 優化基于 Transformer 的擴散模型以生成視頻

先進的圖像擴散模型需要數十秒才能處理單張圖像。這使得視頻擴散更具挑戰性，需要大量計算資源和高昂成本。

4 MIN READ

2025年 4月 5日

NVIDIA 加速推理 Meta Llama 4 Scout 與 Maverick 模型

最新一代熱門 Llama AI 模型現已支持 Llama 4 Scout 和 Llama 4 Maverick。

2 MIN READ

2025年 4月 2日

LLM 基準測試：基本概念

在過去幾年中，作為廣泛的 AI 革命的一部分，生成式 AI 和大語言模型 (LLMs) 越來越受歡迎。

4 MIN READ

2025年 4月 2日

NVIDIA Blackwell 在 MLPerf Inference v5.0 中實現巨大的性能飛躍

在不斷增長的模型大小、實時延遲要求以及最近的 AI 推理的推動下，大語言模型 (LLM) 推理的計算需求正在快速增長。與此同時，

3 MIN READ