隨著許多企業開始對其數據進行 AI 訓練或推理,需要保護數據和代碼,尤其是大語言模型 (LLMs) 。由于數據敏感性,許多客戶無法冒險將數據放在云端。此類數據可能包含個人身份信息 (PII) 或公司專有信息,且經過訓練的模型擁有寶貴的知識產權 (IP) 。
NVIDIA Confidential Computing (CC) 是保護大型 AI 模型和數據的出色解決方案。借助 NVIDIA CC,企業無需在性能和安全性之間做出權衡。NVIDIA 最初于 2023 年發布了 CC,并繼續與 CPU 合作伙伴、云提供商和獨立軟件供應商 (ISVs) 合作,以確保從傳統的加速工作負載到機密的加速工作負載的轉變是流暢和透明的。
本文將介紹基于 NVIDIA HGX H100 8-GPU 和 NVIDIA HGX H200 8-GPU 的安全 AI(即 Protected PCIe)的最新版本。它包括:
- 受保護的 PCIe (PPCIE) 模式 :PPCIE 通過機密虛擬機中的 8 個 GPU 和 4 個交換機來保護多 GPU。此模式不同于使用 CC 模式配置的單個帶 CC 的 GPU。
- 刪除 NV Link 加密 :用于提高性能。
- 認證更改 :用于測量在 PPCIE 模式下運行的 GPU 和交換機配置。
安全性的重要性
在當今互聯世界中,安全性至關重要。生成的海量數據對企業具有巨大潛力,并可能影響各行各業的整個未來。多年來,安全領域的各種供應商都可以保護 data-in-motion (例如通過互聯網傳輸數據) 和 data-at-rest (例如加密存儲數據) 。
但是,其中許多供應商并不清楚使用中的數據可能是 cleartext,仍然暴露,并且容易受到攻擊。CC 解決了保護使用中數據的需求,并防止未經授權的用戶訪問或修改數據。
NVIDIA GPU 的硬件和軟件安全
本節詳細介紹了在 NVIDIA GPU 上開始使用 PPCIE 所需的硬件和軟件。
硬件
PPCIE 需要在 HGX 8-GPU 系統上配備 NVIDIA H100 Tensor Core GPU 或 NVIDIA H200 Tensor Core GPU 的系統。系統還必須擁有支持 Trusted Execution Environment (TEE) 的 CPU。
CPU CC 技術
- AMD SEV-SNP
- 英特爾 TDX
支持的 CPU
- AMD Milan (EPYC 7XX3) 或 AMD Genoa (EPYC 9XX4)
- 英特爾 Emerald Rapids (第五代 Xeon 可擴展) 和英特爾 Granite Rapids (第六代 Xeon 可擴展)
支持的 GPU
- 在 NVIDIA Hopper 架構 上啟用所有 GPU 保護和防火墻,包括 NVIDIA HGX H100 8-GPU 80 GB 和 HGX H200 NVL 系統
軟件
- NVIDIA 驅動:CUDA 12.8 Data Center Driver (r570) 或更高版本
- NVIDIA 固件 1.7.0 或更高版本
- 支持的服務器虛擬化平臺:Microsoft Azure Hyper-V、KVM
- 支持的操作系統 AMD:Ubuntu 25.04 Intel:帶有 patches 的 Ubuntu 24.04
入門指南
對 PPCIE 的支持現已在 CUDA 12.8 上正式推出。現在,您可以使用 PPCIE 運行 LLM,充分利用 8-GPU 的完整性能和最新的硬件安全功能。
有關 Secure AI (Protected PCIe) 的部署指南和相關文檔,請參閱 NVIDIA Deployment Guide 。要查看其他安全產品 (包括 NVIDIA Confidential Computing) ,請訪問 NVIDIA Trusted Computing Solutions 。