AI 紅色團隊 – NVIDIA 技術博客

構建應用程序以安全使用 KV 緩存

Tue, 29 Apr 2025 08:32:44 +0000

在與基于 Transformer 的模型 (如大語言模型 (LLM) 和視覺語言模型 (VLM)) 交互時，輸入結構會塑造模型的輸出。但提示通常不僅僅是簡單的用戶查詢。在實踐中，它們通過動態組合來自系統指令、上下文數據和用戶輸入等各種來源的數據來優化響應。在多租戶環境中，多個用戶共享同一應用程序基礎設施，這種動態提示結構可能會帶來意外的安全風險。其中一個風險來自 prefix caching 優化，如果處理不當，可能會跨用戶邊界泄露信息。本文將探討提示結構與緩存的交集，以及它們的交互如何在 LLM 驅動的應用中造成細微漏洞。通過了解這些機制，開發者可以設計出更安全的系統。如果您僅以聊天機器人用戶的身份與 LLM 進行交互，您可能會將提示視為如下所示：但在大多數真實應用中，此用戶查詢只是更大規模的動態構建輸入（即應用提示）的一部分。

Source

]]>

代理自主級別與安全性

Tue, 25 Feb 2025 07:08:04 +0000

智能體工作流是 AI 賦能工具的下一次演進。它們使開發者能夠將多個 AI 模型關聯在一起以執行復雜的活動，使 AI 模型能夠使用工具來訪問其他數據或自動執行用戶操作，并使 AI 模型能夠自主運行，以盡可能減少人類參與或交互的方式分析和執行復雜的任務。由于其強大的功能，代理工作流也存在風險因素。代理系統的核心最常見的模型仍然是各種 LLM，如果可以將不受信任的數據引入系統，這些模型仍然容易受到 prompt injection 的影響。為幫助評估和緩解這些漏洞，NVIDIA 提供了一個 Agentic Autonomy 框架，我們將其用于以下用途：在實踐中，開發 AI 賦能的應用需要兩個關鍵組件：當系統的 AI 組件是 LLM 時，這通常被稱為直接提示注入 (對手和用戶是同一個人) 或間接提示注入 (對手和用戶可以是不同的人)。然而，

Source

]]>

定義 LLM 紅色團隊

Tue, 25 Feb 2025 07:04:29 +0000

在一項活動中，人們為生成式 AI 技術 (例如大語言模型 (LLMs)) 提供輸入，以確定輸出是否會偏離可接受的標準。LLMs 的這種使用始于 2023 年，并已迅速發展成為一種常見的行業實踐，也是值得信賴的 AI 的基石。如何標準化和定義 LLM 紅色團隊？ NVIDIA、華盛頓大學、Center for Human-Compatible AI 和哥本哈根 IT 大學的研究人員對紅色團隊的實際應用“ Summon a demon and bind it: A grounded theory of LLM red teaming ”(在 PLOS One 中發布) 進行了一項研究。由于目標是定義和理解相對較新的活動，因此該研究采用了有根據的理論方法，在數千分鐘的視頻錄制中，以數十位從業者的訪談作為證據。我們與安全專業人員、政策研究人員和科學家，

Source

]]>

借助 WebAssembly 實現沙箱 Agentic AI 工作流

Mon, 16 Dec 2024 05:04:34 +0000

代理 AI 工作流通常涉及執行由大語言模型 (LLM) 生成的代碼，以執行創建數據可視化等任務。但是，此代碼應在安全環境中清理和執行，以降低提示注入的風險和返回代碼中的錯誤。使用正則表達式和受限運行時清理 Python 是不夠的，而且虛擬機的 Hypervisor 隔離需要大量的開發和資源。本文將介紹如何使用 WebAssembly (Wasm) (一種基于堆棧的虛擬機的二進制指令格式)，利用瀏覽器沙盒實現操作系統和用戶隔離。這提高了應用的安全性，且不會產生重大開銷。 LLM 應用開發的近期變化之一是公開工具，即 LLM 可以調用并使用響應的函數、應用或 API。例如，如果應用需要了解特定地點的天氣，它可以調用天氣 API，并使用結果制定適當的響應。 Python 代碼執行是用于擴展 LLM 應用的強大工具。LLM 擅長編寫 Python 代碼，

Source

]]>

NVIDIA 在領先的網絡安全會議上展示 AI 安全專業知識

Wed, 18 Sep 2024 07:46:54 +0000

每年 8 月，成千上萬的安全專業人員都會參加最前沿的安全會議 Black Hat USA 和 DEF CON。這一年，NVIDIA AI 安全專家參加了這些活動，分享我們的工作，并向社區其他成員學習。本文概述了這些貢獻，包括關于快速發展的 AI 環境的主題演講、對抗性機器學習訓練、關于大型語言模型（LLM）安全性的演講等。這項工作有助于為安全社區提供必要的知識，以便他們以安全為理念有效部署 AI 系統。 Black Hat 是一項國際公認的網絡安全活動，提供相關的技術和信息安全研究。本年，圍繞生成式 AI 工具在安全生態系統中的應用可能性以及 AI 部署本身的安全性，討論聲不斷增長。在 AI 峰會主題演講中，NVIDIA 網絡安全 AI 總監 Bartley Richardson 與 WWT 首席執行官 Jim Kavanaugh 共同分享了對迅速發展的 AI…

Source

]]>

使用 Canaries 防止 AI 模型文件未經授權訪問

Thu, 11 Jul 2024 05:43:03 +0000

隨著 AI 模型在功能和創建成本方面的增長，它們保存了更多敏感或專有數據，保護靜態數據變得越來越重要。為此，組織正在設計策略和工具，通常作為數據丟失預防和安全供應鏈計劃的一部分，以保護模型權重。雖然安全工程討論的重點是預防（我們如何預防 X？），但檢測（發生了 X 嗎？）是成熟的深度防御框架中類似的關鍵部分。這一部分可顯著縮短檢測、隔離和補救入侵所需的時間。目前，對于 AI 模型的檢測功能與用于監控任何其他敏感數據的檢測功能相同，沒有任何檢測功能專注于 AI/ML 的獨特性。在本文中，我們將介紹 canary，然后展示如何使用 canary 令牌增強適用于 AI 和 ML 模型的常見 Python Pickle 序列化格式，以提供超出普通網絡監控解決方案的其他 AI 特定的損失檢測功能。雖然首選像 safetensors 這樣的更安全的模型格式，

Source

]]>

保護應用程序完整性的安全 LLM 令牌化解決方案

Thu, 27 Jun 2024 05:42:08 +0000

本文是 NVIDIA AI Red Team 持續漏洞和技術研究的一部分。NVIDIA AI Red Team’s利用本文所展示的概念負責任地評估和提高您 AI 開發和部署流程及應用的安全性。大型語言模型（LLM）不會在字符串上運行。相反，提示通過通常透明的轉換器（稱為 tokenizer）傳遞，該轉換器根據提供的提示字符串創建令牌 ID 數組。同樣，tokenizer 將 LLM 輸出（令牌 ID 數組）處理回可讀文本。初始化 tokenizer 時，驗證不足可能會使惡意行為者破壞令牌編碼和解碼，從而在用戶可讀輸入和輸出與 LLM 計算之間造成差異。由于多種原因，攻擊者可能會鎖定 tokenizer。雖然 tokenizer 最初是經過訓練的，但它們也經常被重復使用。一個 tokenizer 可以用于數百個衍生模型。雖然模型通常經過重新訓練或微調，

Source

]]>