借助代理式 AI 系統推進網絡安全運營

被動式 AI 時代已經過去。一個新時代正在開始，AI 不僅能做出響應，還能思考、計劃和行動。大語言模型 (LLM) 的快速發展釋放了代理式 AI 系統的潛力，使包括網絡安全在內的許多領域的繁瑣任務實現自動化。

過去，網絡安全領域的 AI 應用主要側重于檢測跨不同數據源、網絡環境和網絡擊殺鏈各個階段的惡意或異常活動。由于檢測是自動化的中心，大部分安全操作仍然是手動操作。安全分析師仍需花費大量時間手動調查警報、交叉參考情報以及評估和響應潛在威脅。

隨著代理式系統的興起，網絡安全領域的 AI 應用開始圍繞安全分析師的需求進行重新規劃。這些系統可自動執行分析師目前執行的許多耗時而繁瑣的任務，使他們能夠專注于更高級別的判斷決策和深度調查。通過利用高級推理、動態決策和工具調用功能，代理式系統現在可以承擔復雜但重復性的任務，例如研究威脅情報、關聯安全警報和執行初步響應操作。

本文將探討警報管理和漏洞分類中的兩種實用代理式應用，讓您一窺代理式系統在網絡安全運營方面的變革潛力。

什么是代理式 AI 系統？

在代理式 AI 系統中，LLMs 連接到工具，并能夠以迭代方式進行推理、規劃和采取行動。該模型并非僅響應提示，而是通過將目標分解為多個步驟、決定下一步行動、使用工具收集或分析信息，并在此過程中調整計劃來實現目標。這種設置可以自動執行以前不可行的復雜多步驟任務。

網絡安全中的 Agentic AI 應用

本節將探討代理式 AI 應用在網絡安全中的兩個示例：alert management 和 vulnerability triage。

轉變警報管理

網絡安全中的 Alert management 帶來了一些阻礙運營效率的挑戰，包括：

大量警報 ：隨著組織的安全意識越來越強，他們會繼續部署更多的安全產品和檢測規則。這導致警報數量不斷增加，很快就會讓人手不足的安全團隊不堪重負。
機構知識依賴性 ：Triage 高度依賴機構知識和高級分析師的經驗，因此難以擴展和標準化決策。
勞動密集型情境收集 ：分類的相關數據通常分散在各個系統中，需要手動收集和整合以進行調查。
繁瑣的文檔 ：撰寫研究結果必不可少，但這很耗時，通常做得不好或完全跳過。

代理式系統通過自動化擴展分診來解決警報管理中的關鍵挑戰，通過將專業知識編碼到可重復的工作流程來減少對個人專業知識的依賴，并使用數據查詢工具自動檢索調查上下文。此外，智能體可以在流程中生成清晰、結構化的文檔，將傳統繁瑣的任務轉化為內置功能。

用于服務器警報分類的 Agentic system

警報分流代理 (圖 1) 是一個事件驅動型系統，旨在自動對服務器監控警報進行分流。與依賴人工提示的聊天機器人系統不同，此系統由事件自動觸發 (生成新警報) ，并且除了最終報告審查之外，還需要很少的人工參與。

Architecture diagram showing how alerts flow from cloud-hosted systems to an analyst. Multiple hosts send data to a Cloud Monitoring System, which generates performance, security, and system health alerts. These alerts are processed by an Alert Triage Agent, which works with a Cloud Metric Analysis sub-agent. The output is a triage report, reviewed by an analyst. — *圖 1。Alert Triage Agent 的架構*

分診系統的輸入警報示例如下所示：

{
  "__name__": "ALERTS",
  "alertname": "InstanceDown",
  "alertstate": "firing",
  "aspect": "availability",
  "component": "instance",
  "instance": "alert-triage-agent-test-host.nvidia.com:9200",
  "job": "file_sd",
  "location": "e111a",
  "region": "na",
  "service": "instance",
  "severity": "critical",
  "host_id": "alert-triage-agent-test-host.nvidia.com"
}

此系統會從監督主機集群的云監控平臺接收警報。觸發警報后，agent 開始自動調查 (圖 2) 。它會首先解釋警報，然后迭代地建議并運行下一個最佳步驟，使用工具來收集和分析相關數據。此周期會一直持續下去，直到找到根本原因。調查完成后，agent 會生成一份 triage 報告，其中包含警報摘要、調查步驟、數據中的關鍵見解以及建議的操作。該報告將被存儲，以供人類分析師審查。

Architecture diagram showing the end-to-end workflow of an alert triage system. When an alert is received, a Maintenance Check first determines if the host is under maintenance. If it is, a report is generated directly. If not, the triage process begins. The Alert Triage Agent coordinates diagnostic checks, including telemetry metrics analysis, network connectivity tests, monitoring system status checks, host performance analysis, and hardware status checks. These components use data from cloud metrics, host systems, and a hardware management system. A Root Cause Categorizer processes the findings and produces a final report for the analyst. — *圖 2。警報分診代理系統的工具和執行流程*

多智能體協作，實現更智能的警報分診

此系統被設計為多智能體，每個智能體專門負責警報分類過程的不同部分。其核心是 Alert Triage Agent，作為安全分析師，負責解釋警報、指導調查和編寫最終報告。支持此功能的是 Cloud Metric Analysis Agent (數據科學家“搭檔”) ，它在收到警報的相關信息后，會查詢最相關的云指標、分析模式并返回結構化分析。

這兩個智能體使用單獨的提示和不相交的工具集，使每個智能體都能根據其特定角色進行定制。Cloud Metric Analysis Agent 充當主 Alert Triage Agent 的代理式工具，僅在需要時調用。這種明確的責任分離可改進模塊化、簡化維護，并使系統隨著時間的推移更容易發展。

適用于網絡安全用例的 NVIDIA Agent Intelligence 工具包

此系統使用開源 NVIDIA Agent Intelligence 工具包以原生方式構建，該工具包通過基于配置的智能體創建實現快速而簡單的開發。此工具包采用模塊化架構，非常適合企業網絡安全用例。

在大型組織中，不同的安全團隊可能會為各種用例構建 agents。但是，其中許多依賴于常見的調查功能，例如從集中式云儲存中檢索數據、分析系統 logs，或收集主機級數據。該工具包提供支持這些共享功能的標準化界面和可重復使用組件，從而減少重復并加速新 agents 的開發。

評估 Alert Triage Agent

為評估警報分診智能體的有效性，該團隊精心策劃了一個包含所有根本原因類別的已標記數據集。在此數據集上，智能體的多類分類準確率為 84.6%。圖 3 顯示了此評估的混淆矩陣，該表將預測標簽與真值進行比較，以顯示模型的準確位置或錯誤位置。該矩陣在硬件和 false_positive 等類別中顯示了強大的性能。

除了量化結果外，人類專家還審查了生成的報告，以評估其質量 (Figure 4) 。安全分析師將輸出結果的正確性和相關性評為“非常好”，將覆蓋范圍和可操作性評為“很好”。雖然這些報告總體上準確且重點突出，但有些報告缺乏深度或包含不明確的建議。這些初步結果表明，該系統前景良好，有明顯的改進之處。作為下一步，我們正在與安全分析師合作，優化系統并改進其支持人類工作流的方式。

Confusion matrix visualizing the classification performance of an alert triage system across six categories: hardware, software, network_connectivity, repetitive_behavior, need_investigation, and false_positive. Most predictions align with ground truth along the diagonal, with notable misclassifications in the software and need_investigation categories. — *圖 3。警報分診代理系統分類測試結果的 Confusion matrix*

Bar chart showing three analysts’ average scores for four report quality components: Coverage, Correctness, Relevance, and Actionability. Scores range from 0 to 5. Relevance has the highest average score (3.7), followed by Correctness (3.6). Coverage and Actionability both have an average of 3.4. Analysts' evaluations vary across components, especially in Coverage and Actionability. — *圖 4。安全分析師對 Alert Triage Agent 的報告質量的審查*

借助代理式 AI 增強軟件漏洞分析

與警報分類一樣，軟件漏洞分析是一項重復性的關鍵任務，通常會讓分析師不堪重負。企業軟件容器通常具有復雜的依賴項，并且必須在發布前進行漏洞掃描。在這些掃描中發現的漏洞需要一個繁瑣的手動分類過程，包括檢索和分析數百條信息。軟件安全代理旨在將此分類過程從幾小時或幾天縮短到幾秒鐘 (圖 5) 。

rchitecture diagram showing the workflow of a software security agent system. An event triggers pre-processing, followed by checklist generation. Task agents process checklist tasks in parallel, feeding into summarization and justification modules. These outputs populate a recommendations dashboard reviewed by an analyst. — *圖 5。Software Security Agent 的架構*

為特定容器指定漏洞 ID 后，代理系統將啟動調查。它可以訪問容器的所有相關信息，包括代碼庫、軟件材料清單和文檔。

首先，智能體搜索互聯網以收集有關漏洞的更廣泛背景信息。然后，它根據對漏洞的了解創建自定義調查計劃。使用該計劃，它可以深入研究可用的數據源及其原因，并最終生成報告，幫助人類分析師確定漏洞在特定環境中是否真的可以利用。如需更詳細的說明，請參閱在企業級應用 Generative AI 進行 CVE 分析。

從藍圖到部署：節省分析師的時間

用于漏洞分析的開源 NVIDIA AI Blueprint 提供交互式體驗，用戶可以提供自定義漏洞 ID 并觀察智能體在容器上執行實時漏洞分析。該藍圖使企業能夠更輕松地構建和運行自己的代理式 AI 應用。可通過 GitHub 上的 NVIDIA-AI-Blueprints/vulnerability-analysis 獲取。

該智能體已大規模部署，以加速 NVIDIA 漏洞分類過程，并展示代理式 AI 在安全運營中的現實影響。NVIDIA 分析師估計，每個漏洞可節省 5 到 30 分鐘的時間。由于每位分析師平均每周審查 10 多個漏洞，因此每周可輕松節省多達數小時的時間。分析師可以利用這段時間專注于更難以診斷的問題，并優先處理高風險漏洞。

部署之外：準確率和效率

成功部署僅僅是個開始。代理式系統要在生產中保持有用性，需要隨著現實世界工作負載的發展保持準確性和效率。

準確性：分析師注釋可指導持續的模型改進

標注工具有助于提高準確性 (圖 6) 。分析師可以查看 agent 輸出、標記錯誤并提供更正。該工具可捕捉結果是否正確以及為什么正確或錯誤。這種反饋回路有助于隨著時間的推移監控準確性，識別漏洞類別的覆蓋差距，并將 LLM-as-a-judge 輸出與人類判斷保持一致。持續評估模型性能有助于確保系統保持準確性并穩步提高

Screenshot of the UI of the annotation tool where analysts review and comment on vulnerability analysis results. — *圖 6。標注工具接口支持確認 exploitability 狀態、驗證 justifications，并添加反饋以提高系統準確性*

效率：Profiling insights 將運行時間縮短了 8.3 倍

為提高效率，該系統已遷移到 Agent Intelligence 工具包，該工具包提供有關執行時間、token 使用率、工具調用模式等的內置分析和遙測。這簡化了性能瓶頸的識別和定位。圖 7 顯示了使用分析見解優化執行時間的結果，x 軸上的時間 (以秒為單位) 以及 y 軸上的工具和函數調用按執行順序排列。

Side-by-side Gantt charts comparing system performance on 2 data points before and after optimization. The x-axis represents time in seconds, and the y-axis lists tool and function calls. The left chart shows longer and more staggered task durations (~48 seconds total), while the right chart shows more compact and parallelized execution (~29 seconds total). Agent Intelligence toolkit profiling insights enabled targeted optimizations that improve processing speed by 1.7x. — *圖 7。Agent Intelligence 工具套件優化前后的分析結果*

Agent Intelligence 工具包創建的 Gantt 圖可直觀呈現工作流程中每個步驟所花費的時間，從而能夠識別智能體工具調用堆棧內部的同步步驟。通過優化這些功能，我們實現了隨輸入大小擴展的加速，將一個數據點的端到端延遲降低了 1.3 倍，將兩個數據點的延遲降低了 1.7 倍 (如 Figure 7 所示) ，并將 46 個數據點的延遲降低了 8.3 倍。運行時間從 20 分鐘縮短到 3 分鐘。

為問題選擇正確的 agentic 結構

在設計代理式系統時，關鍵挑戰之一是為任務找到最佳架構。建議根據需要制作復雜但盡可能簡單的系統。

以警報分類為例。當系統處理具有定義明確的調查流的單一警報類型時，固定執行路徑工作流的效果最佳 (圖 8a) 。LLM 操作可以與編程步驟相結合，形成自定義的預定序列。此系統簡單、穩定、高效，可避免不必要的開銷。

當系統需要支持多種警報類型 (每種類型都有自己的 (但仍然固定的) 調查路徑) 時，添加路由器非常有用 (圖 8b) 。我們可以定義一組可管理的執行路徑，并讓路由器在運行時將每個警報分配到相應的警報。這種方法保留了固定邏輯路徑的魯棒性和可預測性，同時引入了足夠的靈活性來擴展不同的警報類型。

Figure comparing four designs for agentic systems. The top left shows a fixed-execution path LLM workflow that handles a single alert type through a linear sequence of LLM and programmatic operations. The top right shows fixed paths with routing, where different alert types are directed through separate but predefined sequences. The bottom left shows an adaptive agentic system in which an LLM agent dynamically selects among various tools based on the alert type. The bottom right shows a hybrid system that blends structured steps with a flexible LLM agent for a balance of consistency and adaptability. — 圖 8。四種不同的代理式系統設計 (從左上角順時針開始) ：固定執行路徑工作流、帶有路由的固定執行路徑工作流、混合和自適應

當邏輯不再固定時，情況就會發生變化。當系統必須處理過多警報類型才能實現預定義路徑時，或者如果單個警報類型的調查流程嚴重依賴于執行期間檢索的上下文和數據時，Agents 非常有用（圖 8c）。Agents 可以通過歧義進行推理，并動態選擇要執行的正確步驟。這種適應性非常強大，但也需要權衡取舍，包括提高 token 使用率、增加延遲以及需要付出更多精力進行調整。

出于這些原因，在實踐中經常使用混合設計 (Figure 8d) 。在此結構中，始終需要的步驟作為智能體外部的確定性邏輯實現。然后，智能體只負責需要動態決策的部分。這種方法盡可能提供穩定性、必要時的靈活性，以及整體上更高的 token 效率。

在許多方面，選擇正確的 agentic 結構已成為新 agentic 世界中的新 hyperparameter tuning。這需要迭代、良好的直覺以及對問題空間的深入理解。借助正確的 agentic 結構，系統變得更加有效，并且更易于操作和維護。

評估復雜的 Agentic 系統

與任何機器學習 (ML) 項目一樣，創建良好的數據集是成功的基礎。對于代理式系統，這種方法相似，但有一些重要差異。

與通常專注于輸入和最終輸出的傳統 ML 數據集不同，代理式系統可以從推理路徑中捕獲預期的中間步驟中獲益。這些預期輸出可實現軌跡評估，其中包括分析 agent 的整個決策過程，而不僅僅是分析最終結果。這種更詳細的視圖有助于揭示推理可能破壞或偏離預期的地方。它還有助于跟蹤預期的工具使用情況，包括工具調用及其輸入，以便更好地評估 agent 在整個任務中的規劃和工具選擇。

代理式系統與傳統機器學習（ML）應用的區別在于其生成特性。這意味著無需使用大型數據集即可開始實驗。一個有效的原則是避免在開發初期就過度復雜或過度優化。相反，您需要專注于構建快速概念驗證并提供給用戶。此時，真正開始有意義的數據收集和迭代系統調優。

招募可靠的 LLM 評委

LLM-as-a-judge 即評判正成為評估 LLM 輸出和代理式系統的基本方法之一，這要歸功于其評估自然語言輸出的能力。該過程涉及將系統輸出傳遞給語言模型，并促使其對特定維度進行評分，例如清晰度、正確性、相關性或接地性。

在成為新的 LLM 評委之前，收集一組人類標記的示例進行校準非常重要。使用這些示例，可以通過選擇合適的模型并適當地設計提示，將 LLM 的評分行為與人類期望保持一致。由于 LLM 即使在不確定的情況下也會始終返回答案，因此在依賴它們進行評估之前，務必要讓它們的行為符合實際情況。

對齊后，LLM 評委可以輕松比較提示變化、模型版本或結構變化。這可加速迭代并支持長期質量改進。值得注意的是，Agent Intelligence 工具包為 LLM-as-a-judge (RAGAS) 評估提供內置支持，簡化了將此方法集成到開發周期的過程。

網絡安全的 Agentic 未來

當涉及到代理式 AI 在網絡安全方面的作用時，警報管理和漏洞分類僅僅是個開始。這些示例用例展示了智能體系統如何超越簡單的自動化，承擔通常需要人類專業知識的復雜、更依賴上下文的任務。

隨著代理式系統不斷成熟，我們相信它們將成為分析師值得信賴的助手，簡化調查、連接點并輕松處理繁重的工作。我們很高興看到社區如何在此基礎上構建，也迫不及待地想看到您提出的富有創意、有影響力的網絡安全用例。

探索如何使用 NVIDIA Agent Intelligence 工具包，并在 build.nvidia.com 上體驗代理式 AI 示例。如需了解用于漏洞分類的 AI Blueprint，請探索交互式演示或訪問用于部署的工具和參考代碼。

如需詳細了解警報分診用例并了解其實際應用，請觀看 NVIDIA GTC 2025 會議“ Transform Cybersecurity With Agentic Blueprints on Demand ”。您還可以注冊參加即將舉辦的 NVIDIA Agent Toolkit Hackathon 。

借助代理式 AI 系統推進網絡安全運營

什么是代理式 AI 系統？