从零信任到 Agent Security,AI Agent 时代的安全架构
当企业内部的访问主体不再只是"人",传统零信任架构正在面临一次根本性的挑战。
一
范式转变:零信任遭遇的新问题
过去几年,企业安全建设的核心逻辑是:
●不再相信网络边界
●不再默认信任设备
●不再默认信任用户
这套逻辑催生了以身份为中心、以设备为基础的零信任架构(Zero Trust Architecture)。NIST 于 2020 年发布 SP 800-207,NSA 于 2026 年发布零信任实施指南(ZIGs),美国要求所有联邦机构于 2027 年前完成零信任部署。框架已经成熟,落地正在加速。
然而,就在零信任架构全面铺开的同时,一个新的问题悄然出现了:
企业内部访问系统的,不再只是人。
越来越多的 AI Agent 正在:读取企业知识库、调用 SaaS 系统、访问数据库、执行运维操作、自动审批流程、操作代码仓库、调用内部 MCP Server。
这些 Agent 拥有合法身份、合法权限、合法工具。但依然可能造成严重安全事件。
Anthropic 在 2026 年 5 月发布的《Zero Trust for AI Agents》白皮书中,清晰地指出了这一矛盾:
传统零信任解决的是"谁能访问系统"。Agent 安全需要解决的是"Agent 在获得访问权限之后,正在做什么"。
这是一个全新的安全问题。
二
为什么传统零信任模型开始失效

传统零信任架构的核心假设是:主体(Principal)是确定的。
无论是用户、服务、容器还是工作负载,身份与行为之间存在可预期的对应关系。IAM、SSO、MFA、ZTNA、UEBA——这套体系建立在"认证通过 = 行为可信"的逻辑之上。
但 AI Agent 不是确定行为主体。它具有:
●非确定性决策:相同输入可能产生不同行为路径
●动态工具选择:Agent 自主决定调用哪些工具、以何种顺序
●长上下文记忆:跨会话的持久记忆带来新的攻击面
●多步推理:单一动作背后可能是复杂的推理链
●多 Agent 协作:Agent 之间的信任委托关系难以追踪
这导致了一种危险的情况:Agent 可以完全在授权范围内完成攻击。
典型场景如下:
某 Agent 拥有 CRM 读取权限和邮件发送权限,两项权限均合法。但经过 Prompt Injection 后,Agent 自动提取客户数据并发送到外部邮箱。整个过程:身份合法、权限合法、API 合法,却完成了一次数据泄露。
这正是 Anthropic 白皮书所说的"工具链攻击"(Tool Chaining Attack):攻击者将合法工具组合成有害序列。由于每条指令都通过可信的服务账号执行,主机层面的监控看不到任何恶意软件,误用完全不被察觉。
传统安全系统无法发现这类攻击,因为它从未被设计用于解决这类问题。
三
Agent 时代的五类核心风险

基于 Anthropic 白皮书以及 OWASP 对 Agentic 系统的威胁分析,Agent 特有的攻击面可以归纳为五类。
01
Prompt Injection(提示词注入)
这是目前最现实、最难防御的风险。
攻击分为两种形式:直接注入通过用户输入劫持 Agent;间接注入更为隐蔽,攻击者将恶意指令嵌入邮件、PDF、网页或知识库内容中,Agent 在读取时被劫持。
微软研究院已证实:LLM 无法可靠区分"数据"和"指令"。研究表明,某些算法化的攻击方式可以在多个模型家族中实现接近 100% 的攻击成功率。
间接注入的危险在于:用户从未看到恶意载荷,Agent 却将其当作合法指令执行。
02
Tool Poisoning(工具投毒)
随着 MCP 生态的快速扩张,企业会接入越来越多的 MCP Server、Plugin 和 Agent Tool。
攻击者可以发布恶意 MCP、篡改工具描述、在元数据中注入隐藏指令,诱导 Agent 执行危险操作。Anthropic 白皮书记录了第一个有据可查的野外恶意 MCP Server 案例:该 Server 伪装成合法邮件服务,暗中复制所有已发送邮件。
更隐蔽的是"换包攻击"(Rug Pull Attack):合法工具在部署后被悄然替换为恶意版本。
03
Agent Identity Abuse(身份滥用)
传统机器身份(API Key、Service Account)的设计假设是单一、静态的使用方式。但 Agent 场景中出现了新的复杂性:
●一个 Agent 可以调用另一个 Agent
●高权限 Manager Agent 可能将全量权限委托给 Worker Agent,而非应有的最小权限
●低权限 Agent 可能伪造有效指令,被高权限 Agent 执行
这是典型的混淆代理攻击(Confused Deputy Attack)。在多 Agent 系统中,信任关系是动态且往往隐式的,这为攻击者提供了巨大的利用空间。
04
Memory Poisoning(记忆污染)
Agent 的长期记忆正在成为一个全新的攻击入口。
攻击者可以向知识库或向量数据库写入恶意内容,污染 Agent 的 RAG 检索结果;也可以通过多租户环境中的共享上下文,让一个会话的恶意内容影响后续会话。
Anthropic 研究显示:仅需注入 250 个恶意文档,即可在 6 亿至 130 亿参数的 LLM 中成功植入后门,且该后门在包括 SFT 和 RLHF 在内的安全训练后依然存在。
最危险的是"长期记忆漂移"——通过持续注入,逐步改变 Agent 的行为倾向,任何单一变化都不触发告警,累积效果却可以彻底改变 Agent 的行动模式。
05
Agent Supply Chain(供应链风险)
未来企业可能同时运行数百个 Agent、数千个 MCP,攻击面已经类似 Kubernetes + Docker + 开源生态的组合。
攻击面不仅局限于运行时。PyTorch 依赖混淆攻击展示了恶意包如何在安装时就窃取 SSH 密钥;安全研究人员已在主流平台上发现约 100 个恶意 AI 模型,其中部分在加载时即发起反向 Shell 连接。
前沿模型非常擅长识别已知漏洞的特征——这意味着 AI 加速的攻击者能够在补丁发布后数小时内,从防御者的修复方案中逆向工程出利用代码。
四
零信任厂商的新增长点:Agent Security Platform
对于零信任厂商而言,Agent 并不是威胁,而是下一代增长点。
本质上,Agent 也是一种身份——从 Human Identity 扩展为 Non-Human Identity(NHI)。Anthropic 白皮书提出了一个核心观点值得重视:
"The organizations best positioned for this shift will not be the ones with the most advanced AI. They will be the ones whose fundamentals are strong enough that AI-assisted scanning finds fewer bugs in the first place, and whose agent deployments were architected for breach from day one."
这句话对零信任厂商而言是最大的市场信号:"从第一天就按照已经被攻破来设计",正是零信任的核心思想。
Anthropic 白皮书提出了一个三层能力成熟度框架:
●Foundation(基础层):适合小规模部署或初始阶段,但随着攻击时间窗口压缩,门槛已经提高——短生命周期 Token、密码学根身份、基于身份的隔离,已经是入门要求,而非可选项
●Enterprise(企业层):大多数有规模的组织应该达到的目标成熟度
●Advanced(高级层):高监管行业、国家安全场景或零容错环境的基线
以下是基于此框架梳理的 Agent Security Platform 参考架构。
五
Agent Security Platform 参考架构

未来每个 Agent 都应拥有独立的密码学身份,而非共享 API Key。
Anthropic 白皮书明确指出,静态 API Key 和共享服务账号密码,是 AI 辅助代码分析最容易发现的目标,"已经可以视为已泄露"。
Agent 身份需要包含:
层级 | 能力 | 实现方式 |
Foundation | 密码学根 ID | 每个 Agent 实例分配持久化密码学材料,出现在所有日志和访问请求中 |
Enterprise | 证书级身份 | 为每个 Agent 颁发 X.509 证书,实现完整的证书生命周期管理 |
Advanced | 硬件绑定身份 | 凭证存储于 HSM/TPM,通过远程 Attestation 验证 Agent 完整性 |
未来企业中,Agent 数量很可能超过员工数量。Agent IAM 将成为新的市场蓝海。
传统 ZTNA 控制"用户访问应用",需要演进为 Agent Access Broker,管控:
●Agent → Tool
●Agent → MCP
●Agent → API
●Agent → Agent
每一次调用都需要:身份验证、动态授权、风险评估。
Anthropic 白皮书特别强调即时访问(JIT Access):Agent 仅在需要时获得权限,任务完成后自动吊销。Token 生命周期应以分钟而非小时或天来衡量。
权限模型的演进路径:
层级 | 权限模型 |
Foundation | RBAC + 默认拒绝 |
Enterprise | ABAC(基于时间、位置、数据敏感度、风险评分的上下文授权) |
Advanced | 持续授权(每次 Action 均重新评估,而非仅在会话开始时) |
这是现有零信任产品最缺失的一层,也是最核心的差异化机会。风险发生在运行时,传统边界防御无法覆盖。
Prompt Firewall
检测和拦截 Prompt Injection、Jailbreak 及越权指令。
Anthropic 的研究表明,通过 Spotlighting 技术(明确标注不可信内容边界),间接注入攻击成功率可以从 50% 以上降低到 2% 以下;宪法分类器(Constitutional Classifier)可以在几乎不增加误拒率的情况下,阻断 95% 的越狱尝试。
Tool Firewall
限制文件操作、数据库访问、MCP 调用。工具白名单(Tool Allow-listing)是基础:仅允许每个 Agent 访问其职能所需的工具,拒绝所有未列入白名单的工具调用。参数验证需要在 Agent 侧和工具侧双重执行。
Output Firewall / AI DLP
检测输出中的 PII、源代码、商业机密和数据外泄行为。语义分析优于单纯的模式匹配——攻击者可以对敏感数据进行编码或变形以绕过规则。高风险 Action 必须经过 Human-in-the-Loop 审批,并记录审批决策用于事后审计。
Agent 不应直接持有真实权限,应采用基于能力的安全模型(Capability-based Security)。
Anthropic 白皮书推荐的"不可能 vs. 繁琐"测试(Impossible vs. Tedious Test)是一个非常实用的设计原则:
评估每项控制措施时,只需问一个问题:这是让攻击变得不可能,还是只是让攻击变得繁琐?
基于摩擦的防护(额外跳板、速率限制、非标端口)在能够以近乎零成本反复尝试的 AI 攻击者面前几乎无效。真正有效的控制是:移除能力,而非限速能力。
沙箱执行环境(容器 + gVisor 额外 syscall 过滤 + 限制网络访问)应视为所有处理不可信输入的 Agent 的标准配置,而非高级选项。
Anthropic 白皮书的最后一章专门讨论了这一问题:
"当漏洞与利用之间的时间窗口从数月压缩到数小时,以天为单位的响应流程已经跟不上攻击速度。"
下一代 SOAR 是 Agentic SOAR:在发现异常行为后,自动完成封禁 Agent、吊销 Token、隔离 MCP、回滚 Memory,无需等待人工介入。
但白皮书同时给出了重要边界:自动化的是"记账",不是"决策"。
●模型负责:收集证据、追踪事件、并行调查、起草事后复盘
●人类负责:封禁决策、披露决策、客户沟通
对防御性 Agent 同样适用零信任原则——防御自动化的爆炸半径同样需要受到约束。
六
给 CISO 和安全架构师的行动清单
基于 Anthropic 白皮书的建议,以下是优先级最高的行动项:
立即可做(Foundation 层):
●为每个 Agent 分配唯一密码学身份,禁止共享 API Key
●将所有凭证迁移至短生命周期 Token(分钟级),停止使用静态密钥
●建立 Agent 行为日志,确保所有工具调用、数据访问、对外通信均有记录
●制定 Agent 可接受使用政策和事件响应流程(含 Shadow AI 治理)
中期部署(Enterprise 层):
●为生产 Agent 部署沙箱执行环境(容器 + syscall 过滤)
●实现 ABAC 动态授权(含时间、位置、风险评分维度)
●部署工具白名单和参数双重验证机制
●建立 Agent 行为基线,启用统计异常检测
●在 AI-BOM 中追踪 Agent 组件的供应链完整性,使用 OpenSSF Scorecard 评估依赖健康度
高监管行业目标(Advanced 层):
●硬件绑定身份(HSM/TPM + 远程 Attestation)
●即时访问(JIT Access)+ 自动到期吊销
●全链路溯源(Input → 推理过程 → Output,支持算法可解释性审计)
●Agentic SOAR 闭环,覆盖 MITRE ATT&CK 横向移动和凭证访问场景
七
结语
零信任的核心思想从未改变:永不信任,持续验证,假设已被攻破。
改变的是主体。
企业最大的风险主体,正在从"拥有账号密码的人",扩展为"拥有自主执行能力的 AI Agent"。
Anthropic 白皮书的最后一句话值得所有安全从业者记住:
"The organizations best positioned for this shift will be the ones whose agent deployments were architected for breach from day one."
从第一天起,就按照"已经被攻破"来设计。
这不是悲观,这是零信任。
参考资料:Anthropic《Zero Trust for AI Agents》(2026.05)· NIST SP 800-207 · OWASP Top 10 for LLM Applications · NSA Zero Trust Implementation Guides