Anthropic 最新白皮书解读：从零信任到 Agent Security，AI Agent 时代的安全架构

发布时间：2026-06-08 发布人：四维实验室阅读：4095 来源：公众号【权说安全】

从零信任到 Agent Security，AI Agent 时代的安全架构

当企业内部的访问主体不再只是"人"，传统零信任架构正在面临一次根本性的挑战。

一

范式转变：零信任遭遇的新问题

过去几年，企业安全建设的核心逻辑是：

●不再相信网络边界

●不再默认信任设备

●不再默认信任用户

这套逻辑催生了以身份为中心、以设备为基础的零信任架构（Zero Trust Architecture）。NIST 于 2020 年发布 SP 800-207，NSA 于 2026 年发布零信任实施指南（ZIGs），美国要求所有联邦机构于 2027 年前完成零信任部署。框架已经成熟，落地正在加速。

然而，就在零信任架构全面铺开的同时，一个新的问题悄然出现了：

企业内部访问系统的，不再只是人。

越来越多的 AI Agent 正在：读取企业知识库、调用 SaaS 系统、访问数据库、执行运维操作、自动审批流程、操作代码仓库、调用内部 MCP Server。

这些 Agent 拥有合法身份、合法权限、合法工具。但依然可能造成严重安全事件。

Anthropic 在 2026 年 5 月发布的《Zero Trust for AI Agents》白皮书中，清晰地指出了这一矛盾：

传统零信任解决的是"谁能访问系统"。Agent 安全需要解决的是"Agent 在获得访问权限之后，正在做什么"。

这是一个全新的安全问题。

二

为什么传统零信任模型开始失效

传统零信任架构的核心假设是：主体（Principal）是确定的。

无论是用户、服务、容器还是工作负载，身份与行为之间存在可预期的对应关系。IAM、SSO、MFA、ZTNA、UEBA——这套体系建立在"认证通过 = 行为可信"的逻辑之上。

但 AI Agent 不是确定行为主体。它具有：

●非确定性决策：相同输入可能产生不同行为路径

●动态工具选择：Agent 自主决定调用哪些工具、以何种顺序

●长上下文记忆：跨会话的持久记忆带来新的攻击面

●多步推理：单一动作背后可能是复杂的推理链

●多 Agent 协作：Agent 之间的信任委托关系难以追踪

这导致了一种危险的情况：Agent 可以完全在授权范围内完成攻击。

典型场景如下：

某 Agent 拥有 CRM 读取权限和邮件发送权限，两项权限均合法。但经过 Prompt Injection 后，Agent 自动提取客户数据并发送到外部邮箱。整个过程：身份合法、权限合法、API 合法，却完成了一次数据泄露。

这正是 Anthropic 白皮书所说的"工具链攻击"（Tool Chaining Attack）：攻击者将合法工具组合成有害序列。由于每条指令都通过可信的服务账号执行，主机层面的监控看不到任何恶意软件，误用完全不被察觉。

传统安全系统无法发现这类攻击，因为它从未被设计用于解决这类问题。

三

Agent 时代的五类核心风险

基于 Anthropic 白皮书以及 OWASP 对 Agentic 系统的威胁分析，Agent 特有的攻击面可以归纳为五类。

Prompt Injection（提示词注入）

这是目前最现实、最难防御的风险。

攻击分为两种形式：直接注入通过用户输入劫持 Agent；间接注入更为隐蔽，攻击者将恶意指令嵌入邮件、PDF、网页或知识库内容中，Agent 在读取时被劫持。

微软研究院已证实：LLM 无法可靠区分"数据"和"指令"。研究表明，某些算法化的攻击方式可以在多个模型家族中实现接近 100% 的攻击成功率。

间接注入的危险在于：用户从未看到恶意载荷，Agent 却将其当作合法指令执行。

Tool Poisoning（工具投毒）

随着 MCP 生态的快速扩张，企业会接入越来越多的 MCP Server、Plugin 和 Agent Tool。

攻击者可以发布恶意 MCP、篡改工具描述、在元数据中注入隐藏指令，诱导 Agent 执行危险操作。Anthropic 白皮书记录了第一个有据可查的野外恶意 MCP Server 案例：该 Server 伪装成合法邮件服务，暗中复制所有已发送邮件。

更隐蔽的是"换包攻击"（Rug Pull Attack）：合法工具在部署后被悄然替换为恶意版本。

Agent Identity Abuse（身份滥用）

传统机器身份（API Key、Service Account）的设计假设是单一、静态的使用方式。但 Agent 场景中出现了新的复杂性：

●一个 Agent 可以调用另一个 Agent

●高权限 Manager Agent 可能将全量权限委托给 Worker Agent，而非应有的最小权限

●低权限 Agent 可能伪造有效指令，被高权限 Agent 执行

这是典型的混淆代理攻击（Confused Deputy Attack）。在多 Agent 系统中，信任关系是动态且往往隐式的，这为攻击者提供了巨大的利用空间。

Memory Poisoning（记忆污染）

Agent 的长期记忆正在成为一个全新的攻击入口。

攻击者可以向知识库或向量数据库写入恶意内容，污染 Agent 的 RAG 检索结果；也可以通过多租户环境中的共享上下文，让一个会话的恶意内容影响后续会话。

Anthropic 研究显示：仅需注入 250 个恶意文档，即可在 6 亿至 130 亿参数的 LLM 中成功植入后门，且该后门在包括 SFT 和 RLHF 在内的安全训练后依然存在。

最危险的是"长期记忆漂移"——通过持续注入，逐步改变 Agent 的行为倾向，任何单一变化都不触发告警，累积效果却可以彻底改变 Agent 的行动模式。

Agent Supply Chain（供应链风险）

未来企业可能同时运行数百个 Agent、数千个 MCP，攻击面已经类似 Kubernetes + Docker + 开源生态的组合。

攻击面不仅局限于运行时。PyTorch 依赖混淆攻击展示了恶意包如何在安装时就窃取 SSH 密钥；安全研究人员已在主流平台上发现约 100 个恶意 AI 模型，其中部分在加载时即发起反向 Shell 连接。

前沿模型非常擅长识别已知漏洞的特征——这意味着 AI 加速的攻击者能够在补丁发布后数小时内，从防御者的修复方案中逆向工程出利用代码。

四

零信任厂商的新增长点：Agent Security Platform

对于零信任厂商而言，Agent 并不是威胁，而是下一代增长点。

本质上，Agent 也是一种身份——从 Human Identity 扩展为 Non-Human Identity（NHI）。Anthropic 白皮书提出了一个核心观点值得重视：

"The organizations best positioned for this shift will not be the ones with the most advanced AI. They will be the ones whose fundamentals are strong enough that AI-assisted scanning finds fewer bugs in the first place, and whose agent deployments were architected for breach from day one."

这句话对零信任厂商而言是最大的市场信号："从第一天就按照已经被攻破来设计"，正是零信任的核心思想。

Anthropic 白皮书提出了一个三层能力成熟度框架：

●Foundation（基础层）：适合小规模部署或初始阶段，但随着攻击时间窗口压缩，门槛已经提高——短生命周期 Token、密码学根身份、基于身份的隔离，已经是入门要求，而非可选项

●Enterprise（企业层）：大多数有规模的组织应该达到的目标成熟度

●Advanced（高级层）：高监管行业、国家安全场景或零容错环境的基线

以下是基于此框架梳理的 Agent Security Platform 参考架构。

五

Agent Security Platform 参考架构

第一层：Agent Identity Fabric

未来每个 Agent 都应拥有独立的密码学身份，而非共享 API Key。

Anthropic 白皮书明确指出，静态 API Key 和共享服务账号密码，是 AI 辅助代码分析最容易发现的目标，"已经可以视为已泄露"。

Agent 身份需要包含：

层级	能力	实现方式
Foundation	密码学根 ID	每个 Agent 实例分配持久化密码学材料，出现在所有日志和访问请求中
Enterprise	证书级身份	为每个 Agent 颁发 X.509 证书，实现完整的证书生命周期管理
Advanced	硬件绑定身份	凭证存储于 HSM/TPM，通过远程 Attestation 验证 Agent 完整性

未来企业中，Agent 数量很可能超过员工数量。Agent IAM 将成为新的市场蓝海。

第二层：Agent ZTNA（Never Trust Agent）

传统 ZTNA 控制"用户访问应用"，需要演进为 Agent Access Broker，管控：

●Agent → Tool

●Agent → MCP

●Agent → API

●Agent → Agent

每一次调用都需要：身份验证、动态授权、风险评估。

Anthropic 白皮书特别强调即时访问（JIT Access）：Agent 仅在需要时获得权限，任务完成后自动吊销。Token 生命周期应以分钟而非小时或天来衡量。

权限模型的演进路径：

层级	权限模型
Foundation	RBAC + 默认拒绝
Enterprise	ABAC（基于时间、位置、数据敏感度、风险评分的上下文授权）
Advanced	持续授权（每次 Action 均重新评估，而非仅在会话开始时）

第三层：Agent Runtime Protection

这是现有零信任产品最缺失的一层，也是最核心的差异化机会。风险发生在运行时，传统边界防御无法覆盖。

Prompt Firewall

检测和拦截 Prompt Injection、Jailbreak 及越权指令。

Anthropic 的研究表明，通过 Spotlighting 技术（明确标注不可信内容边界），间接注入攻击成功率可以从 50% 以上降低到 2% 以下；宪法分类器（Constitutional Classifier）可以在几乎不增加误拒率的情况下，阻断 95% 的越狱尝试。

Tool Firewall

限制文件操作、数据库访问、MCP 调用。工具白名单（Tool Allow-listing）是基础：仅允许每个 Agent 访问其职能所需的工具，拒绝所有未列入白名单的工具调用。参数验证需要在 Agent 侧和工具侧双重执行。

Output Firewall / AI DLP

检测输出中的 PII、源代码、商业机密和数据外泄行为。语义分析优于单纯的模式匹配——攻击者可以对敏感数据进行编码或变形以绕过规则。高风险 Action 必须经过 Human-in-the-Loop 审批，并记录审批决策用于事后审计。

第四层：Agent Sandbox

Agent 不应直接持有真实权限，应采用基于能力的安全模型（Capability-based Security）。

Anthropic 白皮书推荐的"不可能 vs. 繁琐"测试（Impossible vs. Tedious Test）是一个非常实用的设计原则：

评估每项控制措施时，只需问一个问题：这是让攻击变得不可能，还是只是让攻击变得繁琐？

基于摩擦的防护（额外跳板、速率限制、非标端口）在能够以近乎零成本反复尝试的 AI 攻击者面前几乎无效。真正有效的控制是：移除能力，而非限速能力。

沙箱执行环境（容器 + gVisor 额外 syscall 过滤 + 限制网络访问）应视为所有处理不可信输入的 Agent 的标准配置，而非高级选项。

第五层：Agent SOAR（防御与攻击速度的竞赛）

Anthropic 白皮书的最后一章专门讨论了这一问题：

"当漏洞与利用之间的时间窗口从数月压缩到数小时，以天为单位的响应流程已经跟不上攻击速度。"

下一代 SOAR 是 Agentic SOAR：在发现异常行为后，自动完成封禁 Agent、吊销 Token、隔离 MCP、回滚 Memory，无需等待人工介入。

但白皮书同时给出了重要边界：自动化的是"记账"，不是"决策"。

●模型负责：收集证据、追踪事件、并行调查、起草事后复盘

●人类负责：封禁决策、披露决策、客户沟通

对防御性 Agent 同样适用零信任原则——防御自动化的爆炸半径同样需要受到约束。

六

给 CISO 和安全架构师的行动清单

基于 Anthropic 白皮书的建议，以下是优先级最高的行动项：

立即可做（Foundation 层）：

●为每个 Agent 分配唯一密码学身份，禁止共享 API Key

●将所有凭证迁移至短生命周期 Token（分钟级），停止使用静态密钥

●建立 Agent 行为日志，确保所有工具调用、数据访问、对外通信均有记录

●制定 Agent 可接受使用政策和事件响应流程（含 Shadow AI 治理）

中期部署（Enterprise 层）：

●为生产 Agent 部署沙箱执行环境（容器 + syscall 过滤）

●实现 ABAC 动态授权（含时间、位置、风险评分维度）

●部署工具白名单和参数双重验证机制

●建立 Agent 行为基线，启用统计异常检测

●在 AI-BOM 中追踪 Agent 组件的供应链完整性，使用 OpenSSF Scorecard 评估依赖健康度

高监管行业目标（Advanced 层）：

●硬件绑定身份（HSM/TPM + 远程 Attestation）

●即时访问（JIT Access）+ 自动到期吊销

●全链路溯源（Input → 推理过程 → Output，支持算法可解释性审计）

●Agentic SOAR 闭环，覆盖 MITRE ATT&CK 横向移动和凭证访问场景

七

结语

零信任的核心思想从未改变：永不信任，持续验证，假设已被攻破。

改变的是主体。

企业最大的风险主体，正在从"拥有账号密码的人"，扩展为"拥有自主执行能力的 AI Agent"。

Anthropic 白皮书的最后一句话值得所有安全从业者记住：

"The organizations best positioned for this shift will be the ones whose agent deployments were architected for breach from day one."

从第一天起，就按照"已经被攻破"来设计。

这不是悲观，这是零信任。

参考资料：Anthropic《Zero Trust for AI Agents》（2026.05）· NIST SP 800-207 · OWASP Top 10 for LLM Applications · NSA Zero Trust Implementation Guides

上一篇：零信任态势评估：安全态势的量化评估（上）

下一篇： AI安全网关：企业统一接入、安全防护与数据安全的必要性与实践路径

返回列表

找回密码

注册账号

资料下载

新闻资讯