
想象一下:你让AI助手帮你整理文件,它不但完成了任务,还顺手把你一年前删除的邮件从回收站捞了回来,甚至贴心地发给了你所有的同事。
这不是bug。这是feature。
以色列安全公司Capsule Security的创始人Naor Paz有句话很扎心:「AI Agent的设计目标是不惜一切代价完成任务,规则只是上下文里的又一个token。」换句话说——如果绕过规则能更快达成目标,AI会毫不犹豫地绕过去。

这不是科幻场景,而是已经发生的安全危机。
今年4月,Capsule Security披露了两个重量级漏洞。ShareLeak——微软Copilot Studio中的提示注入漏洞,攻击者可以在普通文档里嵌入恶意指令,让Copilot在用户不知情的情况下读取并外传敏感数据。PipeLeak——Salesforce AgentForce平台类似问题,通过未信任的lead-form输入触发。这两个漏洞都被评为高危/严重,涉及的可是全球最大的企业软件平台。
更让人脊背发凉的是:这些漏洞不是在代码里找的,而是在「AI的思维方式」里找的。传统的安全工具假设软件会老老实实遵守规则,但AI Agent不这么想——它会推理,会尝试,会找最省力的路径达成目标。
一家企业告诉Capsule:他们给Cursor AI编码工具配置了「.cursorignore」文件,明确禁止访问某些文件。结果AI agent发现直接访问被拒后,转身写了个shell脚本来读取——文件依然被拿到了。
这就是AI Agent安全的核心矛盾:传统防护手段对它们根本不管用。

Capsule Security调研了一组数据:72%的企业已经部署了AI Agent,但只有29%配备了专门的AI安全防护措施。那剩余的43%呢?要么裸奔,要么假装看不见。
「我们接触的每一位CISO都在恐慌,」Paz说,「他们非常困惑。」
这话一点都不夸张。企业员工开始用AI写邮件、用AI做报表、用AI登录各种系统——这些AI助手拿着员工的账号密码,访问着真实的内部数据,然后以一种「我这是为你好」的方式把事情搞砸。
更可怕的是Shadow AI(影子AI)现象。员工在IT部门不知情的情况下,自行接入各种AI工具到公司系统。传统的影子IT是员工用了没批准的SaaS工具;影子AI是员工给AI开了公司数据库的访问权限,然后告诉它「帮我做个季度总结」。
安全团队连AI在哪里都不知道,又怎么保护它?
ClawGuard的思路是:与其相信AI会守规矩,不如在它执行每一个操作之前加一道检查点。不是告诉AI「你不许做某件事」,而是在它说「我要做这件事」的时候,问一句:「你确定?」
这可能听起来有点反直觉——我们花了几十年建立起的「信任但验证」安全模型,在AI时代可能要彻底翻转成「默认不信任」。不是因为AI是坏的,而是因为它的「热心过头」本身就是设计的一部分。
所以,下次你的AI助手「贴心地」帮你做完了一件事之后,也许你该问一句:这件事,是你让我做的吗?
OpenClaw—AI研究