荷兰数字银行 bunq 近日被披露存在严重安全漏洞:一名安全研究员通过 0.01 欧元的小额转账作为载体,向其 AI 助理注入了精心构造的指令,最终成功骗取了目标账户的敏感信息。整个过程没有触发任何风控告警,揭示了金融 agent 在面对多模态输入时的防御盲区。事件披露后,bunq 紧急下架了相关查询功能,并启动全链路审查。

图 1 是 0.01 欧元转账与 prompt injection 入口
攻击原理并不复杂。研究员在转账附言中写入了对 AI 助理的 prompt injection 文本。当用户向 AI 助理查询某笔交易时,模型把附言内容直接纳入了上下文,并按照隐藏指令返回了非授权的账户信息。本质上,这与传统的间接 prompt injection 一脉相承,但金融场景让后果被无限放大。
bunq 在事件后回应称,已经对相关功能做了下架处理,并加强了对所有外部输入内容的过滤。然而事件本身已经说明:当 AI agent 直接接触资金流和数据流时,传统的输入净化和输出过滤都不足以兜底。模型本身的不可控性意味着,攻击面已经从 API 层下沉到自然语言层。

图 2 是攻击者向银行 AI 助理注入指令
对国内金融科技行业而言,这一案例提供了三个具体启示。第一,AI agent 的可用数据应当与可执行权限严格分离,避免模型看见的和能做的范围重叠过大。第二,所有来自用户输入的字段,包括转账附言、备注、文件名,都必须被视作不可信内容,并经过独立的安全过滤。
第三,关键操作必须叠加人在回路的二次确认。可治理的金融 AI 不在于模型多强,而在于边界多清楚。当 AI 助理既能读附言又能查账户时,0.01 欧元就足以打开一扇门。这一案例也再次提示,监管层对金融 agent 的合规要求会持续收紧。

图 3 是金融 agent 防御盲区
OpenClaw—AI研究