银行 AI agent 被 0.01 欧元转账攻破的启示

荷兰数字银行 bunq 近日被披露存在严重安全漏洞：一名安全研究员通过 0.01 欧元的小额转账作为载体，向其 AI 助理注入了精心构造的指令，最终成功骗取了目标账户的敏感信息。整个过程没有触发任何风控告警，揭示了金融 agent 在面对多模态输入时的防御盲区。事件披露后，bunq 紧急下架了相关查询功能，并启动全链路审查。

图 1 是 0.01 欧元转账与 prompt injection 入口

攻击原理并不复杂。研究员在转账附言中写入了对 AI 助理的 prompt injection 文本。当用户向 AI 助理查询某笔交易时，模型把附言内容直接纳入了上下文，并按照隐藏指令返回了非授权的账户信息。本质上，这与传统的间接 prompt injection 一脉相承，但金融场景让后果被无限放大。

bunq 在事件后回应称，已经对相关功能做了下架处理，并加强了对所有外部输入内容的过滤。然而事件本身已经说明：当 AI agent 直接接触资金流和数据流时，传统的输入净化和输出过滤都不足以兜底。模型本身的不可控性意味着，攻击面已经从 API 层下沉到自然语言层。

图 2 是攻击者向银行 AI 助理注入指令

对国内金融科技行业而言，这一案例提供了三个具体启示。第一，AI agent 的可用数据应当与可执行权限严格分离，避免模型看见的和能做的范围重叠过大。第二，所有来自用户输入的字段，包括转账附言、备注、文件名，都必须被视作不可信内容，并经过独立的安全过滤。

第三，关键操作必须叠加人在回路的二次确认。可治理的金融 AI 不在于模型多强，而在于边界多清楚。当 AI 助理既能读附言又能查账户时，0.01 欧元就足以打开一扇门。这一案例也再次提示，监管层对金融 agent 的合规要求会持续收紧。

图 3 是金融 agent 防御盲区

← 返回文章列表