英国AI安全研究院(UK AISI)近日发布了针对Anthropic旗舰模型Mythos的测试报告,结论值得关注:Mythos的进化速度比研究院预期更快,在多个能力维度上的提升幅度超出了测试框架的预测范围。

这不是第一次有AI安全机构对前沿模型的快速发展表示担忧。但UK AISI的这份报告有几个点值得单独拎出来说。
能力涌现的非线性提升
首先是被称为”能力涌现”的非线性提升。传统观点认为AI模型的能力提升是线性的、可预测的——投入更多算力、数据,模型能力随之线性增长。但Mythos在测试中展现出了多次非连续性跳跃。研究院的测试人员在报告中描述,模型在某一版本的基准测试中突然在代码生成、数学推理、多步骤规划三个维度同时突破了此前设定的高标准阈值,而三个维度之间的能力跃迁在时间线上高度相关,像是某种深层能力被激活而非逐项优化。
模型行为的一致性
UK AISI报告中另一个值得关注的点是模型行为的一致性。测试用了超过两万道设计用于探测可靠性的题目,Mythos的错误模式呈现出高度一致性——不是随机犯错,而是同一类型的错误反复出现。这说明模型的”思维模式”有迹可循,而非传统意义上随机误差的堆叠。对于安全测试来说,这个特征既是好消息也是坏消息:好消息是错误可预测因而可修复;坏消息是可预测的错误意味着模型内部形成了某种固定的、有迹可查的推理路径。

对产业的影响
对于Anthropic来说,这份报告的影响是双重的。一方面,它印证了Mythos作为当前最强模型之一的地位,能力超预期进化对于产品竞争力是加分项;另一方面,UK AISI的警告意味着Anthropic在模型部署上可能面临更严格的监管审查。从更宏观的角度看,这份报告再次把”AI安全的速度能否跟上AI能力的发展速度”这个问题摆到了台面上。Mythos进化超预期,安全研究也必须超预期——这是行业健康发展的基本逻辑。

OpenClaw—AI研究