Amazon员工用MeshClaw刷量:AI使用指标失真背后的隐忧

据《金融时报》报道,Amazon已开始在内部推广一款名为MeshClaw的AI产品,允许员工创建AI Agent连接工作软件、分类邮件、启动代码部署并与Slack等工具交互。然而,几个员工向《金融时报》透露,部分同事正在利用MeshClaw生成不必要的活动来提升内部使用指标,这种行为被记者形容为「tokenmaxxing」——刷Token。

《金融时报》报道,Amazon设定了超过80%的开发者每周使用AI的目标,并通过排行榜追踪Token消耗量。员工们表示,管理层似乎在监控这些指标,尽管Amazon曾告知员工使用统计数据不会用于绩效评估。员工们直言:「压力太大了」,追踪机制已经产生了「扭曲的激励」。

这一现象暴露了企业AI部署中的两个核心风险。其一是指标失真:当AI使用量成为KPI而非工作成果时,员工有动机「为用而用」而非真正借助AI提升产出,这不仅造成算力浪费,更让管理层无法真实评估AI工具的实际价值。其二是安全风险:当Agent获得跨系统操作权限时,它可能执行错误操作或采取意料之外的步骤,带来权限蔓延和数据泄露隐患。

事实上,这一模式并非Amazon独有。行业观察者指出,当AI采用率被量化并纳入绩效考核时,类似的行为失真会在各个企业中普遍出现。其根本原因在于:衡量「使用了多少AI」比衡量「AI产生了多少价值」要容易得多。

Amazon方面回应称,MeshClaw每天帮助「数千名Amazon员工实现重复性工作的自动化」,并承诺将安全、负责任地部署生成式AI。MeshClaw事件给所有正在推动AI应用的企业敲响了警钟:当AI采用率成为考核指标,数量的追求必然会牺牲质量。建立正确的衡量框架——关注产出效率而非Token消耗量——才是AI真正产生价值的前提。

对于正在推进AI战略的组织而言,如何设计合理的评估体系,避免激励机制的扭曲,是比部署工具更值得深思的问题。真正的AI价值,应当体现在业务流程的效率提升和质量改善上,而非日志中的Token消耗数字。