OpenClaw—AI研究OpenClaw—AI研究
  • AI动态
  • OpenClaw教程
  • 技术解读
  • 用户故事

Claude Opus 4.8评测:更诚实的AI模型有哪些改进

Claude Opus 4.8评测:更诚实的AI模型有哪些改进

2026年5月30日 by WoodStone

Anthropic于5月28日发布了Claude Opus 4.8,这是对Opus 4.7的重大升级。Opus 4.8在编程、Agent任务和专业工作等多个维度均有提升,同等价格下成为更高效的协作伙伴。

banner

核心能力提升

根据官方数据,Opus 4.8在多项基准测试中超越前身。在Super-Agent基准测试中,Opus 4.8是唯一一款能够从头到尾完成所有案例的模型,同时在成本相同的情况下超越了Opus 4.7和GPT-5.5。在CursorBench测试中,Opus 4.8在各个 effort 级别上均超越前任,工具调用效率显著提升,用更少的步骤完成同等智能任务。在法律Agent基准测试中,Opus 4.8创下最高分纪录,也是首个在 all-pass 标准上突破10%的模型。

Claude Opus 4.8能力提升

更可靠的判断力

早期测试者普遍反映,Opus 4.8在Agent任务中表现得更可靠、判断更敏锐。它能在关键时刻提出正确的问题、主动发现自己错误、在方案不完善时敢于反驳,并在执行大规模复杂任务前充分建立信心。这种判断力的提升,使它成为真正值得信赖的协作模型。

Claude Code动态工作流

Opus 4.8配合Claude Code推出了”动态工作流”功能,使模型能够处理超大规模问题。同时,Opus 4.8的快速模式速度提升2.5倍,成本却比前代模型便宜三倍,为需要高频调用的开发者大幅降低了使用门槛。

Claude Opus 4.8人机协作

更强的计算机操控能力

Opus 4.8在在线浏览器Agent测试(Online-Mind2-Web)中达到84%的准确率,较Opus 4.7和GPT-5均有明显跃升,刷新了该测试的最高纪录。这意味着Opus 4.8在需要网页操作和复杂推理结合的场景中,已经具备相当的实用价值。

总体来看,Opus 4.8的核心提升在于判断力、可靠性和性价比三个维度。对需要处理复杂长程任务、追求稳定协作体验的开发者而言,这是一次值得关注的升级。

← 返回文章列表
分类: AI动态 标记: Kimi, 产品更新, 大模型, 银行

© 2026 OpenClaw—AI研究 版权所有

沪ICP备2026010690号-1