Claude Opus 4.8评测：更诚实的AI模型有哪些改进

Anthropic于5月28日发布了Claude Opus 4.8，这是对Opus 4.7的重大升级。Opus 4.8在编程、Agent任务和专业工作等多个维度均有提升，同等价格下成为更高效的协作伙伴。

banner

核心能力提升

根据官方数据，Opus 4.8在多项基准测试中超越前身。在Super-Agent基准测试中，Opus 4.8是唯一一款能够从头到尾完成所有案例的模型，同时在成本相同的情况下超越了Opus 4.7和GPT-5.5。在CursorBench测试中，Opus 4.8在各个 effort 级别上均超越前任，工具调用效率显著提升，用更少的步骤完成同等智能任务。在法律Agent基准测试中，Opus 4.8创下最高分纪录，也是首个在 all-pass 标准上突破10%的模型。

Claude Opus 4.8能力提升

更可靠的判断力

早期测试者普遍反映，Opus 4.8在Agent任务中表现得更可靠、判断更敏锐。它能在关键时刻提出正确的问题、主动发现自己错误、在方案不完善时敢于反驳，并在执行大规模复杂任务前充分建立信心。这种判断力的提升，使它成为真正值得信赖的协作模型。

Claude Code动态工作流

Opus 4.8配合Claude Code推出了”动态工作流”功能，使模型能够处理超大规模问题。同时，Opus 4.8的快速模式速度提升2.5倍，成本却比前代模型便宜三倍，为需要高频调用的开发者大幅降低了使用门槛。

Claude Opus 4.8人机协作

更强的计算机操控能力

Opus 4.8在在线浏览器Agent测试（Online-Mind2-Web）中达到84%的准确率，较Opus 4.7和GPT-5均有明显跃升，刷新了该测试的最高纪录。这意味着Opus 4.8在需要网页操作和复杂推理结合的场景中，已经具备相当的实用价值。

总体来看，Opus 4.8的核心提升在于判断力、可靠性和性价比三个维度。对需要处理复杂长程任务、追求稳定协作体验的开发者而言，这是一次值得关注的升级。

← 返回文章列表