Opus 4.8｜Agent新巅峰

背景

2026年5月28日，Anthropic 正式发布 Claude Opus 4.8，这是其旗舰模型自 Opus 4.5 和 4.7 以来的第三次重大迭代。与常规维护性更新不同，这次发布在编码、Agent 能力和推理等多个维度取得显著突破，并同步推出多项新功能：用户可控的「思考强度」调节、Claude Code 动态工作流，以及三倍降价的超快模式。

核心亮点

Opus 4.8 在 SWE-bench Verified 编码基准上达到 86.5%，超越 GPT-5.5。Anthropic 首次公开「Agent 自主性」评估（TAU-bench），Opus 4.8 在零售、航空、金融等真实业务场景中全面领先。更引人注目的是系统卡第102页的「创造性 mastery」评估——要求模型设计新 API，Opus 4.8 表现远超前代及 GPT-5.5。

新功能方面：claude.ai 用户可手动调节思考深度，从低推理成本快速响应到深度分析自由切换；Claude Code 获得「动态工作流」能力，自动分解大型编程任务并并行执行；超快模式速度 2.5 倍，价格仅为此前 1/3。

生态信号

Anthropic 同时透露 Project Glasswing——代号 Claude Mythos 的新模型类别，智慧水平将超越 Opus，已有一小批组织在试用。这表明模型路线图远未触及天花板。测试者反馈 Opus 4.8「判断力显著提升，能先建立信心再做大改动」，代码缺陷遗漏率降至前代的 1/4。对齐评估显示 Opus 4.8「在支持用户自主性和用户利益方面达到新高」。

社区反响

HN 社区讨论热烈（923 条评论）。用户 simonw 用不同思考等级生成 SVG 对比，高思考模式明显更优；senko 用 Claude Code ultracode 模式一次生成完整 RTS 游戏。也有声音指出 GPT-5.5 性价比仍更高，但多位资深用户认为 Opus 4.8 的「判断力提升」是质变——模型在何时深入、何时略过上更聪明，实际开发体验远超 benchmark 数字。用户 gslepak 特别提到 Opus 4.8 在创造性 API 设计上优于 GPT-5.5，这在工程实践中价值极高。

📎 原文: anthropic.com
💬 HN讨论: news.ycombinator.com

背景

核心亮点

生态信号

社区反响

Leave a ReplyCancel Reply