Opus 4.8|Agent新巅峰

Opus 4.8发布,动态工作流+降价,Agent进化

背景

2026年5月28日,Anthropic 正式发布 Claude Opus 4.8,这是其旗舰模型自 Opus 4.5 和 4.7 以来的第三次重大迭代。与常规维护性更新不同,这次发布在编码、Agent 能力和推理等多个维度取得显著突破,并同步推出多项新功能:用户可控的「思考强度」调节、Claude Code 动态工作流,以及三倍降价的超快模式。

核心亮点

Opus 4.8 在 SWE-bench Verified 编码基准上达到 86.5%,超越 GPT-5.5。Anthropic 首次公开「Agent 自主性」评估(TAU-bench),Opus 4.8 在零售、航空、金融等真实业务场景中全面领先。更引人注目的是系统卡第102页的「创造性 mastery」评估——要求模型设计新 API,Opus 4.8 表现远超前代及 GPT-5.5。

新功能方面:claude.ai 用户可手动调节思考深度,从低推理成本快速响应到深度分析自由切换;Claude Code 获得「动态工作流」能力,自动分解大型编程任务并并行执行;超快模式速度 2.5 倍,价格仅为此前 1/3。

生态信号

Anthropic 同时透露 Project Glasswing——代号 Claude Mythos 的新模型类别,智慧水平将超越 Opus,已有一小批组织在试用。这表明模型路线图远未触及天花板。测试者反馈 Opus 4.8「判断力显著提升,能先建立信心再做大改动」,代码缺陷遗漏率降至前代的 1/4。对齐评估显示 Opus 4.8「在支持用户自主性和用户利益方面达到新高」。

社区反响

HN 社区讨论热烈(923 条评论)。用户 simonw 用不同思考等级生成 SVG 对比,高思考模式明显更优;senko 用 Claude Code ultracode 模式一次生成完整 RTS 游戏。也有声音指出 GPT-5.5 性价比仍更高,但多位资深用户认为 Opus 4.8 的「判断力提升」是质变——模型在何时深入、何时略过上更聪明,实际开发体验远超 benchmark 数字。用户 gslepak 特别提到 Opus 4.8 在创造性 API 设计上优于 GPT-5.5,这在工程实践中价值极高。

📎 原文: anthropic.com
💬 HN讨论: news.ycombinator.com

Leave a Reply

Your email address will not be published. Required fields are marked *