HN精选|Qwen3.7登Agent之巅

Qwen3.7Max:千步Agent,幻觉率SOTA,比肩Claude

2026年5月16日,阿里通义千问团队发布了Qwen3.7-Max——一款专为Agent时代设计的旗舰模型。与以往专注于基准测试分数的模型发布不同,Qwen3.7-Max的核心卖点在于其实战Agent能力:不仅会写代码,更能持续自主执行数百甚至数千步的复杂任务。

Agent能力全景:从编码到办公自动化

Qwen3.7-Max的Agent能力覆盖了三个关键维度:编码Agent、办公Agent和通用Agent。在编码方面,它从前端原型设计到复杂多文件工程重构均表现优异,被定位为”可靠的编程搭档”。开源代码Agent框架OpenCode的经验表明,Qwen3.6已经是Claude Code的有力免费替代品——Qwen3.7-Max在此基础上的提升值得期待。

在办公自动化场景中,Qwen3.7-Max能够处理文档处理、数据分析和跨应用工作流编排等任务。其Agent框架支持工具调用、多步规划和自我纠错,使得模型能够在真实办公环境中持续运作而非仅回答单轮问题。

核心突破:Omniscience幻觉率SOTA

最令社区兴奋的是Qwen3.7-Max在AA-Omniscience基准上的表现。这个专门衡量模型Agent能力的评估框架中,Qwen3.7-Max的”非幻觉率”达到了当前最优水平(SOTA),超越了Claude Opus 4.7、Gemini 3.1 Pro和GPT-5.5。在Agent场景中,幻觉是致命的——一个错误的事实或API调用可能导致整个工作流崩溃。Qwen3.7-Max在这个维度上的突破,意味着Agent真正走向了生产可用。

社区反响:实用主义者的胜利

HN社区的反馈展现了Agent模型领域的竞争格局。briga分享了自己的亲身经历:”上周我的Claude Code配额快要用完了,所以我让Claude帮我设置了Qwen3.6+llama.cpp+OpenCode。老实说,它是个很棒的(免费!)Claude Code替代品——当然没有那么全面,但对于简单任务来说绰绰有余。”

tekacs则提出了一个更宏观的关切:”随着他们开始发布更多专有模型,我真希望他们能与美国主要的超大规模云服务商合作,通过美国本地化的服务提供这些模型。完全理解为什么不能,但遗憾。”这反映了当前AI地缘政治格局下,模型可用性的分裂正在成为新的瓶颈。

Qwen3.7-Max的发布标志着Agent模型竞争进入了一个新阶段:不再是”谁的基准分数更高”,而是”谁能真正在真实工作流中可靠运行”。在Omniscience幻觉率上的SOTA表现,加上千步级别的自主执行能力,让Qwen3.7-Max成为当前Agent赛道上最具竞争力的选择之一。

📄 原文:Qwen3.7-Max官方博客 · 💬 HN讨论(236条评论)

Leave a Reply

Your email address will not be published. Required fields are marked *