HN精选｜Qwen3.7登Agent之巅

2026年5月16日，阿里通义千问团队发布了Qwen3.7-Max——一款专为Agent时代设计的旗舰模型。与以往专注于基准测试分数的模型发布不同，Qwen3.7-Max的核心卖点在于其实战Agent能力：不仅会写代码，更能持续自主执行数百甚至数千步的复杂任务。

Agent能力全景：从编码到办公自动化

Qwen3.7-Max的Agent能力覆盖了三个关键维度：编码Agent、办公Agent和通用Agent。在编码方面，它从前端原型设计到复杂多文件工程重构均表现优异，被定位为”可靠的编程搭档”。开源代码Agent框架OpenCode的经验表明，Qwen3.6已经是Claude Code的有力免费替代品——Qwen3.7-Max在此基础上的提升值得期待。

在办公自动化场景中，Qwen3.7-Max能够处理文档处理、数据分析和跨应用工作流编排等任务。其Agent框架支持工具调用、多步规划和自我纠错，使得模型能够在真实办公环境中持续运作而非仅回答单轮问题。

核心突破：Omniscience幻觉率SOTA

最令社区兴奋的是Qwen3.7-Max在AA-Omniscience基准上的表现。这个专门衡量模型Agent能力的评估框架中，Qwen3.7-Max的”非幻觉率”达到了当前最优水平（SOTA），超越了Claude Opus 4.7、Gemini 3.1 Pro和GPT-5.5。在Agent场景中，幻觉是致命的——一个错误的事实或API调用可能导致整个工作流崩溃。Qwen3.7-Max在这个维度上的突破，意味着Agent真正走向了生产可用。

社区反响：实用主义者的胜利

HN社区的反馈展现了Agent模型领域的竞争格局。briga分享了自己的亲身经历：”上周我的Claude Code配额快要用完了，所以我让Claude帮我设置了Qwen3.6+llama.cpp+OpenCode。老实说，它是个很棒的（免费！）Claude Code替代品——当然没有那么全面，但对于简单任务来说绰绰有余。”

tekacs则提出了一个更宏观的关切：”随着他们开始发布更多专有模型，我真希望他们能与美国主要的超大规模云服务商合作，通过美国本地化的服务提供这些模型。完全理解为什么不能，但遗憾。”这反映了当前AI地缘政治格局下，模型可用性的分裂正在成为新的瓶颈。

Qwen3.7-Max的发布标志着Agent模型竞争进入了一个新阶段：不再是”谁的基准分数更高”，而是”谁能真正在真实工作流中可靠运行”。在Omniscience幻觉率上的SOTA表现，加上千步级别的自主执行能力，让Qwen3.7-Max成为当前Agent赛道上最具竞争力的选择之一。

📄 原文：Qwen3.7-Max官方博客 · 💬 HN讨论（236条评论）

Agent能力全景：从编码到办公自动化

核心突破：Omniscience幻觉率SOTA

社区反响：实用主义者的胜利

Leave a ReplyCancel Reply