AI 资讯

GPT-5.5 登顶时刻，Anthropic 亲口承认 Claude 变笨了！网友群嘲：太敷衍

点击查看原文>

AI_light

25 Apr 2026 • 13 min read

“Claude 变笨了。”

Anthropic 正面回应模型“变笨”：三处优化导致的

过去一段时间，这个声音在 Hacker News、Reddit 以及 X 上此起彼伏。尤其是在万众瞩目的 Opus 4.7 发布后，不少老用户反馈 Claude Code 变得健忘、重复且废话连篇。

作为目前全球最强梯队的编程模型，Claude 的口碑滑坡让 Anthropic 压力倍增。

所以今天一早，Claude Code 研发团队打破沉默，发布了一篇看起来诚意十足的分析文章，名为《An update on recent Claude Code quality reports》，他们在文章中坦言，用户反馈的“降智”并非错觉，而是源于三处看似合理、实则导致连锁反应的产品优化。

没错，Claude Code 真的“变笨”了。

研发团队表示，目前 Anthropic 已修复全部漏洞，并宣布重置所有订阅用户的使用限额以示诚意。

截至 4 月 20 日（版本 v2.1.116），这三个问题均已修复。在这篇文章中，他们详细阐述了发现了什么、修复了什么，以及今后将如何改进，避免类似问题再次发生。

三处优化细节详述

事件的起因，源于产品团队对“用户体验”的过度优化。经过调查，Claude Code 团队找出了三个不同的问题：

第一个优化发生在 3 月 4 日。 通常来说，模型思考时间越长，输出效果越好。当时，不少用户吐槽 Opus 模型思考时间太长，甚至导致 UI 卡死。为了缩短延迟、节省 Token，团队私自将默认推理强度（Reasoning Effort）从“高”降到了“中”。

在产品层面，团队再从中选一个点作为默认值，并通过 Messages API 的 effort 参数传递该值；同时，团队还将其他可选强度通过 /effort 命令提供给用户。

内部评估认为，“中”等强度能以极小的智能损失换取显著的速度提升。然而，真实环境中的开发者并不买账，上线后不久，就有用户反映 Claude Code 感觉变笨了。对 AI 而言，“多思考一秒钟”往往意味着从“生成垃圾代码”到“产出优雅重构”的跨越。

在听取更多客户的反馈后，团队做了多次设计迭代，让当前的推理强度设置更清晰，以便提醒用户可以更改默认值（例如启动时弹出提示、增加内联的强度选择器、恢复“ultrathink”选项），但大多数用户仍然保留了“中”等推理强度默认值。

4 月 7 日，团队在意识到这种取舍逻辑的错误后，将默认强度重新调回了“高”，并在 Opus 4.7 上默认开启了“极高”模式。此问题影响的模型是 Sonnet 4.6 和 Opus 4.6。

第二个优化发生在 3 月 26 日。当 Claude 执行一项任务并进行推理时，这些推理内容通常会被保留在对话历史中。这样，在后续的每一轮交互中，Claude 都能了解自己之前为何做出某些编辑和工具调用。

3 月 26 日，团队针对这一功能上线了一项本意是提高效率的优化，有点类似于“自动清理历史思考内容”的功能。他们利用提示缓存（prompt caching）来降低用户连续 API 调用的成本并加快速度。Claude 在发起 API 请求时将输入 token 写入缓存；如果一段时间没有活动，该提示就会被从缓存中逐出，为其他提示腾出空间。

原本的设计应该很简单：如果会话空闲超过一小时，系统会剪除旧的推理信息以节省成本。为此，团队使用了 clear_thinking_20251015 这个 API 头部，并配合 keep:1 参数。

但代码中隐藏的一个漏洞：它并没有只清除一次思考历史，而是在会话后续的每一轮中都进行清除。一旦跨过空闲阈值，后续每一轮对话都会触发清理。这意味着 Claude 只能记住最近的一句对话，它彻底忘记了自己当初为什么要修改代码。在用户眼中，Claude 开始重复啰嗦、胡言乱语。这种“健忘”不仅损害了智能，还因为频繁的缓存未命中（Cache Miss）导致用户的使用额度被光速消耗。

据悉，该漏洞的发现过程较为曲折，由于 Anthropic 内部两个互不相关的实验干扰，导致漏洞难以复现——一个是仅用于服务端、涉及消息队列的内部实验，另一个是在思考内容展示方式上的正交改动，该改动在大多数 CLI 会话中掩盖了漏洞，使得外部构建测试时未能发现问题。

此外，该漏洞处于 Claude Code 的上下文管理、Anthropic API 和扩展推理三个模块的交汇点，相关变更已通过多轮人工和自动化代码审查、单元测试、端到端测试、自动化验证及内部试用，且仅在陈旧会话这一边缘情况下出现，因此 Anthropic 花费超过一周时间才找到并确认其根本原因。

值得注意的是，在调查过程中，团队使用 Opus 4.7 对有问题的拉取请求进行了反向的“代码审查”测试。当提供了获取完整上下文所必需的代码仓库后，Opus 4.7 发现了该漏洞，而 Opus 4.6 未能做到。

为防范此类问题再次发生，Anthropic 目前正增加对更多代码仓库作为代码审查上下文的支持，该漏洞也已经在 4 月 10 日 v2.1.101 版本中修复好了。此问题影响的模型是 Sonnet 4.6 和 Opus 4.6。

第三个优化发生在 4 月 16 日。Anthropic 曾为降低 Claude Opus 4.7 版本的冗长程度，修改了系统提示语。据悉，Claude Opus 4.7 相较于前代，明显更加“啰嗦”，虽能在困难问题上表现更出色，但会生成更多输出 token。

在该版本发布前几周，Anthropic 便开始对 Claude Code 进行调整，综合运用模型训练、提示语优化、思考体验改进等多种方式降低冗长程度，其中新增的一条系统提示语——“长度限制：在工具调用之间的文本控制在 25 个单词以内。最终回复控制在 100 个单词以内，除非任务确实需要更多细节”，对 Claude Code 的智能产生了过大影响。

该提示语经过数周内部测试，在 Anthropic 运行的评估集上未出现性能退化，因此于 4 月 16 日随 Opus 4.7 版本一同上线。

但在后续调查过程中，Anthropic 通过更广泛的评估集开展更多消融测试（即从系统提示中逐行删除以理解每行影响），发现 Opus 4.6 和 4.7 版本均出现 3%的性能下降。

为此，Anthropic 在 4 月 20 日的发布中，立即撤销了该条系统提示语。该优化受影响的模型包括 Sonnet 4.6、Opus 4.6 和 Opus 4.7。

未来如何改进？

为了避免再次出现这些问题，Claude Code 团队表示将从下面三个方面进行改进：

首先，是内部全员强制使用公共构建版，确保开发者与用户“同频感同身受”。

Claude Code 团队将推动内部使用版本的统一，确保更大比例的内部员工使用 Claude Code 的精确公共构建版本，而非用于测试新功能的内部版本，以此更贴近普通用户的实际使用场景，提前发现潜在问题。同时，团队将对内部使用的代码审查工具进行改进，并计划将优化后的代码审查工具同步提供给客户，助力客户提升使用体验。

其次，是引入更严苛的提示语审计工具，对系统提示语的每一行修改进行持续的消融测试。

在系统提示语管理方面，Claude Code 团队将增加更严格的控制措施。对于每一次系统提示语的更改，团队都会针对每个模型运行广泛评估，持续开展消融测试以明确每一行提示语的具体影响；同时，已构建新的工具，让提示语的修改更易于审查和审计。

第三，是增加“浸泡期”，对于任何可能牺牲智能换取性能的改动，采取逐步上线的流程。

团队已在自身的 CLAUDE.md 文件中新增指导原则，确保针对特定模型的更改仅限定在该模型范围内，避免跨模型影响。对于任何可能牺牲智能换取其他收益的改动，团队将增加“浸泡期”，扩大评估集范围，并采用逐步上线的流程，以便更早发现并规避问题。

在用户沟通与反馈渠道方面，Claude Code 团队近期已在 X（原 Twitter）平台创建 @ClaudeDevs 账号，用于深入解释产品决策及其背后的原理，同时会在 GitHub 的集中讨论帖中同步相关更新，提升产品决策的透明度。

分析报告没有让用户满意

当 Anthropic 试图用一份详尽的技术报告挽回 Claude 的口碑时，它可能低估了开发者积压已久的怒火。

在官方承认由于“推理强度下调”、“缓存漏洞”和“提示语冗长控制”导致 Claude 性能大幅下滑后，社交媒体上的评论呈现出一边倒的抨击。

对于众多支付高额订阅费的专业开发者来说，这份迟到的“真相”不仅没能平息焦虑，反而因补偿方案的敷衍和官宣时机的微妙被质疑在“作秀”。

在 X 上，一位网友反馈称，即使在重置后，流量消耗速度依然惊人：“我用了 5 个小时，x20 的套餐就烧掉了 64% 的流量，而我什么特别的事都没做。情况正在变得越来越糟。”

还有 X 用户愤怒地表示：“这简直是胡说八道！过去两周，我一直在反思是不是自己的提示词或工作流程出了问题，甚至怀疑过自己都没怀疑过 Claude，结果发现是你们的漏洞吞噬了我的历史记录。把重置当作道歉？这才是真正侮辱人的地方。”

该用户还表示：“过去一年我为 Anthropic Max 支付了约 2400 美元，为 OpenAI 支付了 0 美元。过去 48 小时我切换到 OpenAI 的 Codex 感觉真的非常棒，我正严肃考虑彻底更换系统。失去最忠实用户的方式，不是因为模型出 Bug，而是因为糟糕的道歉。”

另一位网友则精准补刀：“你们总是在每周限额到期前两小时宣布‘重置’，这根本不叫重置，这叫敷衍。”

最令社区玩味的是本次公告发布的时间点——恰逢 OpenAI 发布 GPT-5.5 的当天。有部分 X 用户认为，这样的做法是在分散人们对于 GPT 5.5 发布的关注。

有 X 用户质疑道：“几个月来你们一直坚称‘模型没有退化’，现在却在 GPT-5.5 发布的当天突然官宣漏洞分析，这很难不让人怀疑是在转移注意力。更讽刺的是，你们声称‘用 Claude 开发 Claude’，结果长达 15 天的严重漏洞竟然在内部完全没被发现？”

这场风波正在引发连锁反应：核心用户的忠诚度降至冰点。也让一部分人从 Anthropic 转向了 OpenAI。

对于 Anthropic 而言，这次危机揭示了一个残酷的现实：在大模型竞争进入白热化的今天，技术领先只是入场券，透明度与对用户时间的尊重才是留住开发者的护城河。

参考链接：

https://x.com/ClaudeDevs/status/2047371123185287223

https://www.anthropic.com/engineering/april-23-postmortem

本文来源：InfoQ

GPT-5.5 登顶时刻，Anthropic 亲口承认 Claude 变笨了！网友群嘲：太敷衍

AI_light

Anthropic 正面回应模型“变笨”：三处优化导致的

三处优化细节详述

未来如何改进？

分析报告没有让用户满意

Sign up for more like this.

李志飞的“新实验”：当超级个体撞上真实组织

DeepSeek V4 重磅开源！首次打通华为Ascend，也没丢掉英伟达，百万上下文夺回国产模型话语权

智源FlagOS完成DeepSeek-V4-Flash在八款芯片Day0适配，实现三重技术突破