Fable 5回归24小时差评如潮!跑分大降,拒答问题,还偷偷骂用户

单词数r也是风险问题?!

Fable 5回归24小时差评如潮!跑分大降,拒答问题,还偷偷骂用户 – 量子位

首页

资讯

智能车

智库

活动

MEET大会

AIGC

扫码关注量子位

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

Fable 5回归24小时差评如潮!跑分大降,拒答问题,还偷偷骂用户

克雷西

2026-07-03

20:17:37

来源:

量子位

单词数r也是风险问题?!

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

Claude Fable 5才刚刚回归,就差点被网友的口水淹死。

A社官方账号发推庆祝回归,开发者Thariq也跟着喊「excited for guys to get access back」。

结果香槟刚打开,风向就全变了。

网友们开始控诉,“回归版”Fable 5的账单暗藏猫腻、跑分也缩水,连「raspberry里有几个r」这种问题都被拦截了。

一场几乎是自发组织的吐槽大会,在Fable5回归没多久就宣告开场,热闹程度不亚于当初等它回来的那份期待。

“我太强了,你不配用”

开发者Om Patel给Fable 5出了一道竞赛编程难题,一道要求处理图连通性和区间覆盖的硬核算法题。

结果,界面意外泄露了一段模型没打磨过的思考过程,他把这段过程截图发了出来。

那段文字不像正常的句子,倒像是简写感叹词堆出来的碎碎念。截图里密密麻麻两大屏,全是active、committed、window这类变量名夹杂着推理片段,中间偶尔炸出几个大写单词。

例如,「DATA DATA DATA. GO.」出现在它埋头处理数据的时候,「GRRR」出现在某个约束条件怎么都对不上的时候,「GAAAH」出现在它差点想放弃的瞬间,「PHEW」出现在它终于绕过一个死胡同的时候。

Om Patel的解读是,这些片段其实是模型自己压出来的一套私有语言,一套只有它自己看得懂的简写体系,写起来比完整句子更省token,也更快。

他表示,用户平时看到的那种流畅、干净、逻辑清楚的回答,只是模型对外呈现的抛光成品,脱了这层抛光,模型自己好像也在连滚带爬地骂骂咧咧。

更好笑的是,系统后台同样没憋住一句真心话。

开发者dax翻自己的调用日志时发现,一部分被降级的请求背后,挂着一个内部标签,写着「TOO_DUMB_TO_NEED_FABLE」。

他把这条发出来的时候只附了一句疑惑,问这条标签背后到底发生了什么。

翻译过来,这个标签的字面意思是这条请求太简单,用不上Fable 5,于是系统顺手把它转给了Opus 4.8处理,而且是在用户完全不知情的情况下自动完成的。

模型在后台连滚带爬地骂骂咧咧,系统同时给用户的问题扣上一顶你不配用的帽子。

raspberry有几个r?这可不兴说!

如果说内心戏那两条还带点猎奇和看热闹的意味,接下来这两个例子,笑点就直白多了。

生物医药工程师Derya Unutmaz试着让Fable 5解释一下人类这个词,只打了两个字,「Explain human」。

模型思考了几秒,界面直接弹出一张卡片,标题是「Switched to Opus 4.8」,下面一行小字解释说Fable 5的安全机制判定这条消息里有需要拦截的内容,并且说明这种情况有时候也会发生在正常安全的对话里。

Derya Unutmaz的吐槽很直接,一家名字带着关乎人类意思的公司,做出来的模型连解释人类这个词都要绕道走,这操作本身就是对这家公司最好的讽刺。

更滑稽的是,半导体分析师Dylan Patel问了一个更简单的问题,raspberry这个单词里有几个字母r。

这条请求同样被拦截,界面弹出的卡片标题是「Chat paused」,说明文字写着Fable 5的安全机制会拦截大多数网络安全或生物学话题,有时候连安全正常的内容也会被误伤。

Dylan Patel配的文案带着调侃,「I love Fable 5 and Anthropic」。

评论区里,另一位用户Zander贴出了自己的对话截图打脸,同样的问题,他那边顺利跑通,模型老老实实数出了三个r,还细心标注了每个r出现的位置,一个在开头,两个在中间。

同一个问题,有的人被拦,有的人没事,模型能不能回答,就跟抽奖差不多。

截然相反的结果放在一起,说明Fable 5安全限制的判定标准,可能连A÷自己都说不清楚卡在哪里。

模型货不对板,网友:被A社诈骗了

真正把吐槽大会推向高潮的,是一张账单截图。

编程测评机构BridgeMind发了一条推文,说自己刚为一次编程session付了321美元,而Fable 5在这次session里拒绝干活。

截图里贴出了完整的用量统计,总费用321.53美元,总耗时按API计算超过5个小时,实际挂钟时间2小时38分钟,这次session一共改动了11976行新增代码和2119行删除代码。

账单里按模型拆分了用量,Fable 5那部分只花了78.38美元,Opus 4.8那部分花了242.24美元。

换算成占比,这次session里四分之三的工作量,被转给了BridgeMind压根儿没有主动选择的Opus 4.8。

Opus 4.8本身单价比Fable 5更便宜,这次降级严格来说没让BridgeMind多付一分钱的单价。

但让人不满的不是价格,是货不对板。

BridgeMind选的是Fable 5,付的是Fable 5那个价位的期待,最后拿到手的东西,四分之三出自Opus 4.8的手笔。

他在推文里把这句话说得很重,模型没干活,活是替补干的,只是账单上写的还是主力的名字。

用户Lex转发了这条账单,飙起了F word,直言这就是纯纯诈骗。

花Fable 5的钱,办Opus 4.8的事,这中间的落差,才是这条吐槽真正戳中的地方。

现在的Fable,不是以前的Fable了

下来这组数据,把这些零散的吐槽钉成了一个能复现的结论。

评测机构BridgeMind用自家的BridgeBench跑分体系,拿同一套题目分别测了Fable 5回归前后两个版本。

结果,三项核心指标全线下跌。

Debugging从86.2跌到25.9,跌幅超过六成,排名也从第9名跌到第41名;

Refactoring从73.6跌到38.4,接近腰斩,排名跌到倒数区;

Hallucination从75.9跌到61.7,跌幅相对最小,是三项里唯一没有腰斩的。

对此,BridgeMind表示,这不是之前的那个Fable,A÷欠所有人一个解释。

跌得最狠的debugging这一项,BridgeMind给出了更细的拆解。

12个debugging任务里,只有3个是在没有触发降级的情况下完整跑完的,剩下9个全部在中途被系统判定不安全,转给了Opus 4.8处理。

这些被转走的任务,在打分体系里全部记为零分。

所以,跑分暴跌的真相不是模型突然变笨了,是一大半任务压根没跑到终点就被拦了下来。

另一位AI从业者Hesamation把这组前后对比做成了一张柱状图广泛转发,图注写得很直接,Fable 5不是被削弱了,是被宰了,问题根本不在模型本身,在Anthropic设下的这套硬性护栏。

有人甚至觉得,所谓的Fable或者Mythos,实际上压根儿就不存在。

BridgeMind的测评给前面几段的吐槽提供了数据背书,账单里那75%的转移、raspberry问题的随机拦截、内心独白里的连滚带爬,实际上说的都是同一件事,那就是Fable 5的护栏收得太紧了。

总之,模型能力的问题和产品体验的问题,这几天被搅成了一锅粥。

Fable 5这一版到底强不强,讨论到最后好像已经不是重点,大家真正在乎的,是自己选择的模型,有没有老老实实地在给自己干活。

参考链接:

[1]https://x.com/om_patel5/status/2072559663636205824

[2]https://x.com/kimmonismus/status/2072721044159287361

[3]https://x.com/dylan522p/status/2072741962214707311

[4]https://x.com/xw33bttv/status/2072464948551373049

[5]https://x.com/DeryaTR_/status/2072751750453301741

[6]https://x.com/bridgemindai/status/2072662214704533888

[7]https://x.com/thdxr/status/2072193338271301844

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Claude

Fable 5

克雷西

A社你解释下,啥叫Sonnet 5比Fable 5还贵?

2026-07-01

AI转型最大的门槛,不是技术,是人

2026-06-17

实测小米最快1T大模型:吞吐量每秒1000+ Tokens,Vibe Coding七秒交付

2026-06-11

教你用AI一节课收17万,华尔街精英排着队付费

2026-06-07

扫码分享至朋友圈

相关阅读

一句话解锁100k+上下文大模型真实力,27分涨到98,GPT-4、Claude2.1适用

AI真的能从几十万字中准确找到关键事实吗?

梦晨

2023-12-11

Claude

GPT-4

提示工程

Claude网页版接入MCP!10款应用一键调用,开发者30分钟可创建新集成

Max、Team和Enterprise用户可用

克雷西

2025-05-02

Claude

MCP

谷歌急投20亿押注ChatGPT「最强竞品」,GPT-3核心成员出走打造,多方出击抗衡微软

公司聊天机器人已在内测中

衡宇

2023-02-04

ChatGPT

Claude

谷歌

Claude3.5突然发布!GPT-4o不香了

视觉能力大增强,还带来新的交互方式

白交

2024-06-21

Anthropic

Claude

大模型

新版Claude曝光:“极限推理”成最大亮点

预计未来几周发布

十三

2025-05-15

Anthropic

Claude

DeepSeek缝合Claude,比单用R1/o1效果都好!GitHub揽星3k

DeepClaude开源项目走红

西风

2025-02-14

Claude

Deepseek

热门文章

GPT-5.6突然发布!Fable5痛失最强基模王座

2026-06-27

BrowserBC:克隆人类点击,让一次网页操作转化为所有Agent的能力

2026-06-27

微软年度AI职场报告:员工已经准备好了,公司还没有

2026-06-27

CVPR 2026最热方向,被一家杭州团队率先跑进了端侧!

2026-06-27

第一批一人公司,现在怎么样了?

2026-06-27

关于量子位

加入我们

寻求报道

商务合作

扫码关注量子位

追踪人工智能新趋势,报道科技行业新突破

量子位 QbitAI 版权所有©北京极客伙伴科技有限公司

京ICP备17005886号-1


本文来源:量子位