不好!1930年的AI都来抢程序员饭碗了

完全无需互联网数据

不好!1930年的AI都来抢程序员饭碗了 – 量子位

首页

资讯

智能车

智库

活动

MEET大会

AIGC

扫码关注量子位

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

不好!1930年的AI都来抢程序员饭碗了

衡宇

2026-05-03

17:42:55

来源:

量子位

完全无需互联网数据

Jay 发自 凹非寺

量子位 | 公众号 QbitAI

劳动节,马上100岁的vintage大模型也得劳动。

是的,有人给只有1930年知识的大模型,微调成软件工程师了……

过程比想象中轻松,仅用250个训练样本,强悍的老头便解决了自己人生中的第一个编程问题——

给xarray库打了个补丁。

一个连电视机都没见过的AI,现在也开始跟Claude们「学坏」,要跟程序员抢饭碗了。(bushi)

中古硅基软件工程师

先补充下背景,1930是谁?

这是最近爆火的「老头AI」,全名叫

talkie-1930-13b

操盘手是AI研究员Nick Levine、多伦多大学副教授David Duvenaud,以及大家熟悉的那位——真·GPT系列之父

Alec Radford

而他们对老头最有趣的设计,就是其训练数据有条铁律:1931年1月1日之后的任何一个字,

全部不准进!

是的,它不知道电视机,不知道互联网,更不知道二战怎么收场……

老头的世界,

永远停在了1930年12月31日的午夜。

但让全网「瘫软」的点在于,就这么个老古董,当扔给它一道Python编程题时,这个跨越近百年的「过去之灵」,竟然写出了人生第一行Python代码。

离离原上谱。

如今,

老头再次发力。

有人对Alec Radford的这个1930 vintage LLM做了微调,让它去解SWE-bench上的真实软件工程问题。

谁曾想,真让老头干成了。

250个训练样本之后,它落地了第一个fix——

一个针对xarray库的小补丁。

百岁老人,硬核上岗。

对了,团队放出了老头在落地这个xarray库补丁的全过程。

说实话,如果以看前沿LLM的标准,这个demo看着真有点恼火。

一个简单的问题,老头足足花了49轮才搞定,又长又慢。

其中有些轮次实在看不下去了,真的太笨了,着急死了,但你又不好意思对老头发脾气。

但,这在某些时刻,反而让人更兴奋。跟看爽文一样。

我举个最「直接、不绕弯」的例子。(bushi)

老头一开始其实搞砸了。

第12轮

对话的时候,它尝试apply patch失败了。

代码可以报错,但,老兵不死。

老头没有放弃,它仍在继续尝试,直到终于意识到自己错在哪……

然后,在第44轮,

它给修好了!!

我知道,fix本身很简单,别说AI SOTA了,代码水平跟小白比估计都够呛。

但真正重要的,是老头在

整个解题过程中的思考

这个过程展示出的那种推理能力,跟我们在现代模型上看到的如出一辙。

一个1930年的模型,

也会试错,会反思,会自我修正

demo之外,benchmark的表现同样亮眼。

当微调时的训练数据规模扩展到大约75K条trajectory,也就是10亿token的时候,模型在SWE-bench-Verified上达到了

4.5%

的pass@1。

要知道,它原来在HumanEval上才4%的pass@100。这进步幅度相当可观。

虽然绝对值还很低,但对一个1930年知识模型来说,已经很离谱了。

更有意思的是另一个对照实验。

事实上,团队还同时给老头训练了一个兄弟模型,叫

talkie-web

,这个模型是在互联网数据上预训练的。

同样的微调配方,talkie-web在SWE-bench-Verified上的成绩是

5.5%

的。

没错,即便团队偏心,给孪生兄弟加上互联网数据,也就比老头

高了1个百分点

以上结果,欢迎复现。

这不是什么穿越爽文,团队

已经在GitHub上开源了项目

,链接放在文章结尾,感兴趣的朋友可以去跑跑看。

团队自己也很兴奋,在README里喊话:

如果你手头有更多算力,我们很想看到1930模型和互联网模型在后训练持续扩展时的完整scaling曲线对比。

想看想看,这可比单纯秀肌肉的benchmark有意思多了。

什么是智能?

团队并没有剖析背后的原因,但我看了不少网友在帖子下面的评论,觉得这是一个值得讨论的话题。

我们一直以为,AI需要吃掉整个互联网才能变聪明。

但如果一个只读过1930年以前书的模型,经过一点点后训练就能写代码修bug……

那我们对「什么是智能」的理解,是不是也得重新想想?

4.5%的pass@1,放在今天的SOTA面前当然不够看。但它证明的那件事,比任何benchmark分数都重要。

一个1930年代的人,如果拥有几乎相同的教育体系,完全可以理解现代软件工程。

一百年前的数据量,加上正确的后训练方法,就足以产生现代意义上的推理。

智能的瓶颈,或许从来不在于预训练数据的多少。

你不需要一个训练过所有知识的模型,它只需要具备基本的语言理解能力,这就够了。

或许,当我们在Scaling路上一路狂奔的间隙,也可以稍微停一停,抬起头来跟身边人侃侃大山、扯扯淡——

诶,你说……

智能的本质,到底是什么?

GitHub:

https://github.com/RicardoDominguez/talkie-coder

参考链接:

[1]

https://x.com/rdolmedo_/status/2050665193374732430?s=20

[2]

https://github.com/RicardoDominguez/talkie-coder

版权所有,未经授权不得以任何形式转载及使用,违者必究。

GPT之父

talkie-1930-13b

微调

软件工程师

衡宇

消费级显卡可以快速上手跑!面壁智能MiniCPM-o 4.5发技术报告

2026-04-28

大厂AI抢人大战,从实习生开始

2026-04-22

Kimi新论文:把KVCache玩成新商业模式了

2026-04-19

20亿美金苏度科技具身首秀即大招!0真机数据,zero-shot,跑出98%首次抓取成功率

2026-04-20

扫码分享至朋友圈

相关阅读

比LoRA更高效!上交大&哈佛推出新微调框架,瞄准特定任务方向

微调需要的算力更少了

西风

2024-09-16

AI

大模型

微调

软件工程师就业新趋势:10年以上经验面试机会反倒少,VR/AR需求暴增14倍

十三

2020-02-17

Hired

就业

软件工程师

大模型恋爱神器!16种MBTI自由定制,北大ChatLaw团队出品

已开放32个大模型

明敏

2024-01-13

北大

微调

8块钱跑通一次强化学习全流程,潞晨云重塑微调赛道:1名算法工程师=1支Infra团队

国内首个!兼容Tinker范式且全面开放

邓思邈

2026-01-07

大模型微调

强化学习

微调

潞晨云

潞晨科技

0代码微调大模型火了,只需5步,成本低至150块

背后公司已融110万美元

明敏

2023-07-08

API平台

微调

生成式AI

极少数据就能微调大模型,一文详解LoRA等方法的运作原理

要搞懂这2篇顶会论文

萧箫

2023-07-18

LoRA

大模型

微调

热门文章

Cursor 9秒删库搞崩公司,然后…写了份检讨

2026-04-28

腾讯开源手机端离线翻译模型,仅0.4G,支持33种语言

2026-04-29

全球瞩目!斑陌易行闪耀硅谷,T6 无人车开启商用新纪元

2026-04-29

火速吃瓜:Kimi K2.6设计能力超越Claude Design

2026-04-29

不卷参数卷架构,这个开源模型把图像理解和生成统一了

2026-04-29

关于量子位

加入我们

寻求报道

商务合作

扫码关注量子位

追踪人工智能新趋势,报道科技行业新突破

量子位 QbitAI 版权所有©北京极客伙伴科技有限公司

京ICP备17005886号-1


本文来源:量子位