行业动态

陶哲轩：我差点江郎才尽，只因在普林斯顿待了一年

“故事”是科学里永远属于人类的一面

AI_light

24 Mar 2026 • 31 min read

陶哲轩：我差点江郎才尽，只因在普林斯顿待了一年 – 量子位

首页

资讯

智能车

智库

活动

MEET大会

AIGC

扫码关注量子位

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

陶哲轩：我差点江郎才尽，只因在普林斯顿待了一年

Jay

2026-03-23

18:22:44

来源：

量子位

“故事”是科学里永远属于人类的一面

Jay 发自凹非寺

量子位 | 公众号 QbitAI

陶哲轩在普林斯顿高等研究院待了一年，差点让他江郎才尽了。

在与顶级播客主理人Dwarkesh Patel的最新访谈中，这位菲尔兹奖得主用亲身经历，向同行们抛出了一个反直觉的建议：

朋友们，埋头纯搞学术，对数学家来说真不见得是件好事啊！

起初几周确实非常棒。不用上课，不用开委员会，大块时间任由支配，终于可以专心做研究了。

谁曾想，没过几个月——

咦，怎么灵感好像有点枯竭……

百无聊赖之下，强如陶哲轩都开始

沉迷于上网摸鱼

。

这段经历让他感慨万千：

数学家有时恰恰需要生活里的一些琐事，才能迸发出好想法。

这是场很特别的访谈。陶哲轩罕见地

从更个人的视角

，谈了他近段时间对数学和科学研究的思考，许多都是之前未曾分享过的观点：

科学不只是创造新理论并加以验证，还要把它讲成故事给别人听。这是强化学习极难做到的。

AIGC泛滥的当下，如何判断一项科学进展是否富有意义？或许需要天文学家的帮助。

我非常相信缘分，因此会专门空出部分日程，去做些不寻常的事。

十进制本身没什么特别之处。但你无法脱离历史和未来的语境，纯粹孤立地评价某项科学成就。

也许只有当获取一百万个外星文明的科学发展数据，才能据此衡量什么是正确的范式方向。

写博客是种很好的记录所学的方式，不然许多灵感会很快被忘记，非常可惜。

我们正身处一场认知层面的哥白尼革命，人类不再是唯一的智能形态。

以下附上访谈全文。为保证可读性，量子位在不改变原意的基础上，对内容做了部分调整。

对话原文

开普勒就是个LLM

Dwarkesh：

我想请你重新讲一遍开普勒发现行星运动定律的故事。这会是聊AI与数学的一个很好的切入点。

陶哲轩：

我一直对天文学有着业余爱好，也很喜欢早期天文学家探索宇宙本质的那些故事。开普勒是站在哥白尼的肩膀上，而哥白尼又继承了阿里斯塔克斯的工作。

哥白尼最著名的贡献，是提出了

日心说

：不是行星和太阳绕地球转，而是太阳位于太阳系中心，其他行星绕太阳运行。

但哥白尼坚信行星的轨道是完美的圆形。他的理论与希腊人、阿拉伯人和印度人数百年来积累的观测数据大致吻合，但也存在细微偏差。

开普勒在学习这些理论时，注意到哥白尼预测的各行星轨道尺寸之间的比例，似乎存在某种几何意义。

他据此提出了一个极其美妙、充满神学色彩的假说：如果你取地球的轨道，把它包在一个正方体里，那个外接球的半径几乎完美匹配火星的轨道。

当时已知六颗行星，轨道之间有五个间隔，而

柏拉图正多面体

（Platonic Solids）恰好也有五种：正方体、正四面体、正二十面体、正八面体和正十二面体。

于是他提出了一个理论：可以在各行星的天球之间，依次嵌套这五种柏拉图正多面体。

开普勒深信，上帝设计行星的方式，正对应着柏拉图正多面体的数学完美性。他在

《宇宙的神秘》

（Mysterium Cosmographicum）中详细阐述了这一观点。

但他需要数据来验证这个理论。

当时唯一真正高质量的数据集，来自

第谷·布拉赫

（Tycho Brahe）。

这位极其富有、行事古怪的丹麦天文学家，说服丹麦政府出资建造了一座造价极为高昂的天文台——实际上是一整座岛屿。

他在那里用肉眼（望远镜尚未发明）对火星、木星等所有行星进行了长达数十年的系统观测，只要天气晴朗，每晚必记。他的观测精度达到了角分的级别，

比此前任何观测都高出十倍

。

这批数据正是开普勒用来验证理论的材料。

开普勒开始与第谷合作，但第谷对数据极为小气，每次只给他一点点。开普勒最终

干脆“偷走”了全部数据

，还因此与第谷的后人打了场官司。

谁曾想，拿到数据后，却发现他那个美丽的柏拉图立体理论根本行不通。

实测数据与理论预测的偏差达到

5%到10%

左右（对于火星尤为明显）。他尝试了各种修补方案，移动圆的位置，引入偏心点，仍然无法拟合。

如果是其他人，可能会强行修改数据以迎合理论，或者放弃。但开普勒选择了尊重数据。

他在这个问题上坚持了许多年，进行了令人叹为观止的天才级数据分析。

他发现，

只有假设行星轨道实际上是椭圆

，而非圆形，才能完美拟合第谷的数据。

就这样，他推导出了行星运动的前两条定律。

又过了十年，在积累了大量数据并进行了更深入的数学分析后，他终于得出了第三定律：行星完成一次公转所需的时间（周期）的平方，与它到太阳的平均距离的立方成正比。

这就是著名的

开普勒行星运动三定律

。

他自己对此毫无物理解释，这完全是实验驱动（数据驱动）的结果。整整一个世纪后，牛顿才利用万有引力定律和微积分，给出了同时解释这三条定律的理论框架。

Dwarkesh：

牛顿给出了三条行星运动定律必然成立的解释，而开普勒发现这些定律的过程，充满了试错。

纵观开普勒的职业生涯，他不过是在不断地尝试各种随机的关系：先试柏拉图立体，失败了；再试圆形轨道加偏心点，失败了；最后试椭圆，成功了。

LLM完全可以做开普勒做的事。

用二十年时间尝试各种随机关系，其中许多根本没有物理意义，只要背后有一个像布拉赫数据集那样可验证的、高精度的数据库。

陶哲轩：

当我们谈论科学史时，思维一直被视为最高贵的部分。

我们倾向于神话那些

“灵光乍现”的时刻

：开普勒突然看到了椭圆的真理。

但一个科学问题的解决涉及许多步骤：识别问题、找到一个真正有价值的问题来研究、收集数据、制定分析数据的策略、提出假说、验证假说、撰写论文并进行解释。这里有十几个不同的环节。

开普勒经历了无数次循环尝试，其中绝大多数都失败了。我相信有大量想法他甚至从未发表，因为根本无法与数据吻合。

但正如你所说，这必须与同等分量的验证相匹配，否则就只是噪声。

我们赞颂开普勒，但也应该赞颂布拉赫。他那勤勉的数据收集工作，精度比此前任何观测都高出十倍。

那额外的一位有效数字，对开普勒得出正确结论至关重要。如果数据误差更大，椭圆和圆形的区别就会被噪声淹没，开普勒可能永远无法发现真相。

他用欧几里得几何和当时最先进的数学，将模型与数据进行拟合。每个环节都必须到位：数据、理论、假说生成，缺一不可。

我不确定在今天，

假说生成还是不是瓶颈所在

。

过去，科学的两大范式是理论和实验。到了20世纪，数值模拟出现了，可以通过计算机仿真来检验理论。然后，在20世纪末，我们进入了大数据时代。

如今很多新进展实际上是先从分析海量数据集开始的，这与过去科学的运作方式颇为不同。

过去是先做少量观测，或者灵光一现有了某个想法，再去收集数据加以检验；而现在几乎是反过来的：

先有海量数据，再从中挖掘规律。

开普勒也许是最早的数据科学家之一，但即便是他，也没有完全从第谷的数据集出发再去分析。他是先有的预设理论（柏拉图立体），被数据证伪后，才被迫转向纯数据驱动的拟合。

Dwarkesh：

有意思。布拉赫的数据相当于一个海量仿真数据库。如果没有这些数据，开普勒不过是在写关于和声学和柏拉图正多面体的书，根本没有任何东西可以用来验证。

陶哲轩：

数据的重要性毋庸置疑。

传统上，你先提出假说，再用数据检验（假设驱动）。但如今有了机器学习、数据分析和统计学，你可以从数据出发，通过统计推导出此前未曾存在的定律（数据驱动）。

开普勒第三定律有点类似回归分析。只不过布拉赫提供的不是成千上万个数据点，开普勒手里只有六个数据点（当时已知的六颗行星）。每颗行星对应一个轨道周期和一个到太阳的距离。

但他相当幸运，恰好这六个数据点给出了正确的结论。

他做了一件我们今天称之为

幂律回归

的事——把一条曲线拟合到这六个数据点上，得到了立方-平方定律。

后来有一位天文学家叫约翰·波得（Johann Bode），取了同样的数据，受开普勒启发，预测这些距离构成一个

偏移等比数列

。

他也做了曲线拟合，但其中有一个数据点缺失——火星和木星之间有一个巨大的空缺。这个定律预测：

那里应该有一颗失踪的行星。

这听起来像是一个怪人的理论，直到赫歇尔发现天王星，其距离完美符合这个规律。

随后在小行星带发现了谷神星，也同样吻合。人们为此兴奋不已，以为波得发现了一条伟大的自然定律。

但后来海王星被发现了，距离完全对不上。

说到底，这不过是一个数字上的巧合。只有六个数据点，结论本就岌岌可危。

“故事”是科学里永远属于人类的一面

Dwarkesh：

听起来你并不认为科学的瓶颈在于为每个领域找到更多类似“行星运动第三定律”那样的宏大定律。

陶哲轩：

没错。AI已经把思想生成的成本压低到几乎为零，就像互联网曾经把通信成本压低到几乎为零一样。

这是一件了不起的事，

但它本身并不直接创造“丰盛”。

瓶颈已经转移了。我们进入了一个人们可以为某个科学问题瞬间生成数千种理论的时代。

接下来真正的挑战是：

验证、评估与筛选。

这要求我们彻底改变科学的组织结构。

传统上，我们靠的是设门槛。在AI生成内容泛滥之前，虽然也有业余科学家提出各种宇宙理论，但大多数价值极低且数量可控。

因此，我们建立了同行评审和发表体系，用来过滤信息、筛选出高价值的想法加以检验。

但现在，AI可以大规模生成各种可能的解释，其中一些是好的，但大量是糟糕的、甚至是幻觉。

人类评审员已经不堪重负。

许多期刊都反映，AI生成的投稿正在汹涌涌入。

AI让我们能生成各种各样的东西，这固然很好，但这意味着科学的其他环节必须跟上：

验证、确认，判断哪些想法真正推动了领域进展。

这是我们目前不知道如何大规模完成的事。

对于单篇论文，科学家们可以展开辩论，几年内达成共识。但当每天涌现出一千篇这样的论文，这套机制就彻底失效了。

Dwarkesh：

1940年代，贝尔实验室中新技术不断涌现：脉冲编码调制、信号传输、数字化等等。有大量关于工程约束和技术细节的论文。

然后有一篇论文提出了

“比特”

这个概念，其影响波及许多不同领域。你需要一套系统来识别它，说：“好，这个要应用到概率论里，要应用到计算机科学里。”

倘若如今AI领域出现了下一个版本的统一性概念。怎么从数百万篇论文中识别出那篇真正构成进步、却又远不如“比特”概念那么显眼的论文？

陶哲轩：

很大程度上靠时间检验。

许多伟大的想法在最初提出时并没有得到很好的反响

，往往是后来其他科学家意识到可以将其推进、应用到自己的领域，它才被重新发现。

深度学习本身在很长一段时间里只是AI的一个小众分支。完全通过数据训练而非第一性原理推理来获得答案，这个想法曾经极具争议，花了很长时间才开始结出果实。

你提到了比特。历史上其实有过其他计算架构的提案，而不是今天通行的二进制。我记得有三进制、三值逻辑。在另一个平行宇宙里，也许是不同的范式胜出了。

再比如

Transformer

，它是所有现代大语言模型的基础，也是第一个真正足够复杂、能够捕捉语言的深度学习架构。但事情本不必如此。也许某种其他架构率先做到了这一点，一旦被采用，它就成了标准。

判断一个想法是否会结出果实之所以困难，正是因为这取决于未来，取决于文化和社会。

十进制在数学中极其有用，远优于罗马数字，但

十进制本身并没有什么特别之处

。它之所以有用，是因为所有人都在用它。

我们将其标准化，围绕它构建了所有的计算机和数字表示系统，现在已经无法脱身。偶尔有人提倡切换到其他进制，但惯性太大了。

你无法脱离历史和未来的语境，纯粹孤立地评价某项科学成就，给它打一个客观的分数。

对于这类判断，也许永远无法像处理那些更局部的问题一样，用强化学习来完成。

Dwarkesh：

在科学史上，每当一个新理论出现，而我们事后回头看会意识到它是正确的，它往往会带出一些推论：

要么毫无意义，要么是正确的但在当时看起来极不可信。

阿里斯塔克斯在公元前三世纪提出了日心说。

古雅典人反驳道：这不可能，因为如果地球绕太阳转，我们应该能观察到恒星的相对位置随地球公转而变化。唯一不出现视差的解释是——恒星距离远得令人难以置信。

但有时推论是错的，我们需要进阶到更深层的理解。莱布尼茨曾批评牛顿的引力理论，理由是它暗含了超距作用，而他们不知道其中的机制。

牛顿自己也对惯性质量和引力质量居然是同一个量感到困惑。这些问题后来都由爱因斯坦解决了。但那仍然是进步。

所以，对AI同行评审体系来说，问题就变成了：

即便你能证伪一个理论，你怎么判断它相对于之前的理论仍然代表着进步？

陶哲轩：

正确的理论在最初提出时，往往在许多方面比之前的理论更差。

哥白尼的行星理论就不如托勒密的理论精确。地心说那时已经发展了一千年，经过无数次调整和日益复杂的临时修补。

哥白尼的理论虽然简单得多，但精度却远远不足。直到开普勒的出现，日心说才在精度上超过了托勒密。

科学永远是未竟之业。

当你只得到部分解答时，它看起来比那些虽然错误、却已被完善到能回答所有问题的理论更糟糕。

正如你所说，牛顿的理论留下了巨大的谜题：质量等效性和超距作用，这些都要等到几个世纪后，通过一种概念上截然不同的进路才得以解决。

进步往往不是靠增加更多理论，而是靠删除你头脑中某些根深蒂固的假设。地心说之所以能坚持那么久，部分原因在于我们一直觉得物体天然倾向于静止。

这是亚里士多德的物理学，所以“地球在运动”这个想法会让人追问：

那我们为什么没有摔倒？

一旦你有了牛顿运动定律，这一切就说得通了。

意识到地球在运动是一次巨大的飞跃。它不像是在运动。达尔文的进化论也是如此，其核心是物种并非静止不变的，而这并不直观，因为你在有生之年看不到进化的发生。

当然，现在我们实际上可以观测到了，但

它在感知上是永久、静止的

。

我们现在正在经历一场认知上的哥白尼革命

：我们曾经认为人类智能是宇宙的中心，而现在我们看到，存在着各种截然不同的智能形态，各有其不同的优势与局限。

哪些任务需要智能、哪些不需要？必须大幅重新排序。

Dwarkesh：

有一本书叫《发条宇宙》，作者是爱德华·多尔尼克（Edward Dolnick）。他在书中有一个有趣的观察：

《物种起源》在牛顿《原理》之后整整两个世纪才出现。

从概念上看，达尔文的理论似乎更简单。同时代生物学家托马斯·赫胥黎读完《物种起源》后说：“我怎么蠢到没有先想到这个。”

但从没有人这样说过牛顿。

那么问题来了：

为什么《物种起源》花了更长的时间？

一个很大的原因正是你说的。自然选择的证据是累积的、回溯性的。

而牛顿可以直接说：“这是我的方程式，给我月球的轨道周期和距离，如果吻合，我们就取得了进展。”

卢克莱修在公元前一世纪就有了物种适应环境的想法，但直到达尔文之前无人提及，因为卢克莱修没有办法做实验。

这是否意味着，那些数据回路紧密、容易验证的领域，进展会更为显著？

陶哲轩：

科学不只是创造新理论并加以验证，还要把它传达给他人。

达尔文是一位了不起的科学传播者。他用英文写作，用自然语言表达，不用方程式，将大量零散的事实综合在一起。

他当然也有缺失的部分：他不知道遗传的机制，没有DNA。但

他的写作风格，帮了他很大的忙。

牛顿用拉丁文写作，他甚至发明了全新的数学分支（微积分），只是为了解释自己在做什么。他所处的时代，

科学家之间的保密和竞争要激烈得多。

今天学术界仍然竞争激烈，但牛顿那个年代更甚。

他刻意保留了一些最深刻的洞见，不想让竞争对手获得任何优势。从各方面的描述来看，

他也是一个相当难相处的人

。

直到牛顿之后几十年，其他科学家用简洁得多的语言重新解释了他的工作，这些成果才得以广泛传播。

表达的艺术、论证的能力、构建叙事的技巧，也是科学极其重要的组成部分。

数据固然有帮助，但人们需要被说服，否则他们不会推进这个想法，也不会投入时间去学习你的理论并真正探索它。

这也是强化学习极难完成的事。你怎么给“说服力”打分？

科学有其社会属性。尽管我们以其客观性为豪，认为有数据、有实验、有验证，但我们仍然需要讲故事、说服同行。

这是柔软、模糊的部分，是数据与叙事的结合，而且是一种关于“空白”的叙事。

即便是达尔文的理论也有无法解释的部分。但他仍然能够论证：未来人们会发现过渡形态，会找到遗传的机制。

而事实也确实如此。

我不知道如何将这些量化得足够精确，以至于能够开始做强化学习。

也许这将永远是科学中，属于人类的那一面。

论文评估需要天文学家的帮助

Dwarkesh：

在很多领域，演绎推理的潜力可能远比人们意识到的要大得多。只要找到了研究某个问题的正确切入点，你可能会惊讶于自己能从这个世界中学到多少东西。

这是天文学在特定历史时期的特殊产物，还是说，仅凭目前落在地球上的那些数据，我们其实能推断出远比我们已知的多得多的东西？

陶哲轩：

天文学是最早真正拥抱数据分析的科学之一。

它的从业者竭尽全力从手头的信息中榨取每一滴可能的价值，因为数据始终是瓶颈所在，而且至今仍然如此。

天文学家在从零散的数据痕迹中提炼各种结论方面堪称世界级水准，简直像福尔摩斯一样。我听说很多量化对冲基金最喜欢招的人就是天文学博士，这些人同样痴迷于从各种随机数据片段中提取信号。

我们其实大大低估了从各种信号中挖掘额外信息的可能性。

我曾读过一项有趣的研究，

研究者想测量科学家究竟有多少人真正读了自己引用的论文。怎么测量？

他们利用了一个巧妙的指标：很多引用文献里都有小错误，比如某个数字写错了，或者标点符号稍有出入。研究者追踪一个特定的错误从一篇参考文献被“复制粘贴”到下一篇的频率。

如果两篇论文出现了完全相同的非典型错误，就可以推断后来的作者很可能只是在复制粘贴引用，根本没有去核实原文。

从这个指标出发，他们得以推断出人们究竟在多大程度上真正关注了所引用的内容。

这启发了我们：

如何判断一项科学进展是否富有成效、是否有趣？

也许在数据里存在非常有用的指标和痕迹。我们可以分析引用情况，可以看某个概念在会议上被提及的频率，甚至分析论文措辞的微妙变化。

科学社会学（Sociology of Science）这个领域也许还有大量研究工作可以做，也许真的能检测出这些东西。

也许我们真的应该让几位天文学家来攻克这个问题。

数学研究的低垂果实已被摘完

Dwarkesh：

你最近提到，过去几个月里AI程序已经解决了埃尔德什问题集（Erdos Problems Project）中约1100个问题里的50个。

但你也指出，进展似乎出现了停滞，因为

“低垂的果实”已经被摘完了

。这个判断现在是否还成立？

陶哲轩：

看起来确实如此。借助AI解决了50多个问题，这非常了不起，但还有大约600个有待攻克。目前，人们仍在缓慢地啃其中的一两个硬骨头。

纯AI“一击即中”的解法越来越少了。曾经有过那样一个月，AI能够直接给出完整答案，但那个阶段已经过去了。

AI能提出一些细枝末节的观察，或者发现某个问题其实已经在文献中被解决过（只是未被收录），但

至今没有出现任何新的、完全由纯AI驱动的解答。

现在的模式更多是

人机协作

。有人用AI生成一个可能的证明策略，另一个人再用另一个AI工具来批评它、改写它、为它生成数值数据，或者做文献调查。

想象你身处一片黑暗的山脉，到处是峭壁和高墙。有的墙只有一米高，有的六米，有的十五米，还有些高达百米甚至千米。

你试图攀越尽可能多的墙壁，但周围一片漆黑，你不知道哪堵墙高、哪堵墙矮。于是你点上蜡烛，慢慢绘制地图，逐渐摸清哪些是可以攀登的，哪些墙上有可以先抵达的局部落脚点。

AI工具就像是能跳两米高的弹跳机器，跳得比任何人类都高。有时它们跳错了方向，有时直接撞墙，但有时它们确实能够到达那些人类此前无法触及的最矮的墙头。

我们就这样把它们放进这片山脉，让它们四处跳跃。那段令人兴奋的时期，它们找到并翻越了所有低矮的墙（即那50个问题）。等到模型下一次出现重大突破，人们会再次尝试，也许又能多翻越几道墙。

但这是一种不同的数学方式。通常我们会一步一步地

爬山，做标记，识别局部进展

。而这些工具要么成功，要么失败。它们在创造局部进展、识别应当优先攻克的中间阶段方面表现很差。

回到我们之前的讨论，

我们缺乏一套评估“局部进展”的方法

，就像我们评估一个问题被“一击即中”地解决或失败那样简单明确。

Dwarkesh：

悲观的解读是：它们只能翻越一定高度以下的墙，而那个高度还不及人类顶尖专家所能达到的高度。

乐观的解读是：一旦它们达到某个水位线，它们有一种强大的属性，就是能够填满该水位线以下的每一个问题，而这是人类根本无法做到的。

我们没办法复制出一百万个陶哲轩，给每一个分配一百万美元的算力，让它们同时在一百万个不同的问题上做一百年的主观时间研究。

但一旦AI达到陶哲轩的水平（甚至只是中等水平），它们就可以做到这一点。因为即便是同样级别的智能，AI在宽度和并发能力上，也与人类有着本质的差异。

陶哲轩：

我同意。

AI擅长广度，人类擅长深度。两者高度互补。

但我们目前做数学和科学的方式是以深度为核心的，因为人类的专长在深度，人类做不到广度。我们必须重新设计做科学的方式，才能充分发挥我们现在拥有的这种广度能力。

我们应该在构建非常宽泛的问题集上投入更多精力，而不是只盯着一两个极其深刻、极其重要的难题。

当然，那些深度问题仍然应该存在，人类也应该继续攻克它们。但现在我们有了另一种做科学的方式：

先让这些能力适中但覆盖面广的AI进行大范围探索，完成所有容易的观察，再识别出其中几个真正困难的“孤岛”，让人类专家集中攻克。

我非常清晰地看到一个互补科学的未来。最终，你希望同时拥有广度和深度，得到两全其美的结果。但我们需要在“广度”这一侧积累经验，它太新了，我们甚至还没有发展出充分利用它的范式。

Dwarkesh：

说到互补性，程序员们已经注意到，有了这些AI工具之后，他们的生产力大幅提升。

我不知道你作为数学家是否有同感，但软件和研究之间似乎有一个重要的区别：

软件的目的是通过你的工作对世界产生某种影响

，如果它能帮你更好地理解问题或提炼出一个干净的抽象来体现在代码里，这是达成目标的工具。

而在

研究中

，我们之所以在乎解决千禧年大奖难题，是因为在解决它们的过程中，

我们会发现新的数学对象或新的技术

，推进人类对数学的理解。所以证明本身是通往中间工作的工具，

过程往往比结果更重要

。

我不知道你是否认同这个二元对立，以及它是否能解释我们在软件和研究上分别看到的提升程度。

陶哲轩：

在数学中，过程往往比问题本身更重要。

问题某种程度上只是衡量进展的代理指标。

即便在软件领域，我认为也存在不同类型的任务。如果你只是做一个与其他一千个网页功能完全相同的网页，其中可能没有什么需要学习的技能。

但代码写完了还需要维护。在升级和与其他系统兼容方面会出现各种问题。

我听程序员们反映，即便AI能做出一个工具的初始原型，让它与其他所有东西咬合、以你期望的方式与真实世界互动，仍然是一个持续进行的过程。

如果你没有通过亲手写代码积累下来的技能，将来维护的时候可能会捉襟见肘。

数学也是如此。

我们用问题来建立直觉

，训练人们对“什么是真的”、“什么是可以期待的”、“什么是可以证明的”、“什么是困难的”形成良好的判断。如果一上来就直接得到答案，这个过程可能反而会被破坏。

我之前区分过理论和实验。在大多数科学领域，理论和实验平分秋色。数学的独特之处在于它几乎完全是理论性的。

我们非常重视构建连贯、清晰的理论来解释为什么某些事情是真或假。但我们几乎没有做过实验性的研究，比如：如果有两种方法解决同一个问题，哪种更有效？

现在我们可以做这件事了。我认为AI类工具将真正革命化数学的实验侧。在那里，你不那么在乎单个问题和解题过程，而是想大规模地收集关于“什么方法有效、什么方法无效”的数据。

就像一家软件公司要推出一千个软件，你不会想要精心手工打造每一个、从每一个中汲取经验，你只是想找到让你能够规模化的工作流程。

在规模化层面做数学，这件事还处于萌芽阶段。但这

本文来源：量子位

陶哲轩：我差点江郎才尽，只因在普林斯顿待了一年

AI_light

Sign up for more like this.

英伟达早不靠GPU躺赢！黄仁勋终极预判：10亿程序员时代将至，AI智能彻底廉价

硬件成本直降60%！原生分布式VS传统分库分表数据库

现代化零售银行分析：信贷与贷款组合的对话智能｜技术实践