Dwarkesh Podcast：陶哲轩谈AI时代的科学发现与数学研究

来源： Substack | 嘉宾：陶哲轩（Terence Tao） | 主持人：Dwarkesh Patel 播客： Dwarkesh Podcast 分类： 访谈 原文发表： Mar 20, 2026 纪要生成： 2026-04-20

全集重点

开普勒研究类比大模型范式：AI可批量试错挖掘经验规律，但验证与价值判断仍是核心瓶颈。
假设生成成本趋近于零：现有科研筛选机制已无法匹配AI产出规模，亟需新的评估范式。
人机能力高度互补：AI擅广度批量探索，人类擅深度逻辑推导，混合模式将长期主导科研。
数学研究范式即将变革：AI将推动数学从纯理论转向实验方向，催生半正式科研策略表述语言。

嘉宾/话题简介

陶哲轩（Terence Tao）是当今世界最具影响力的数学家之一，菲尔兹奖得主，在数论、组合数学、调和分析等多个领域有突破性贡献。本集播客中，他从开普勒发现行星运动定律的历史出发，探讨AI对科学研究尤其是数学研究的影响，涉及AI成果筛选、人机协作模式、未来科研范式变革等核心议题，为AI时代的科研从业者提供了方向性参考。

分节详述

00:00:00 开普勒是高温大模型

本节重点

开普勒通过20年试错结合第谷的高精度观测数据，发现行星运动三大定律，过程类似大模型批量生成假设再验证。
科学研究包含问题识别、数据收集、假设生成、验证等多环节，假设生成已不再是当前科研的瓶颈。
现代科研已从“先提出假设再验证”转向“先收集海量数据再挖掘规律”，数据精度与规模成为核心前提。

详细精要

开普勒的发现过程类比大模型运行逻辑：高温生成大量假设，结合高精度验证数据筛选有效结论。
开普勒最初提出行星轨道嵌套柏拉图正多面体的理论，拿到第谷·布拉赫的高精度观测数据后，发现理论与数据存在10%的偏差，经过20年反复试错才得出轨道为椭圆、等面积定律、周期-距离平方立方定律三大规律。
开普勒仅靠6个行星的观测数据做回归得出第三定律，属于小样本下的幸运结论；后续天文学家波德用同样方法提出的行星距离几何级数规律，因海王星的发现被证实是数值巧合。
科研环节价值分配的变化：过去假设生成是最受关注的核心环节，当前该环节的瓶颈已被打破。
传统科研的步骤包括问题识别、优质问题筛选、数据收集、分析策略制定、假设生成、验证、成果撰写传播等十余项，过去“尤里卡”式的假设生成时刻被视为科研的最高价值。
AI将假设生成的成本降至接近零，当前科研的核心瓶颈已转向验证、评估环节，需要建立新的机制从海量AI生成的理论中筛选高价值内容。
现代科研范式的转向：从“假设驱动”转向“数据驱动”，数据的精度与规模成为核心生产要素。
经典科研范式是先提出假设，再收集数据验证；当前大数据时代的科研逻辑是先收集海量数据，再从中挖掘规律推导假设，天文学家是这类数据驱动研究的典型代表。
第谷的观测数据精度比之前高一个数量级，是开普勒能得出正确结论的核心前提，没有高精度验证数据，所有假设都无法转化为有效科学成果。

💬 精华片段（中文）

"We celebrate Kepler, but we should also celebrate Brahe for his assiduous data collection, which was ten times more precise than any previous observation. That extra decimal point of accuracy was essential for Kepler to get his results."

00:11:44 如何从海量AI废料中识别新的统一概念？

本节重点

AI生成内容的泛滥已超出传统同行评审体系的承载能力，无法仅靠人工筛选高价值科研成果。
重大科学理念的价值往往需要时间检验，且受社会文化、技术路径依赖的影响，无法通过单一指标客观评估。
科学进步往往需要放弃固有认知假设，当前人类正经历认知层面的哥白尼革命，重新定位人类智能的价值。

详细精要

AI生成内容对传统科研筛选机制的冲击：AI可批量生成科研成果，传统同行评审已无法覆盖海量提交内容。
当前大量期刊收到的AI生成投稿已出现泛滥趋势，人工审稿人已不堪重负，现有机制无法快速从海量内容中筛选出高价值的突破性成果。
历史上重大科学理念如深度学习、二进制比特概念，最初都属于小众方向，经过多年应用验证才得到广泛认可，无法通过即时评审判断其价值。
科学成果价值判断的非客观性：成果的价值依赖后续发展与社会选择，存在明显的路径依赖效应。
与十进制、Transformer架构类似，很多被广泛采用的科学范式并非唯一最优解，而是因为早期被采纳形成了生态惯性，后续很难被替代。
正确的理论最初往往表现更差：哥白尼的日心说最初预测精度远低于发展了千年的托勒密地心说，直到开普勒修正轨道为椭圆后才实现精度反超。
认知假设的突破是科学革命的核心：科学进步往往需要放弃已根深蒂固的固有认知。
地心说长期占据主导的核心原因是亚里士多德“物体天然倾向静止”的认知假设，直到牛顿提出运动三大定律，人类才接受地球处于运动状态的结论。
当前人类正经历认知层面的哥白尼革命：过去认为人类智能是宇宙的核心，现在需要重新认识不同类型智能的优劣势，重构对任务难度的判断标准。
科学传播的重要性：理念的传播说服能力是科研成果能被广泛应用的核心要素之一。
达尔文的进化论概念简单，且早在古罗马时期就有类似提出，但达尔文通过通俗的自然语言写作、整合大量零散证据，才让该理论被广泛接受。
牛顿的《自然哲学的数学原理》用拉丁语写作，且使用了自创的新数学工具，直到几十年后被其他科学家简化解读才得到普及。

💬 精华片段（中文）

"Right now we’re going through a cognitive version of the Copernican revolution, where we used to think that human intelligence is the center of the universe, and now we’re seeing that there are very different types of intelligence out there with very different strengths and weaknesses. Our assessment of which tasks require intelligence, which ones don’t, has to be reordered quite a bit."

00:26:10 演绎过剩

本节重点

天文学领域长期面临数据稀缺问题，天文学家已经形成从有限数据中榨取全部信息的成熟方法论，可迁移到其他科研领域。
现有科研数据中存在大量未被挖掘的隐藏信息，可通过巧妙的指标设计提取额外结论。

详细精要

天文学领域的信息挖掘能力：因数据稀缺，天文学家擅长从有限数据中提取最大化信息，该能力可迁移到其他领域。
天文观测数据获取难度极高，天文学家是从有限信号中提取结论的顶级专家，量化对冲基金普遍倾向招聘天文学博士就是看重该能力。
陶哲轩与3Blue1Brown合作的宇宙距离阶梯系列内容，展示了通过现有观测数据推导天体距离的多层演绎逻辑，证明现有数据的可挖掘空间远大于普遍认知。
科研数据的隐藏价值：可通过设计巧妙的间接指标，从现有数据中提取原本无法直接测量的结论。
有研究通过统计参考文献的抄写错误率，推断科研人员是否真正阅读了自己引用的论文，无需通过调研就得到了科研人员对引文的关注度数据。
当前可通过分析引用模式、会议提及频率等数据，判断科研成果的长期价值，相关的科学社会学研究仍有大量待挖掘空间。

💬 精华片段（中文）

"Astronomers are world-class in extracting all kinds of conclusions from little traces of data, almost like Sherlock."

00:30:31 已报道AI发现的选择偏差

本节重点

AI辅助解决50余个埃尔德什问题后已进入瓶颈期，纯AI自主解决问题的成功率仅为1%~2%，公开报道多为筛选后的成功案例，存在明显选择偏差。
AI擅长短处探索，人类擅长深度推导，二者能力互补，需要重构科研范式发挥AI的广度优势。
当前AI只能应用已知技术解决问题，尚未具备发明新技术填补论证漏洞的能力。

详细精要

AI解决数学问题的进展现状：已解决的埃尔德什问题多为低悬果实，当前进入瓶颈期，纯AI自主解决的成功率极低。
截至2026年3月，AI已辅助解决50余个埃尔德什问题，剩余约600个问题的推进速度大幅放缓，已没有纯AI一次性解决的案例出现。
系统性研究显示AI对任意埃尔德什问题的解决成功率仅为1%~2%，公开传播的成功案例是大规模试错后的幸存者，存在严重的选择偏差。
AI与人类科研能力的互补性：AI擅长广度批量探索，人类擅长深度逻辑推导，二者适合不同的科研场景。
AI可批量尝试所有已知技术在新问题上的应用，错误率与人类相当，但无法在现有技术都失效的情况下发明新的技术填补论证漏洞。
已被AI解决的埃尔德什问题几乎都是缺乏相关研究、仅需组合两个现有冷门技术就能解决的问题，不需要发明新的方法论。
未来科研范式的变革方向：需要重构科研体系发挥AI的广度优势，形成人机协作的新科研模式。
传统科研聚焦少数深度核心问题，未来可先用AI对大规模问题做批量探索，识别出有难度的核心岛屿，再由人类专家重点攻克，实现广度与深度的结合。
数学研究长期以理论为主，AI将推动数学的实验方向发展，可通过大规模测试不同解法的效果，沉淀规模化解决数学问题的工作流。

💬 精华片段（中文）

"If you only focus on the success stories, the ones that get broadcast on social media, it looks amazing. All these problems that haven’t been solved for decades, now they’re falling. But whenever we do a systematic study, on any given problem an AI tool has a success rate of maybe 1% or 2%."

00:46:43 AI让论文更丰富更宽泛，但没有更有深度

本节重点

陶哲轩2023年预测2026年AI可成为值得信任的数学合著者，该预测已基本实现。
AI目前主要提升辅助性科研任务的效率，让论文包含更多图表、代码、文献调研内容，但尚未能提升核心问题解决的效率。
现有AI缺乏累积进步能力，无法基于部分进展持续迭代思路，本质是“人工小聪明”而非真正的智能。

详细精要

AI对陶哲轩科研工作的实际影响：主要提升辅助任务效率，丰富论文内容，但未改变核心研究流程。
AI让生成图表、文献调研、格式调整等辅助任务的效率提升5倍，现在的论文可以包含更多过去不会加入的辅助内容，变得更丰富宽泛，但核心的数学难题推导仍需要纸笔完成。
如果按照2020年的论文标准撰写相同质量的内容，AI带来的时间节省并不明显，效率提升主要体现在额外补充的辅助内容上。
“人工小聪明”与“人工智能”的核心区别：真正的智能具备基于部分进展持续迭代、累积进步的能力，而当前AI不具备该能力。
人类合作研究时可基于部分可行的思路持续迭代，逐步排除不可行的路径，最终找到解决方案，该过程是累积性的。
当前AI解决问题是单次试错的蛮力模式，无法基于部分进展停留、调整策略，新的对话会话会完全忘记之前的尝试，没有累积的技能提升。

💬 精华片段（中文）

"They’ve really sped up lots of secondary tasks. They haven’t yet sped up the core thing that I do, but it’s allowed me to add more things to my papers. By the same token, if I were to write a paper I wrote in 2020 again—and not add all these extra features, but just have something of the same level of functionality—it actually hasn’t saved that much time, to be honest. It’s made the papers richer and broader, but not necessarily deeper."

00:53:00 如果AI解决了一个问题，人类能从中获得理解吗？

本节重点

部分数学问题可通过蛮力枚举解决，无法提供概念层面的洞察，例如四色定理，但黎曼假设这类核心问题大概率需要新的数学理论才能解决。
Lean等形式化证明工具可将证明拆分为原子化的引理，便于人类识别核心创新步骤，不用担心AI生成的证明无法被理解。
AI生成的证明可通过后续的人工或AI重构、提炼，转化为可被人类理解的内容，相关的证明后处理领域正在快速发展。

详细精要

AI解决核心数学问题的两种可能路径：蛮力枚举或发现新的理论框架，后者能为人类提供新的洞察。
四色定理是蛮力枚举解决问题的典型，至今没有优雅的概念性证明；若黎曼假设被发现为假，仅需要找到一个不在临界线上的零点即可通过蛮力计算验证，会非常令人失望。
学界普遍认为黎曼假设为真，其证明需要建立新的数学连接、创造新的数学领域，不会仅靠蛮力枚举解决，该过程必然会产生可被人类理解的新理论。
形式化证明工具的可解释性优势：Lean等工具可将证明拆分为原子化引理，便于人类识别核心创新。
形式化证明中的每一步都清晰可查，人类可通过判断哪些引理是已知的、哪些是全新的，快速定位证明中的核心创新步骤，比传统论文更容易识别核心贡献。
已有成熟的工作流可将AI生成的冗长Lean证明总结为自然语言，或者重构为更简洁优雅的版本，证明的后处理领域正在快速发展，不存在无法理解的证明。

💬 精华片段（中文）

"Some people are concerned about what happens if the Riemann hypothesis is proven with a completely incomprehensible proof. I think once you have the artifact of a proof, we can do a lot of analysis on it."

00:59:20 我们需要一种用于科学家实际交流的半形式化语言

本节重点

当前只有数学证明有完整的形式化语言（ZFC公理体系、一阶逻辑），但科研策略、猜想可信度评估等环节仍缺乏可被自动化的半形式化框架。
数论领域基于统计数据形成的素数随机模型是半形式化科研框架的典型案例，该模型虽不严谨但预测准确率极高，是学界共识的核心基础。
可通过模拟AI解决简单问题的过程，研究科研策略的形式化方法，积累相关数据。

详细精要

科研半形式化语言的需求背景：当前只有证明环节可被自动化，假设生成、可信度评估等环节仍依赖人工与时间检验。
数学的ZFC公理体系、一阶逻辑、证明规则在20世纪初才完成标准化，支撑了Lean等形式化证明工具的发展，大幅提升了证明环节的自动化效率。
科研中的猜想可信度评估、策略选择等环节目前仅能依靠专家判断与时间检验，缺乏可被AI使用的半形式化框架，是AI辅助科研的核心瓶颈之一。
素数随机模型是半形式化科研框架的典型案例：该模型虽不严谨，但已成为数论领域的核心共识基础。
高斯基于前10万个素数的统计数据提出素数定理，开创了基于统计规律的分析数论领域，后续形成的素数随机模型虽不严谨，但对素数行为的预测准确率极高，支撑了孪生素数猜想、黎曼假设的可信度判断，也成为素数密码学的安全基础。
若黎曼假设被证伪，将直接动摇素数随机模型的核心共识，可能导致素数密码学被全面放弃，可见半形式化共识对科研的影响远大于严谨证明。
半形式化科研语言的研究路径：可通过模拟小规模AI科研过程，积累科研策略演化的数据，逐步抽象出通用框架。
由于只有地球一个科研演化样本，无法直接提取通用的科研评估规则，可通过创建大量迷你模拟环境，让AI解决简单数学问题，观察其策略演化过程，积累相关数据。
当前已有研究探索最小神经网络实现10位乘法的路径，这类小规模实验可帮助理解科研策略的形成逻辑，为半形式化语言的设计提供支撑。

💬 精华片段（中文）

"If there’s some framework that mimics how scientists talk to each other in a semi-formal way, using data and argument, but also constructing narratives... There’s some subjective aspect of science that we don’t know how to capture in a way that we can insert AI into it in any useful way. This is a future problem."

01:09:48 陶哲轩如何安排自己的时间

本节重点

陶哲轩将自己定位为“狐狸型”学者，擅长广泛了解多个领域知识，与“刺猬型”的深度专家合作开展研究。
写作博客是陶哲轩巩固学习成果的核心方法，可避免理解过的知识被遗忘。
陶哲轩认为非计划的随机互动、适当的分心是产生科研灵感的核心来源，反对将日程完全优化排满。

详细精要

陶哲轩的学习方法：受好奇心驱动，通过合作、写作博客巩固知识。
陶哲轩有强迫症式的好奇心，遇到自己不理解的技术方法会主动学习，直到掌握其核心逻辑；通过与其他领域的数学家合作，快速学习新领域的核心知识。
陶哲轩开设博客记录自己学到的新方法，避免之前理解的知识被遗忘，博客写作属于创造性的放松活动，完成一篇博客的时间从半小时到数小时不等。
日程安排的核心原则：保留足够的非计划时间，重视随机互动带来的意外价值。
陶哲轩会优化部分日程的效率，但刻意保留一部分时间做非计划的事情，很多意外的合作机会、新的研究思路都来自不在计划内的互动。
完全优化的日程会损失走廊聊天、咖啡间偶遇、图书馆随机翻阅文献这类意外获得灵感的机会，COVID期间的远程会议虽然提升了沟通效率，但损失了大量这类随机互动的价值。

💬 精华片段（中文）

"You actually do need a certain level of distraction in your life. It adds enough randomness and high temperature. I don’t know the optimal way to schedule my life. It just seems to work."

01:17:05 人机混合将在很长时间内主导数学研究

本节重点

AI将在10年内完成当前数学学生、论文中的大部分常规工作，但人类会转向更高阶的问题，不会被完全替代。
人机混合模式将在很长时间内主导数学研究，当前AI仍缺乏核心的创新能力，只能作为辅助工具存在。
年轻数学研究者需要保持适应性思维，既要掌握传统数学知识，也要拥抱AI带来的新研究机会，非传统路径的贡献将越来越多。

详细精要

AI对数学职业的影响：替代常规工作，推动研究转向更高阶的问题，不会导致数学领域消亡。
19世纪数学家的主要工作是求解微分方程、制作对数表，这些工作现在都被Mathematica、Wolfram Alpha、AI替代，但数学研究转向了更复杂的问题，领域并未消亡；类似的，AI替代当前的常规数学工作后，人类会转向新的研究方向。
陶哲轩预测10年内AI将完成当前数学学生做的大部分常规工作、以及当前论文中的大部分常规内容，但核心的创新工作仍需要人类完成。
人机混合将长期主导数学研究：当前AI仍缺乏核心创新能力，无法完全替代人类数学家。
当前AI在部分领域已达到超人类水平（如数值计算），但仍缺乏发明新理论、基于部分进展迭代思路的能力，需要与人类协作才能发挥最大价值。
未来几十年内，重大数学突破大概率是人机协作的成果，纯AI自主解决千禧年大奖难题的情况不会很快出现。
给年轻数学研究者的建议：保持适应性，拥抱变化，同时重视基础能力的学习。
传统上需要拿到数学博士才能参与前沿研究，现在高中生也可借助AI、Lean等工具做出真实贡献，非传统的研究机会将越来越多。
仍需要重视传统数学教育，掌握基础的数学知识，同时保持开放心态，接受新的研究范式，适应快速变化的科研环境。

💬 精华片段（中文）

"I guess I do believe that hybrid human plus AIs will dominate mathematics for a lot longer. It will depend. It will require some additional breakthroughs beyond what we already have, so it’s going to be stochastic. I think AIs currently are very good at certain things, but really terrible at others. While you can add more and more frameworks on top to reduce the error rates and make them work with each other a bit more, it feels like we don’t have all the ingredients to really have a truly satisfactory replacement for all intellectual tasks."

专业术语注释

术语	解释
行星运动三大定律（Kepler's Laws of Planetary Motion）	开普勒提出的描述行星绕太阳运动的规律，包括轨道为椭圆、等面积定律、周期与距离的平方立方定律
柏拉图正多面体（Platonic Solids）	仅有的五种正多面体，开普勒曾试图用其解释行星轨道的大小比例
日心说（Heliocentric Model）	认为太阳是太阳系中心，行星绕太阳运动的天文模型，由哥白尼正式提出
地心说（Geocentric Model）	认为地球是宇宙中心，其他天体绕地球运动的天文模型，由托勒密完善，统治西方科学界千年
平方立方定律（Square-cube Law）	本集中指开普勒第三定律，行星公转周期的平方与轨道半长轴的立方成正比
反平方定律（Inverse-square Law）	牛顿万有引力定律的核心，两个物体之间的引力与距离的平方成反比
埃尔德什问题（Erdős Problems）	数学家埃尔德什提出的数百个未解决的数学问题，多为组合数学、数论领域的经典问题
Lean	一种交互式定理证明器，可将数学证明形式化，验证证明的正确性，当前被广泛用于AI辅助数学研究
黎曼假设（Riemann Hypothesis）	千禧年大奖难题之一，猜想黎曼ζ函数的所有非平凡零点都位于临界线上，是数论领域最重要的未解决问题
四色定理（Four Color Theorem）	任何一张地图只用四种颜色就能使具有共同边界的国家着上不同的颜色，是第一个通过计算机蛮力枚举证明的重要数学定理
ZFC公理体系（Zermelo-Fraenkel Set Theory with Axiom of Choice）	目前数学界通用的集合论公理体系，是绝大多数数学分支的逻辑基础
素数定理（Prime Number Theorem）	描述素数分布规律的定理，指出不大于X的素数的个数约为X/ln(X)
孪生素数猜想（Twin Prime Conjecture）	猜想存在无穷多对相差为2的素数，是数论领域的经典未解决问题
千禧年大奖难题（Millennium Prize Problems）	2000年克莱数学研究所提出的七个最重要的未解决数学问题，每个问题的解决者可获得100万美元奖金
Transformer	2017年提出的深度学习架构，是当前所有大语言模型的核心基础
贝叶斯概率（Bayesian Probability）	概率的一种解释框架，将概率定义为个人对某一命题为真的信任程度，可根据新证据不断更新

延伸思考

如何构建可扩展的科研成果验证体系，匹配AI批量生成假设的能力，是未来科研制度改革的核心方向，可探索引入自动化验证、信誉积分等机制提升筛选效率。
半形式化科研语言的研发是释放AI科研潜力的核心前提，需要跨数学、计算机、科学哲学等多个领域的协作，定义可被机器理解的科研策略、可信度评估规则。
人机协作的数学研究范式仍处于早期探索阶段，如何划分人类与AI的分工边界、设计高效的协作工作流，是未来数学领域的重要研究课题。
科研中的随机互动、意外发现的价值被严重低估，在AI工具大幅提升定向搜索效率的同时，需要设计新的机制保留科研中的随机性，避免过度优化导致的范式固化。

原文发表：Mar 20, 2026 · 纪要生成：2026-04-20