持续自我改进的AI——斯坦福大学Zitong Yang博士答辩

来源： YouTube | Zitong Yang（斯坦福大学博士） | 2026-03-03 分类： AI 研究 原文发表： Mar 03, 2026 纪要生成： 2026-03-05

全集重点

持续自改进AI定义：明确参数化、预训练两大前提，划定自改进AI三类核心属性，锚定研究边界。
知识持续注入方案：提出实体图合成数据技术，解决小众领域知识注入的遗忘、多样性不足问题。
预训练自提升范式：设计合成Bootstrap预训练流程，无需新增真实数据即可实现预训练效果跃升。
AI自主科研框架：搭建自动化AI研究环境与演化搜索流程，特定任务性能超过人类学生基线。
超人类智能论证：以广义相对论为类比，论证人类可创造出超出自身能力的智能系统，回应争议。

嘉宾/话题简介

本次分享为斯坦福大学博士Zitong Yang的学位答辩内容，其研究围绕持续自我改进AI的技术路径展开，相关成果覆盖4篇合作学术论文。本次答辩系统介绍了自改进AI的核心定义、三类关键能力的落地技术，同时结合物理学案例探讨AI超越人类创造者的可能性，为通用人工智能的发展提供了全新的研究思路。

分节详述

00:00 开场与持续自改进AI定义

本节重点

明确本次答辩核心主题为持续自我改进AI的研究成果
划定研究的前置假设边界，明确自改进AI的三类核心属性
提出当前人类主导的AI开发存在三类固有局限性

详细精要

持续自改进AI核心定义：指系统诞生后可自主持续实现优于人类创造者的迭代升级
研究仅覆盖满足两类前提的AI：一是参数化，即知识存储于神经网络的可定义参数权重中；二是经过预训练，即经过资源密集型预训练阶段，将人类知识注入参数
该定义覆盖当前所有大语言模型范式，排除早期硬编码的棋类AI等系统
自改进AI三大核心属性：符合前提的系统需同时满足三类能力要求
初始预训练结束后，可持续将新知识写入参数权重，不发生灾难性遗忘
可自主生成训练信号，从自生成信号中获得超出人类训练信号的性能提升
可自主设计适配的学习算法，从训练信号中完成学习
人类主导AI开发的三类固有局限：也是研究要解决的核心痛点
训练后权重静态：当前大模型仅靠上下文压缩存储交互信息，压缩为有损过程，长期记忆准确率低，和人类睡眠后记忆固化的机制差异明显
人类数据规模有限：根据EPO AI预测，前沿大语言模型的训练token消耗量将很快追平公开互联网token总量，私有数据同样存在规模上限，无法支撑模型无限缩放
算法设计受人类能力限制：人类研发算法需经过提出想法、实验验证、迭代的循环，人力成本高，仅能探索全部算法空间中的极小一部分

💬 精华片段（中文）

持续自我改进的AI是这样一种系统：它一旦被创造出来，就能够自主、持续地完成自我优化，优化效果优于人类创造者对它的改进。

"A continually self-improving AI is a system that once created can autonomously and continually uh improve itself better than his human creator can improve it."

05:40 第一部分：持续知识获取技术

本节重点

提出合成持续预训练范式，解决小众领域小样本知识注入问题
设计实体图合成数据生成技术，解决单纯重写数据的多样性不足问题
实验验证合成预训练+检索工具的组合可实现最优性能

详细精要

合成持续预训练范式提出背景：针对公开训练数据不存在的小众领域知识注入需求设计
适用场景包括用户个人对话历史、企业内部非公开文档等，这类领域不存在互联网上的多形态数据支撑模型学习
核心思路是基于少量源文档生成合成文本，再用合成文本对模型做持续预训练/微调，避免灾难性遗忘
实体图合成数据生成技术设计：解决单纯重写数据的多样性不足痛点
基线方案：仅用固定提示词要求模型重写源文档，仅靠温度参数控制生成多样性，迭代200-300次后生成内容高度同质化，性能提升天花板低
实体图技术流程：第一步从源文档中提取核心实体列表，第二步随机抽取实体子集，要求模型描述实体间的关联，每次输入的实体组合不同，生成内容多样性大幅提升
封闭书问答实验设置：用QuALITY数据集验证方案效果
数据集包含265本模型未接触过的专业书籍，共180万token，配套4000道高质量多选择问答题，测试为闭书考试形式，无上下文输入
随机作答准确率基线为25%，Llama 3基础模型原生准确率为39%，直接微调原始内容的方案准确率反而下降，GPT-3.5、GPT-4的准确率分别为44%、45%
实验效果验证：实体图方案性能显著优于基线，且与检索能力互补
随着合成token数量增加，实体图方案的问答准确率持续提升，斜率、最终效果均显著优于重写基线，闭书准确率可达56%
开书测试（给模型对应书籍上下文）的Llama 3准确率可达60%，合成持续预训练+开书检索的组合方案可获得最优性能，二者提升效果互补
方案落地价值：为开源大模型的个性化适配提供可行路径
企业/个人适配大模型时，可同时用合成预训练注入私有知识、搭配检索工具，不浪费任何可获得的性能提升空间

💬 精华片段（中文）

合成持续预训练加上检索工具的组合能带来更优的效果，二者的提升是互补的，我认为这非常合理，因为在实际场景中，如果你要为公司或业务定制大语言模型，你不会想放过任何性能提升的机会。

"What we see is that if you combine open book and the continue pre training together you actually get best results that means sort of their improvement is complimentary and I think this makes a lot of sense because like in practice say you want to engineer a language model for your company or uh like uh your business you don't want to leave any like performance improvement on the table."

16:20 第二部分：预训练能力自提升技术

本节重点

提出预训练阶段的知识来源于文本token之间的结构相关性
设计合成Bootstrap预训练范式，无需新增真实数据即可提升预训练效果
实验验证方案效果优于重复训练基线，且模型规模越大合成数据事实性越高

详细精要

预训练知识来源的核心认知：自然语言文本的token之间存在结构相关性，是模型学习的核心信号
思想实验：如果训练文本是A/B/C/D/E五个token的完全随机组合，Transformer模型不会获得任何有效学习信号，初始20%的均匀概率已经匹配数据分布
相关性存在两种解读：统计视角认为token是从特定分布抽样的随机变量，存在统计关联；计算视角认为文本存在可被压缩的模式，下一词预测本质是源码压缩过程
现有预训练的未利用资源：不同文档之间存在大量未被利用的跨文档相关性
典型案例包括《哈利波特》原著与后续改编电影剧本、《Attention Is All You Need》论文与GPT-2的代码实现，英文描述的“点积注意力”和Python代码的实现逻辑存在强关联
核心思路是通过合成数据挖掘这类跨文档相关性，实现预训练能力的自提升，而非仅做大模型的知识蒸馏
合成Bootstrap预训练（SBPT）的实现流程：分三步完成，不引入额外真实数据
第一步：用固定体量的原始数据从头预训练一个基础模型
第二步：将基础模型微调为合成数据生成器，不引入新文本：先对真实文档做embedding近邻匹配，将关联文档配对，微调模型使其基于配对文档的一侧生成另一侧内容，提升模型输出熵
第三步：将原始真实数据与模型生成的合成数据混合，重新预训练新模型，验证性能提升
实验设置与效果验证：控制预训练计算量一致的前提下，SBPT效果显著优于重复训练基线
基线方案：重复使用相同的真实数据训练，不新增数据；SBPT方案用合成数据替代重复的真实数据，二者预训练计算量完全一致；另设Oracle参考组，可使用无限真实数据，同样控制预训练计算量
训练动态表现：重复训练基线很快进入性能平台期，而SBPT与Oracle组的测试损失持续线性下降，无饱和迹象
量化结果：在2000亿token训练（3B参数）、1万亿token训练（3B参数）、1万亿token训练（6B参数）三个场景下，SBPT相比基线的问答准确率平均提升约30%，提升幅度与Oracle组接近
合成数据质量的规模效应：模型规模越大、训练计算量越高，合成数据的事实性越好
2000亿token训练的3B模型生成的合成数据非事实率达50%，训练计算量提升5倍后非事实率大幅下降，模型规模提升到6B后非事实率进一步降低，虽未追平真实数据，但下降趋势明确
该规律说明，模型从相同环境中提取信息的能力随规模提升，可有效降低合成数据的幻觉问题

💬 精华片段（中文）

现有互联网文档之间存在丰富的相关性，比如《哈利波特》的书和三年后上映的电影剧本，《Attention Is All You Need》论文和GPT-2的代码库，代码里91行实现了点积注意力，而论文里用英文描述了点积注意力的定义，这就是英文文本和Python代码之间的相关性。

"The existing internet documents there's rich correlation among them. For example the book of Harry Potter and the screenplay of his movie production three years later and this attention is all you need paper and the GBT2 code base. So in this line 91 here it implements the dot product attention intend and somewhere in the attention all you need paper they literally they say like dot product attention in English."

33:40 第三部分：AI自主设计学习算法技术

本节重点

提出AI可替代人类完成AI研究的核心逻辑，搭建AI研究环境的抽象框架
设计基于演化搜索的自动化AI研究员流程，在特定任务上超过人类学生基线
发现测试时间串行计算的价值显著高于并行计算，符合阿姆达尔定律的规律

详细精要

AI自主开展AI研究的核心逻辑：AI研究的流程符合科学研究的通用范式，适合自动化实现
科学研究的核心是“提出假设-实验验证-证伪迭代”的循环，大模型本身具备生成想法（文本生成）的能力
AI研究的进展高度依赖基准测试驱动，实验最终落地为代码编写，而大模型的代码能力已达到较高水平，SWE-bench准确率已接近80%，具备自动化实验的基础
AI研究环境的抽象框架：包含两大核心组件，可落地为两类典型实验场景
通用组件：一是上下文，即输入给大模型的任务描述；二是价值函数，输入想法字符串输出对应性能数值，量化想法的优劣
预训练实验场景：代码库为独立的GPT-2预训练Python脚本，资源为8张H100 GPU，评价指标为达到3.28损失值的训练时间
后训练实验场景：代码库为GSM8K训练、MATH500测试的推理任务代码，资源为单张Blackwell GPU，评价指标为MATH测试集准确率
自动化AI研究员的实现流程：基于演化搜索的四步循环，无需更新模型权重
第一步：接收研究环境的上下文，由想法生成器输出待验证的研究思路
第二步：执行器接收上下文与生成的想法，输出对应的代码差异
第三步：调用研究环境的价值函数，运行代码得到该想法的性能结果，存入历史经验库
第四步：定期从经验库中学习，生成新想法时可选择利用（组合过往高性能想法）或探索（生成完全不同的新想法），形成迭代循环
实验效果验证：在特定任务上超过人类学生基线，串行搜索效果优于并行
数学推理GRPO任务：初始基线准确率48%，自动化搜索后可达69%，超过CS336课程最佳人类学生的68%成绩；预训练优化任务实现训练时间从36分钟降到29分钟，但未追平2.1分钟的人类最优纪录
搜索动态表现：GPT-4 Opus的搜索效果呈稳定单调上升，其他模型则存在明显波动，说明强模型可更好利用上下文知识开展迭代研究
计算效率规律：串行搜索的性能提升幅度显著高于并行多数投票，符合阿姆达尔定律中串行计算价值高于并行计算的规律，无论是算法搜索还是测试时间推理均符合该模式
典型生成案例：大模型可提出符合人类研究逻辑的可落地创新方案
大模型在数学推理任务中提出了数学工作记忆模拟方案：维护存储数学事实、定义、中间结果的上下文缓冲区，解题时动态更新并检索缓冲区内容，模拟人类做复杂计算时的工作记忆机制
该方案可带来10%的性能提升，思路与人类研究者整理技巧笔记的行为高度相似，具备可解释性

💬 精华片段（中文）

后训练任务的初始准确率是48%，我们的搜索把它提升到了69%，而CS336课上的最佳人类学生成绩是68%，所以从这个很有限的意义上来说，它已经打败了最优的人类。

"The post training one it starts with 48% and our search makes it the 69%. And the best leaderboard from the CS 336 class it's 68%. So like it's like beating the best human in a very weak sense."

48:20 结论与哲学探讨

本节重点

总结当前自改进AI的实现机制为以数量优势弥补质量劣势
结合广义相对论的案例论证人类可创造出超过自身能力的智能系统
明确给出AI可以超越人类创造者的肯定结论

详细精要

当前自改进AI的核心机制：以数量优势弥补单样本质量的不足
同等质量下真实人类数据的效果仍优于AI生成数据，但AI可生成无限量的合成数据，靠规模抵消质量劣势
人类研究者通常只能开展个位数到两位数的实验，而AI可批量完成5000、30000次实验，靠工作量优势在特定任务上超过人类
AI可超越人类创造者的核心论证：以爱因斯坦广义相对论的案例为类比
爱因斯坦提出广义相对论场方程后，自己曾因相信宇宙是静态的，主动增加宇宙学常数修改方程，反而违背了方程本身的正确推论
后续哈勃观测到宇宙膨胀现象，完全符合未被修改的原始场方程的预测，说明理论被创造出来后，本身包含了创造者本人都没有理解的真理，具备独立演化的能力
AI的创造逻辑和理论创造逻辑一致：并非人类能力的子集，而是基于数据训练、算法演化的独立系统，不存在不能超过人类创造者的逻辑限制
最终结论：持续自改进AI的三类核心能力均已具备技术可行性，AI完全可以超越人类创造者的能力水平

💬 精华片段（中文）

当爱因斯坦写下那场方程的那一刻，它就编码了当时没有人类能够理解的真理。某种意义上，我认为“AI能否超越创造者”这个问题根本就不应该被提出，仅仅因为我们创造了某个东西，没有任何理由认为它不能强于我们。

"The moment a theory is created it is evolved it's created like the time when Einstein wrote that field the equation it encodes a truth that no human at the time could understand. So uh in some sense my answer to this question is like it shouldn't be asked in the first place that just because we create something there's like no no reason to think that they cannot be above us."

专业术语注释

术语	解释
灾难性遗忘（Catastrophic Forgetting）	本集语境中指大模型在注入新知识时，原有存储的知识被大幅覆盖、准确率快速下降的现象
合成持续预训练（Synthetic Continual Pre-training）	本集中提出的技术范式，基于少量小众领域源文档生成多样化合成数据，对模型做持续预训练以注入新知识，避免灾难性遗忘
实体图合成数据生成（Entity Graph Synthetic Data Generation）	本集中提出的合成数据生成技术，通过抽取源文档实体、随机组合实体要求模型生成关联描述，提升合成数据的多样性
合成Bootstrap预训练（Synthetic Bootstrap Pre-training, SBPT）	本集中提出的预训练自提升技术，挖掘现有文档的跨文档相关性生成合成数据，无需新增真实数据即可提升预训练效果
演化搜索（Evolutionary Search）	本集中自动化AI研究员采用的迭代方法，通过留存历史高性能想法、组合或生成新想法的方式，持续搜索更优的算法方案
GRPO（Group Relative Policy Optimization）	一种强化学习算法，本集中用于数学推理任务的后训练优化
SWE-bench	衡量大模型代码修复能力的基准测试数据集
QuALITY数据集	本实验中用到的闭书问答测试数据集，包含专业书籍和配套的多选择问题
Llama 3	Meta开发的开源大语言模型系列，本研究中用作基线模型
GSM8K/MATH500	常用的数学推理能力基准测试数据集

延伸思考

合成数据的事实性随模型规模提升的规律是否存在上限，未来是否有可能达到甚至超过真实人类数据的事实性水平，值得进一步验证。
自动化AI研究员当前仅能在限定的狭窄任务场景超过人类，如何扩展其适用范围到通用AI研究场景，是后续重要的研究方向。
持续自改进AI的迭代过程存在不可控风险，如何在技术落地过程中设置对齐、安全审核的拦截机制，需要产业界和学界共同探索。
跨文档相关性的挖掘思路是否可以扩展到多模态数据（文本、图像、音频、视频），进一步放大预训练阶段的自提升效果，具备较高的探索价值。
若AI未来真的具备远超人类的科研能力，人类科研人员的角色将如何转变，相关的伦理、就业配套政策需要提前布局。

原文发表：Mar 03, 2026 · 纪要生成：2026-03-05