来源: YouTube | Jason Wei | 2025年10月17日 分类: 其他 原文发表: Oct 17, 2025 纪要生成: 2026-03-03
Jason Wei现任Meta超级智能实验室研究科学家,曾任职OpenAI、谷歌大脑,是思维链提示、指令微调、01模型、深度研究等核心AI技术的共同发明人,论文累计引用量超9万,是当代最具影响力的AI研究者之一。本次分享他针对2025年AI发展提出三个基础认知框架,帮助听众理解AI发展规律、预判产业影响,消除对AI替代的极端认知偏差。分享时长约30分钟,结束后开放自由问答。
本节重点 - 主持人介绍Jason Wei的职业背景与核心研究成果 - Jason Wei明确本次分享将围绕2025年AI的3个基础认知展开 - 点明当前大众对AI发展影响的认知存在极大两极分化
详细精要
更早任职谷歌大脑期间,推动思维链提示、指令微调等技术成为行业通用方法,累计论文引用量超9万
本次分享的核心框架:聚焦3个简单但基础的AI认知,帮助听众理解2025年AI的发展逻辑
三个核心认知分别为智能商品化、验证者定律、智能的锯齿边缘
当前AI影响的认知两极分化:不同人群对AI的落地影响判断差异极大,没有统一共识
💬 精华片段(中文)
"So I think if you ask this question of like how our world is going to change with the development of AI, you get sort of this like pretty broad spectrum of answers depending on who you ask."
本节重点 - AI能力发展分为突破前沿和商品化两个阶段,成熟能力的使用成本逐年快速下降 - 自适应计算技术的落地是智能成本持续下降的核心支撑 - 公共信息获取速度随技术迭代指数级提升,多个过去高门槛领域将被民主化 - 公共信息价值下降,私有内幕信息的相对价值大幅提升
详细精要
第二阶段为商品化期,能力解锁后,达到同等性能的使用成本逐年下降,当前MMLU同性能模型的调用成本每年均有大幅下滑
自适应计算是成本下降的核心支撑:2024年以来自适应计算技术落地,打破了此前固定计算量的技术瓶颈
01模型首次证明测试阶段可动态调整计算量,难度越高的任务分配越多算力,简单任务可大幅降低算力消耗,进一步压缩智能调用成本
公共信息获取速度指数级提升:从前互联网时代到AI代理时代,公共信息的获取时长从周/小时级压缩到秒/分钟级
当前OpenAI Operator工具可通过访问Kosis等专业数据库,几分钟内即可给出准确答案;OpenAI推出的BrowseComp浏览基准测试中,深度研究模型可解决约50%人类2小时内无法完成的信息检索类问题
智能商品化的产业影响:多个领域门槛降低,信息价值结构发生变化
💬 精华片段(中文)
"Once we sort of achieved abilities with AI, the cost of it will be driven towards zero. I think the trend will continue."
本节重点 - 任务的生成难度和验证难度存在不对称性,不同任务的不对称方向差异极大 - 验证者定律指出AI训练某项任务的能力和任务的易验证性成正比,易验证的任务终将被AI攻克 - 可通过预设测试集等方式提升任务的验证便利性,加速AI在该领域的突破 - DeepMind的AlphaEvolve是利用验证不对称性实现任务突破的典型案例
详细精要
中性任务:生成和验证难度接近,比如大部分竞赛数学题、编写简单的数据处理脚本
验证者定律的核心内容:AI训练完成某项任务的能力,与该任务的易验证性成正比,所有易验证的可解任务终将被AI攻克
目前AI领域的所有公开基准测试均为易验证任务,因此过去5年所有主流基准都被AI快速突破,完全符合验证者定律的预判
验证不对称性的人为优化:可通过补充特权信息提升任务的验证便利性,加速AI迭代
企业可通过构建可量化的评估指标,将原本模糊的业务需求转化为易验证任务,即可借助AI实现快速优化
AlphaEvolve是验证不对称性的典型应用:DeepMind推出的AlphaEvolve通过利用正向不对称性,攻克了多个此前无法解决的数学和算力优化类任务
💬 精华片段(中文)
"But basically the claim that I'd like to assert is that the ability to train AI to solve a task is uh basically proportional to how easily verifiable the task is."
本节重点 - AI不会出现爆发式的通用智能起飞(fast takeoff),不同任务的能力和迭代速度存在极大差异 - 当前不同区域人群对AI影响的认知偏差,本质是未意识到智能的锯齿边缘特征 - 可通过三个核心特征预判AI在特定任务上的发展速度 - 数字化、数据丰富的领域将最先被AI渗透,非数字化、低数据的领域受AI影响极小
详细精要
行业研究者Run提出当前不应给出任何职业建议,因为AI影响的范围和方差远超所有人的预期,普通工程师的判断没有参考价值
通用智能爆发论不成立:AI不会出现突然超越人类、随后能力指数级跃升的快起飞场景,能力提升是渐变的、分任务的
自我改进能力是分任务的,不存在某个模型突然在所有任务上同时超越人类的场景,不同任务的迭代速度差异极大
智能的锯齿边缘特征:AI的能力分布是不均匀的,存在明显的高峰和低谷,而非全面均匀提升
能力低谷:AI长期无法很好完成的任务,比如曾长期出现9.11>9.9的低级错误、对仅几百人使用的美洲原住民语言Flingit的理解能力极差,短期内不会有明显提升
AI任务迭代速度的预判框架:可通过三个核心特征预判AI在特定任务上的发展速度
特征三:数据丰富度,训练数据越多的任务AI表现越好,若存在单一明确的评估指标,可通过强化学习生成合成数据,突破数据量限制,比如AlphaZero、AlphaEvolve均采用该路径
不同领域的AI渗透时间预判:基于三个特征可大致预判不同任务的AI落地时间,存在显著差异
💬 精华片段(中文)
"I don't think there will be a sort of fast super intelligence takeoff because, um, every sort of task has a different capability and rate of improvement."
本节重点 - Jason Wei再次汇总本次分享的三个核心理念 - 开放反馈渠道,欢迎听众通过Twitter互动
详细精要
智能的边缘是锯齿状的,不同任务的AI渗透速度差异极大,不存在通用的替代时间表
后续互动安排:Jason Wei开放反馈渠道,欢迎听众交流
💬 精华片段(中文)
"Okay great. So in summary, intelligence and knowledge will become fast and cheap. Number two, verifiers law, measurement is a driving factor of AI progress. And then finally, the edge of intelligence is jagged."
| 术语 | 解释 |
|---|---|
| MMLU(英文) | 本集中指大规模多任务语言理解基准,是目前评估大模型通用知识能力的最主流行业基准 |
| 自适应计算(Adaptive Compute) | 本集中指大模型可根据任务难度动态调整推理阶段算力消耗的技术,简单任务消耗少算力,复杂任务消耗多算力,可大幅降低智能调用成本 |
| 01模型(英文) | OpenAI推出的大模型产品,首次证明了推理阶段自适应调整算力可大幅提升数学等复杂任务的性能 |
| 深度研究(Deep Research) | OpenAI推出的大模型功能,可通过多步推理、检索完成复杂的信息查询和问题解决,在BrowseComp基准上可解决50%人类2小时无法完成的任务 |
| BrowseComp(英文) | OpenAI推出的浏览能力基准测试,包含大量需要多步检索、跨源验证的复杂信息查询问题,用于评估大模型的网络信息检索能力 |
| Kosis(英文) | 韩国官方统计数据库,本集中提到的查询1983年釜山结婚人数需要访问的数据源 |
| 思维链提示(Chain-of-Thought Prompting) | 大模型提示工程技术,通过引导大模型输出推理过程,大幅提升大模型解决复杂逻辑、数学任务的能力,是Jason Wei在谷歌大脑期间的标志性成果 |
| 指令微调(Instruction Tuning) | 大模型对齐技术,通过在各类指令遵循数据集上微调,提升大模型理解人类指令、输出符合人类需求结果的能力,是Jason Wei在谷歌大脑期间的核心成果之一 |
| 验证者定律(Verifier's Law) | 本集中Jason Wei提出的AI发展规律,指训练AI完成某项任务的能力与该任务的易验证程度成正比 |
| SWE-bench(英文) | 评估大模型软件工程能力的主流基准,给每个代码任务提供预设的测试用例,可自动验证代码解决方案的正确性 |
| AlphaEvolve(英文) | DeepMind推出的AI算法,利用验证不对称性,通过多轮采样-验证-迭代的方式,攻克了多个数学和算力优化类复杂任务 |
| 快起飞(Fast Takeoff) | AI对齐领域的经典假说,指AI一旦具备自我改进能力,就会在极短时间内实现能力指数级跃升,全面超越人类 |
| Flingit(英文) | 仅几百名美洲原住民使用的小众语言,目前大模型对该语言的理解能力极差 |
| AlphaZero(英文) | DeepMind推出的强化学习算法,无需人类训练数据,仅通过规则自我对弈生成合成数据,就攻克了围棋、国际象棋等棋类任务 |