斯坦福AI俱乐部访谈：Jason Wei谈2025年AI领域的3个核心理念

来源： YouTube | Jason Wei | 2025年10月17日 分类： AI 研究 原文发表： Oct 17, 2025 纪要生成： 2026-03-03

全集重点

智能商品化：AI能力一旦突破就会快速降价，公共信息获取成本趋近于零，核心价值转向私有信息
验证者定律：AI训练某项任务的能力与任务的验证难度成反比，易验证的任务终将被AI攻克
智能锯齿边缘：AI不存在爆发式通用智能起飞，不同任务的能力和迭代速度差异极大
AI落地预判框架：可通过数字化程度、人类上手难度、数据丰富度三个维度预判AI渗透速度

嘉宾/话题简介

Jason Wei现任Meta超级智能实验室研究科学家，曾任职OpenAI、谷歌大脑，是思维链提示、指令微调、01模型、深度研究等核心AI技术的共同发明人，论文累计引用量超9万，是当代最具影响力的AI研究者之一。本次分享他针对2025年AI发展提出三个基础认知框架，帮助听众理解AI发展规律、预判产业影响，消除对AI替代的极端认知偏差。分享时长约30分钟，结束后开放自由问答。

分节详述

00:00 开场及分享框架介绍

本节重点

主持人介绍Jason Wei的职业背景与核心研究成果
Jason Wei明确本次分享将围绕2025年AI的3个基础认知展开
点明当前大众对AI发展影响的认知存在极大两极分化

详细精要

Jason Wei的职业背景与学术影响力：他是当代最具影响力的AI研究者之一，核心成果覆盖大模型能力解锁全链条
现任Meta超级智能实验室研究科学家，此前曾任职OpenAI 2年，是01模型、深度研究功能的共同发明人
更早任职谷歌大脑期间，推动思维链提示、指令微调等技术成为行业通用方法，累计论文引用量超9万
本次分享的核心框架：聚焦3个简单但基础的AI认知，帮助听众理解2025年AI的发展逻辑
分享时长约25-30分钟，结束后开放自由问答
三个核心认知分别为智能商品化、验证者定律、智能的锯齿边缘
当前AI影响的认知两极分化：不同人群对AI的落地影响判断差异极大，没有统一共识
量化交易从业者认为ChatGPT等产品无法覆盖其核心工作内容，对AI替代持乐观态度
顶级实验室的AI研究员认为人类仅剩2-3年工作时间，随后AI将全面接管科研类工作

💬 精华片段（中文）

"So I think if you ask this question of like how our world is going to change with the development of AI, you get sort of this like pretty broad spectrum of answers depending on who you ask."

01:00 核心理念一：智能成为大宗商品

本节重点

AI能力发展分为突破前沿和商品化两个阶段，成熟能力的使用成本逐年快速下降
自适应计算技术的落地是智能成本持续下降的核心支撑
公共信息获取速度随技术迭代指数级提升，多个过去高门槛领域将被民主化
公共信息价值下降，私有内幕信息的相对价值大幅提升

详细精要

AI能力发展的两阶段模型：AI能力从突破到普及分为前沿突破和商品化两个阶段，成熟能力的成本持续走低
第一阶段为前沿突破期，此时AI尚不具备对应能力，研发重点是解锁新能力，典型代表是过去5年MMLU基准测试成绩的持续提升
第二阶段为商品化期，能力解锁后，达到同等性能的使用成本逐年下降，当前MMLU同性能模型的调用成本每年均有大幅下滑
自适应计算是成本下降的核心支撑：2024年以来自适应计算技术落地，打破了此前固定计算量的技术瓶颈
2024年之前的深度学习模型，无论任务难度如何（比如回答加州首府还是解决奥赛数学题），均消耗固定计算量，造成算力浪费
01模型首次证明测试阶段可动态调整计算量，难度越高的任务分配越多算力，简单任务可大幅降低算力消耗，进一步压缩智能调用成本
公共信息获取速度指数级提升：从前互联网时代到AI代理时代，公共信息的获取时长从周/小时级压缩到秒/分钟级
以前查询“1983年釜山的结婚人数”这类小众信息，前互联网时代需要赴韩国本地政府档案馆翻阅资料，耗时数天，互联网时代需要跨语言检索耗时数小时
当前OpenAI Operator工具可通过访问Kosis等专业数据库，几分钟内即可给出准确答案；OpenAI推出的BrowseComp浏览基准测试中，深度研究模型可解决约50%人类2小时内无法完成的信息检索类问题
智能商品化的产业影响：多个领域门槛降低，信息价值结构发生变化
过去依赖知识门槛的领域将被民主化，比如普通开发者可通过AI辅助完成复杂编码，个人可通过AI获取专业级健康建议，无需完全依赖医生
公共信息的获取成本趋近于零，私有内幕信息（比如未挂牌的房源信息）的相对价值将大幅提升
未来将出现个性化互联网入口，用户可直接获取定制化的信息呈现，无需手动检索通用网页

💬 精华片段（中文）

"Once we sort of achieved abilities with AI, the cost of it will be driven towards zero. I think the trend will continue."

10:27 核心理念二：验证不对称性与验证者定律

本节重点

任务的生成难度和验证难度存在不对称性，不同任务的不对称方向差异极大
验证者定律指出AI训练某项任务的能力和任务的易验证性成正比，易验证的任务终将被AI攻克
可通过预设测试集等方式提升任务的验证便利性，加速AI在该领域的突破
DeepMind的AlphaEvolve是利用验证不对称性实现任务突破的典型案例

详细精要

验证不对称性的基本概念：同一任务的生成难度和验证难度往往存在差异，不同任务的不对称方向完全不同
正向不对称任务：生成难度远高于验证难度，比如数独、搭建Twitter平台，验证仅需要几分钟，生成需要数千人团队数年的工作量
反向不对称任务：生成难度远低于验证难度，比如提出一个新型饮食方案只需要10秒，验证其有效性需要大样本长期随访，耗时数年且结果存在噪声
中性任务：生成和验证难度接近，比如大部分竞赛数学题、编写简单的数据处理脚本
验证者定律的核心内容：AI训练完成某项任务的能力，与该任务的易验证性成正比，所有易验证的可解任务终将被AI攻克
易验证性包含5个核心判断维度：是否存在客观正误标准、验证速度快慢、是否可批量验证百万级候选结果、验证结果是否低噪声、是否可给出连续的质量评分而非二元结果
目前AI领域的所有公开基准测试均为易验证任务，因此过去5年所有主流基准都被AI快速突破，完全符合验证者定律的预判
验证不对称性的人为优化：可通过补充特权信息提升任务的验证便利性，加速AI迭代
比如竞赛数学题提供标准答案、代码任务提供预设测试用例（如SWE-bench基准），均可将原本中性的任务转化为正向不对称任务
企业可通过构建可量化的评估指标，将原本模糊的业务需求转化为易验证任务，即可借助AI实现快速优化
AlphaEvolve是验证不对称性的典型应用：DeepMind推出的AlphaEvolve通过利用正向不对称性，攻克了多个此前无法解决的数学和算力优化类任务
算法逻辑为：用大模型批量生成候选解决方案，用易验证的评估函数打分，将最优解回喂给大模型作为下一轮生成的参考，多轮迭代后即可得到最优解
该方法绕过了传统深度学习对训练/测试泛化性的要求，针对单一特定问题优化，可大幅降低突破难度，适合所有满足易验证5个维度的任务

💬 精华片段（中文）

"But basically the claim that I'd like to assert is that the ability to train AI to solve a task is uh basically proportional to how easily verifiable the task is."

18:57 核心理念三：智能的锯齿边缘

本节重点

AI不会出现爆发式的通用智能起飞（fast takeoff），不同任务的能力和迭代速度存在极大差异
当前不同区域人群对AI影响的认知偏差，本质是未意识到智能的锯齿边缘特征
可通过三个核心特征预判AI在特定任务上的发展速度
数字化、数据丰富的领域将最先被AI渗透，非数字化、低数据的领域受AI影响极小

详细精要

当前AI影响的认知偏差来源：不同地区人群对AI影响的判断偏差，本质是没有意识到智能的锯齿边缘特征
东海岸从业者低估AI变化幅度，仅关注当前模型的能力短板，未考虑易验证、数字化任务的迭代速度
西海岸从业者低估AI落地的摩擦阻力，未考虑非数字化、低数据任务的迭代难度
行业研究者Run提出当前不应给出任何职业建议，因为AI影响的范围和方差远超所有人的预期，普通工程师的判断没有参考价值
通用智能爆发论不成立：AI不会出现突然超越人类、随后能力指数级跃升的快起飞场景，能力提升是渐变的、分任务的
快起飞理论的核心假设是AI一旦具备自我改进能力就会实现能力跃迁，但实际上自我改进能力是连续谱，从能写部分代码、到能独立训练效果一般的模型、到能超越顶级研究员的模型，需要持续多年的逐步迭代，不存在明确的拐点
自我改进能力是分任务的，不存在某个模型突然在所有任务上同时超越人类的场景，不同任务的迭代速度差异极大
智能的锯齿边缘特征：AI的能力分布是不均匀的，存在明显的高峰和低谷，而非全面均匀提升
能力高峰：AI已经能很好完成的任务，比如高难度数学题、竞赛级编码，能力已经超过大部分人类
能力低谷：AI长期无法很好完成的任务，比如曾长期出现9.11>9.9的低级错误、对仅几百人使用的美洲原住民语言Flingit的理解能力极差，短期内不会有明显提升
AI任务迭代速度的预判框架：可通过三个核心特征预判AI在特定任务上的发展速度
特征一：是否为数字化任务，数字化任务的迭代速度远快于物理世界任务，核心原因是数字化任务可通过算力并行迭代，物理任务（如机器人、理发）需要实体实验，迭代速度慢
特征二：对人类的难度高低，人类容易完成的任务通常AI也更容易突破，人类无法完成的任务（如基于千万级医学影像预测乳腺癌）AI也可能突破，但需要更多数据
特征三：数据丰富度，训练数据越多的任务AI表现越好，若存在单一明确的评估指标，可通过强化学习生成合成数据，突破数据量限制，比如AlphaZero、AlphaEvolve均采用该路径
不同领域的AI渗透时间预判：基于三个特征可大致预判不同任务的AI落地时间，存在显著差异
2023年已突破：前50种语言的翻译、基础代码调试，符合数字化、数据充足、人类中等难度的特征
2024年已突破：竞赛数学，符合数字化、数据充足的特征，即使对人类难度很高也可快速突破
预计2027年突破：AI科研，数字化但数据获取难度较高；2029年突破：电影制作，数字化、数据充足但对人类难度极高
长期不会突破：小语种翻译、理发、手工地毯制作、约会场景的情绪价值提供，不符合数字化或数据充足的特征

💬 精华片段（中文）

"I don't think there will be a sort of fast super intelligence takeoff because, um, every sort of task has a different capability and rate of improvement."

28:57 总结与收尾

本节重点

Jason Wei再次汇总本次分享的三个核心理念
开放反馈渠道，欢迎听众通过Twitter互动

详细精要

三个核心理念汇总：本次分享的核心结论可总结为三点，覆盖AI成本、发展动力、落地规律三个维度
智能与知识的获取将变得快速且廉价，公共信息的获取门槛趋近于零
验证者定律指出，可测量性是AI进步的核心驱动因素，易验证的任务终将被AI攻克
智能的边缘是锯齿状的，不同任务的AI渗透速度差异极大，不存在通用的替代时间表
后续互动安排：Jason Wei开放反馈渠道，欢迎听众交流
提供了反馈表单，会阅读所有听众对本次分享的反馈
欢迎听众通过Twitter和他联系交流

💬 精华片段（中文）

"Okay great. So in summary, intelligence and knowledge will become fast and cheap. Number two, verifiers law, measurement is a driving factor of AI progress. And then finally, the edge of intelligence is jagged."

专业术语注释

术语	解释
MMLU（英文）	本集中指大规模多任务语言理解基准，是目前评估大模型通用知识能力的最主流行业基准
自适应计算（Adaptive Compute）	本集中指大模型可根据任务难度动态调整推理阶段算力消耗的技术，简单任务消耗少算力，复杂任务消耗多算力，可大幅降低智能调用成本
01模型（英文）	OpenAI推出的大模型产品，首次证明了推理阶段自适应调整算力可大幅提升数学等复杂任务的性能
深度研究（Deep Research）	OpenAI推出的大模型功能，可通过多步推理、检索完成复杂的信息查询和问题解决，在BrowseComp基准上可解决50%人类2小时无法完成的任务
BrowseComp（英文）	OpenAI推出的浏览能力基准测试，包含大量需要多步检索、跨源验证的复杂信息查询问题，用于评估大模型的网络信息检索能力
Kosis（英文）	韩国官方统计数据库，本集中提到的查询1983年釜山结婚人数需要访问的数据源
思维链提示（Chain-of-Thought Prompting）	大模型提示工程技术，通过引导大模型输出推理过程，大幅提升大模型解决复杂逻辑、数学任务的能力，是Jason Wei在谷歌大脑期间的标志性成果
指令微调（Instruction Tuning）	大模型对齐技术，通过在各类指令遵循数据集上微调，提升大模型理解人类指令、输出符合人类需求结果的能力，是Jason Wei在谷歌大脑期间的核心成果之一
验证者定律（Verifier's Law）	本集中Jason Wei提出的AI发展规律，指训练AI完成某项任务的能力与该任务的易验证程度成正比
SWE-bench（英文）	评估大模型软件工程能力的主流基准，给每个代码任务提供预设的测试用例，可自动验证代码解决方案的正确性
AlphaEvolve（英文）	DeepMind推出的AI算法，利用验证不对称性，通过多轮采样-验证-迭代的方式，攻克了多个数学和算力优化类复杂任务
快起飞（Fast Takeoff）	AI对齐领域的经典假说，指AI一旦具备自我改进能力，就会在极短时间内实现能力指数级跃升，全面超越人类
Flingit（英文）	仅几百名美洲原住民使用的小众语言，目前大模型对该语言的理解能力极差
AlphaZero（英文）	DeepMind推出的强化学习算法，无需人类训练数据，仅通过规则自我对弈生成合成数据，就攻克了围棋、国际象棋等棋类任务

延伸思考

企业可优先梳理内部可量化、数字化、数据充足的业务环节，优先落地AI实现效率提升，暂时避开非标准化、难验证的场景，降低AI改造的试错成本。
个人职业规划可优先向需要强社交互动、物理世界操作、私有信息积累的方向倾斜，避开易验证、标准化的数字化任务赛道，降低被AI替代的风险。
创业机会可聚焦“AI验证工具”赛道，为各行业提供可自动化、可批量执行的任务评估指标，即可依托验证者定律享受AI产业的发展红利。
无需过度恐慌通用AI的突然替代，可基于“数字化程度、人类难度、数据丰富度”三个维度定期评估所在领域的AI渗透进度，提前做好技能储备即可。
未来信息资产的价值将进一步分化，公共信息的溢价趋近于零，独家私有数据（如未公开的行业数据、用户行为数据）的商业价值将持续提升。

原文发表：Oct 17, 2025 · 纪要生成：2026-03-03