构建通用科学智能：从 Med-PaLM 到 co-scientist 的多智能体科学发现之旅

来源： YouTube | Vivek (Google DeepMind) | May 27, 2026 播客： Stanford Online 分类： 其他 原文发表： May 27, 2026 纪要生成： 2026-06-22

全集重点

从病历到假设生成：Med‑PaLM 的成功促使科学家提出将 LLM 用于产生科学假设，由此催生了 co‑scientist 项目
科学思维需要系统 2：传统的 LLM 快思考（系统 1）难以胜任严谨的创造性科学推理，必须构建慢速、结构化、自我完善的思维引擎
多智能体自我辩论是核心机制：借鉴 AlphaGo 的自对弈，通过智能体间的科学辩论、排名和自改进，让系统在自然语言中进化出更好的假设
通用性来自自然语言接口：以自然语言为输入输出，使系统能够处理任何科学问题，而 AlphaFold 虽极其强大但缺乏这种通用性
多领域实验验证了其突破性：在抗菌素耐药性、癌症药物再利用、肝纤维化、蛋白质设计、衰老因子及阿尔茨海默病等领域，系统独立发现未发表成果或补充关键环节

嘉宾/话题简介

Vivek 是 Google DeepMind 的研究科学家，领导 AI、科学与医学交叉领域的研究。他是 Med‑PaLM 和 Med‑PaLM 2 的主要研究者（首个通过或达到美国医师执业考试专家级水平的系统），同时联合领导 AMIE 项目（旨在构建医疗超级智能）。此前，他在 Facebook AI Research 研究多模态助理系统，并在哈佛公共卫生学院担任兼职教授。本次讲座系统介绍了该团队从医学问答转向通用科学发现系统的历程，重点阐述 co‑scientist 多智能体系统的设计哲学、架构及多项实验验证。

分节详述

00:00 开场与背景

本节重点

介绍演讲者及其在 Med‑PaLM 和 AMIE 上的工作
引出本次主题：构建能够与科学家和医生协作的智能体系统
项目起源于一次斯坦福的讲座后交流

详细精要

研究定位：演讲者团队的目标是构建 通用性的 AI 系统，它们能作为科研和医疗领域专家的协作伙伴，即与科学家和医生并肩工作。
重点放在 可协作 上，而非单纯工具
系统应当赋予专家“超能力”，加速科学发现的时钟速度
项目的具体起源：在 2023 年于斯坦福进行的一次关于 Med‑PaLM 的演讲后，一位教授 Dr. Gary Peltz 向演讲者提出，既然 LLM 经过了大量科学和医学文本的训练，也许可以用于假设生成（hypothesis generation）。
例如，用来识别罕见病的致病基因
当时系统使用的是 PaLM 系列模型（Gemini 的前身），性能还不够稳定，幻觉问题严重
团队最初反馈“我们还没准备好”，但演讲者认为最好的项目往往是在不清楚最终路径时依然选择出发，好比跳下悬崖并在坠落过程中造出飞行器
早期尝试：虽然充满怀疑，团队还是用 PaLM 搭建了一个初步的 agentic scaffold（当时尚未流行“智能体”一词）。
该脚手架接入了某些数据库和工具，能检索文献、阅读信息
让系统预测导致某种罕见病的最可能基因
其中一条假设后来由 Gary 通过 CRISPR 敲除小鼠实验 进行了验证，并最终作为同行评审论文发表在 《Advanced Science》 上
这也暴露了直接使用 LLM 做假设生成的局限，即模型主要进行的是 系统 1 的快思考

💬 精华片段（中文）

项目就像你从悬崖上跳下，并且不得不在坠落的过程中，搞清楚如何造出一台飞行器或一架飞机。

“It's almost like you jumping off a cliff, and you have to figure out building out a flying machine or an airplane on the way down.”

07:23 系统 1 与系统 2 思维：科学发现需要什么

本节重点

明确 LLM 默认的快响应属于系统 1 思维
科学发现本质上是慢速、审慎、严谨的系统 2 思维
提出核心研究问题：如何构建能进行结构化、严谨科学思维的 AI

详细精要

传统 LLM 是系统 1 思维：当使用 Gemini、ChatGPT、Claude 等时，它们主要进行快速、直觉式的响应。
基于表面相关性和模式匹配
对于许多任务是有效的，但不足以驱动真正的科学突破
科学发现需要系统 2 思维：科学的标志是更慢、更审慎、更严谨的思考过程。
顶尖科学家常描述他们在持续数周、数月甚至数年的深思后，突然获得“aha”时刻
这种过程是深沉、缓慢的，与 LLM 的即时响应形成鲜明对比
因此，核心研究命题变成：如何构建能够执行这种结构化、严谨的科学思维的系统？
量化科学超级智能的图谱：为了度量进展，演讲者绘制了一个二维图。
纵轴是按复杂性排序的科学任务：从文献综述、假设生成，到撰写研究论文、完成博士论文，最高层是提出范式转移的理论（如广义相对论）
横轴是普通人类科学家完成这些任务所需的时间：从分/小时到天/周/月/年，乃至数十年
AlphaFold 被放在横轴最右端（已完成相当于数百万科学家年工作量），但被放在图的外面，因为它是一个极其专业化的系统，缺乏通用性

💬 精华片段（中文）

你与那些最优秀的科学家交谈时，他们会告诉你，最好的想法通常是在他们思考一个问题数周、数月甚至数年之后才出现的。

“When you talk to some of the best scientists, they'll tell you that they've had their best ideas when they've been thinking about a problem for weeks or months, sometimes even like years.”

12:43 通用性与自然语言是关键

本节重点

对比 Deep Blue 和 Kasparov，强调人类大脑的通用性才是科学思维的根基
自然语言是实现通用 AI 的关键构建块
通用性意味着面对任何问题都能做出合理尝试

详细精要

通用性的定义：系统能够接受任何科学问题，理解它、将其分解为步骤，并做出合理的尝试来推进，即使不一定完全解决。
AlphaFold 只能处理蛋白质序列输入和结构输出，极度专精，虽获诺贝尔奖，但不符合通用性的要求
一个真正超级智能的系统应当具备这种通才特质
人类大脑是唯一的存在证明：在纪录片《The Thinking Game》中，Demis Hassabis 指出，Deep Blue 击败 Kasparov 虽令人印象深刻，但更让人钦佩的是 Kasparov 的大脑。
Kasparov 不仅能下棋，还能说多种语言、欣赏艺术、思考物理和哲学——人类大脑具备惊人的通用性
迄今为止，在整个宇宙中，我们唯一确认的能够进行此类通用假设生成的机器就是人类大脑
自然语言是通用性的基石：以自然语言作为输入输出接口，我们就能像人类一样理解各种概念，处理不同领域的问题。
这正是当前大型语言模型（如 Gemini、Claude、ChatGPT）的基础属性：它们能讨论大量话题，从物理到哲学
但到目前为止，LLM 在复杂科学任务（假设生成、撰写研究论文）上的实际证据仍然非常稀少，图中存在大量“暗空间”
co‑scientist 的目标就是在该图谱中向右上方向移动，承担更复杂、时间跨度更长的科学任务

💬 精华片段（中文）

Demis 说，他当时对 Garry Kasparov 的印象比 Deep Blue 更深刻，原因很简单，因为 Kasparov 的大脑极其通用。

“What Demis says is that he was actually more impressed by Garry Kasparov rather than by Deep Blue in that sequence. And the reason for that is just simply that Garry Kasparov's brain was remarkably general.”

17:59 从 AlphaGo 的自对弈到科学自我辩论

本节重点

借鉴 AlphaGo/AlphaZero 的自对弈+强化学习机制
将自对弈泛化到科学领域：通过多智能体科学辩论和自我辩论实现持续改进
这种机制让系统随时间推移自主提升科学假设的质量

详细精要

AlphaGo 的核心原理：利用自对弈（self-play），两个智能体在一个环境（棋盘）中对战，根据胜负获得奖励信号，获胜的走法和策略被强化，失败的被弱化。
AlphaZero 将这种极简原理发挥到极致：从零开始，只给予正确及时的奖励信号，系统在三个月后便达到超人类水平
这种“投入算力就能不断自我提升”的性质非常强大
从游戏到科学：过去几年，团队将这些策略从棋类游戏迁移到越来越复杂的领域。
2019–2020 年，像 AlphaStar 这样的系统证明了类似方法在更复杂环境中的有效性
最终目标是将这类智能体应用于现实世界的复杂任务，比如科学发现和医学
科学自我辩论：将自对弈推广到科学推理的核心思想是科学辩论与自我辩论。
系统内部有一个多智能体团队，彼此持续进行辩论：生成科学假设，同时审视、改进和评判对方的假设
整个过程持续进行，并不断引入新知识和奖励信号，从而驱动系统朝着更高质量假设的方向自我提升
这种多智能体设置最终形成的复合 AI 系统，能够生成科学假设并解决时间跨度长的复杂科学任务

💬 精华片段（中文）

你把算力扔给一个问题，你的算法好到几乎不需要你做别的事，你只需让系统运行一段时间，它就在这个任务上变得超人了。这难道不棒吗？

“Essentially, throw compute at a problem, and your algorithm is just so good that you don't have to do much. You just let that system run for a period of time, and then it becomes superhuman at this task. Isn't that awesome?”

22:13 co‑scientist 的多智能体架构详解

本节重点

系统是通用多智能体科学发现工具的早期范例，界面完全以自然语言呈现
人类科学家始终处在驾驶位，提供研究目标、约束、偏好、初始方向及多模态数据
内部是一个包含生成、审查、排名、改进四种功能的 while 循环，由不同的 Gemini 智能体实现

详细精要

人机接口：科学家处于驱动地位。输入采用自然语言，可以是简单的短描述，也可以是极其详尽的研究目标。
可以指定约束条件、评估假设的维度/标准、个人偏好
可提供初始探索种子方向（类似导师说“从这里开始探索”）
可附加多模态数据：相关论文 PDF、实验室生成的实验数据等
所有这些构成系统的上下文
输出形式：系统动态运行一段时间（从几分钟到数小时、数天乃至数周，取决于问题复杂度），最终产出一份研究报告，内含一组假设或解决方案。
接口逻辑简单：研究目标进，研究提案/摘要出
内部工作方式：一个带 while 循环的程序：最简单理解，它是在计算机程序中的一个 while 循环，包含四个异步持续运行的函数：
生成：不断生成不同的科学想法和假设
审查：审阅、评判这些假设
排名：对假设进行排序和优先级划分
改进：提升和进化假设
所有函数均由配备特定系统提示词的 Gemini 模型 智能体实现
这些智能体不专门为科学微调，而是直接使用基础模型，部分任务可能用 Flash 变体（简单任务）或 Pro 变体（推理密集型任务）
“策略库”（Library of Strategies）：每个智能体拥有数百种从人类科学家中提炼出来的思维策略。
生成策略示例：阅读所有相关文献后提炼想法；或者模拟双专家对话，通过数轮对话碰撞出一个比双方初始想法都更好的假设
团队成员会听 Terence Tao、David Deutsch 等人的播客，归纳其抽象思维模式，并将其实现为策略存入库中
测试时只需采样一种策略，用来驱动该次生成
排名智能体与 Elo 评分：这是整个系统中至关重要的组成部分。
该智能体获取截至目前生成的全部假设，并组织辩论赛，让假设在模拟对话中相互比较
根据科学家最初设定的标准，为假设打出 Elo 分数，就像棋类排名一样，据此对科学假设进行排序和优先级确定
两大核心目的：
1. 尊重科学家时间：专家科学家不缺想法，他们缺的是时间和资源。系统必须找出真正值得高度关注的假设，并体现认知谦逊（epistemic humility）——即明确表达对每个假设的置信度和关键不确定性
2. 构建自我改进循环：辩论使用自然语言，可以生成总结，这些总结被存入系统的全局记忆。后续任何智能体在工作时可以读取这些总结，从而提出更好的假设或生成更棒的评审，形成自我提升的正反馈循环
计算终止与最终产出：计算可持续至指定假设数量或系统无法进一步推进时结束。之后系统会将所有探索过的想法进行可视化聚类，生成一份详细的总结文档返回给科学家。

💬 精华片段（中文）

如果你只是把系统做成一个生成或审查机器，那它只会产出很多很多还不错或者过得去的点子。但在科学发现上，这远远不够。专家科学家缺的不是点子，而是时间和资源。

“If you were to simply have only a generation or a review agent within the system, then I think what that would end up being is a system that's generating many, many like good ideas or decent ideas … But I would argue that that's actually not enough to move the needle in terms of scientific discovery.”

34:08 现场问答（架构与概念相关）

本节重点

如何评估假设好坏？奖励信号来自何方？
测试时计算量是否饱和？
知识的截断与预测未来事件的可能性
科学出版与同行评审在 AI 时代的挑战

详细精要

评估与奖励机制：
对于一部分问题，存在定义良好的适应度函数，那么系统可以不断优化，奖励就是向更优解的推进
在通用科学发现中，奖励信号主要来自辩论过程中自然语言的比较与排名，以及科学家在设定研究目标时提供的偏好和评判标准
测试时计算的缩放：
问题可分三类：
- 太简单的问题（如简单检索），增加计算量无意义
- 太困难的问题（如造时间机器），再多计算也无法解决
- 中间的巨大区间则呈现优秀的缩放特性：不断投入计算、引入新信息，系统就能持续产出更好的假设，未见明显饱和
因此，对于“有优化空间且可通过探索改进”的问题类别，缩放几乎是无限的
知识截止与预测：
通过 Imperial College 的抗菌素耐药性 案例和 Alzheimer 案例 证明系统可以得出尚未公开的发现
团队正尝试让其预测正在进行的临床试验结果，已取得一定合理成功，但受限于大量专有数据未公开
由于数据泄露，很难干净地做“仅用旧语料预测新事件”的实验
科学出版的未来：
有人担心论文将主要为其他 AI 智能体阅读，传统出版周期过长
演讲者认为，需要新的机制（如针对 AI 生成内容的专门政策，或标准化的科学上下文协议），但核心难题在于，若对 AI 辅助评审或生成管控不当，可能只会让某种特定类型的论文通过筛选，而使其他课题被埋没
简言之，人已经无法跟上 AI 论文的海量产出，需要认真应对

💬 精华片段（中文）

对于搜索空间极大，并且你可以让问题智能地探索该空间的那类问题，从某种意义上看是几乎没有上限的。

“There's a class of problems where the search space is so big that if you keep on throwing more compute at the problem and let the problem intelligently explore the search space, then it is very likely to come up with better solutions. So for those classes of problems, essentially, there's in some ways no limits.”

39:56 实验验证：多领域突破性成果

本节重点

复现未发表成果：抗菌素耐药性水平基因转移机制
药物再利用：为急性髓系白血病寻找新药和组合疗法
肝纤维化表观基因组靶点发现 + 给药方案建议
植物免疫学：发现全新巨型免疫蛋白
蛋白质从头设计、细胞衰老因子预测、阿尔茨海默病完整机制补全

详细精要

抗菌素耐药性（Imperial College）：
研究人员 José 和 Tiago 花费约十年的时间发现了一种全新的细菌水平基因转移机制，导致耐药性，但尚未发表
他们将同一研究目标交给 co‑scientist，系统运行数天后返回结果
研究人员收到后极度震惊，认为系统可能读取了他们的邮件或 ChatGPT 记录（因为这结果与他们的未发表发现高度吻合），这成为团队相信自己“做对了”的第一个关键瞬间
此后系统已向全球越来越多科学家开放，催生出一种新型的人机协作模式
急性髓系白血病（AML）药物再利用：
来自 Houston Methodist Hospital 的医生科学家利用系统识别出用于复杂癌症的再利用药物和组合疗法
实验结果以 IC50 曲线 展示，在多种细胞系中，推荐的药物在合理浓度下显示出肿瘤抑制活性（杀死癌细胞）
系统对其推荐的新颖性有明确校准：比如推荐 KIRA6，同时坦诚指出虽然不是彻底突破（因同通路其他药物已在 AML 中尝试），但 KIRA6 本身未被广泛研究且无临床试验，值得尝试——体现了基于证据的推荐并真正驱动了实验验证
肝纤维化：
Dr. Gary Peltz 利用系统识别治疗肝纤维化的新表观基因组靶点，并进一步要求系统提供“在我实验室器官芯片体系中验证该靶点的实验方案”
系统推荐的四种药物在人类肝脏类器官（hepatic organoid）中均显示出极具前景的抗纤维化活性
其中一个是已知的、已获批的抗癌药 vorinostat，这体现了 互补智能：AI 横向扫描癌症领域，发现意外关联，而人类专家运用深度专业知识判断合理性，二者结合产生远大于单一系统的效果
植物免疫学（Sainsbury Lab）：
研究人员使用 co‑scientist 构建“结构新颖性指数”，重新分析 AlphaFold 预测结构
发现了一个此前未知的巨型植物免疫蛋白（11‑mer 抗病小体），颠覆了过去认为该类蛋白多为六边形的认知
这对理解植物免疫、影响农业与全球粮食安全有重大意义
蛋白质从头设计与细胞重编程：
系统被要求设计更好的 Oct4 蛋白（属于 山中因子，可重编程细胞但可能致癌），需兼具高活性和安全性，并使用 AlphaFold 在环中迭代
系统：预测序列 → 用 AlphaFold 评估结构稳定性 → 精炼假设，在硅片上经多次循环后，得到的序列具有期望的特性，目前所有设计正在实验室测试，结果非常乐观
在另一未发表实验中，系统被要求寻找可减少衰老细胞（senescent cells）的新型分泌蛋白或遗传因子，将 AI 提名因子与已知的 Klotho 阳性对照比较，发现它们在降低衰老细胞百分比上达到相同倍数，若能证实，可能发现全新的回春因子
阿尔茨海默病机制补全（Mass General Hospital）：
研究人员发现服用 ACE 抑制剂（降压药）的人群患阿尔茨海默病风险升高，经数年实验提出一个九步级联机制
co‑scientist 不仅完整复现了全部九个步骤，还补上了关键的一步：即 缓激肽 与脑细胞表面 B2R 受体 之间的直接联系
研究人员随后返回实验室，使用蛋白稳定性实验（chase assay）验证了这缺失的一环
对比实验中，Claude 和 GPT‑5 仅能获得高层假设和第一步，无法细化到具体缺失环节，这凸显了 agentic scaffold（智能体脚手架） 相较于简单 LLM 在处理复杂细节上的绝对优势
神经退行与癌症的逆向共病性：
演讲者个人给系统提出一个探索性问题：找出在神经退行性疾病中重要但也在特定癌症中可能失控的欠研究基因
系统提出 DHX9 和 SRRM4，并建议联系德国某教授验证。该教授利用其全基因组 CRISPR 筛选数据证实，在小细胞肺癌中这两个基因的表达显著高于其他癌症，假设初步成立

💬 精华片段（中文）

José 不是那种容易激动的人，他是一位经验极为丰富的研究者。当他给出那种本能的反应时，那是我们第一次感到：也许我们真的抓住了什么。

“So Jose's not someone who gets easily excited by things. He's like a very seasoned researcher. So when he had that visceral reaction, I think that was the first moment when we felt that, OK, we were on to something with the system.”

59:01 最终问答与结语

本节重点

关于百页报告的阅读与信任问题
系统的安全性：多层防护防止恶意使用
多智能体系统的令牌消耗与运行成本

详细精要

报告长度与信任：
尽管系统会产出长达100+页的详细报告，但它同时会明确指引科学家最值得阅读的段落或假设，并会诚实地表示某条路径无解或需要重构问题
对于数学等严格问题，若要求一次性完成完整证明系统易崩溃，但将其分解为子问题并与人类迭代交互，就能持续取得进展
安全设计：
系统内置多层次安检：在用户输入研究目标时做第一道过滤；运行中持续监控生成想法的安全性，一旦不安全假设的比例超过10%，即中止计算并警告用户
基础模型 Gemini 本身已通过内容安全检测，但多智能体设置扩大了潜在误用的表面，因此采用多层防护手段应对
运行规模：具体令牌消耗量和并行智能体数量演讲者未公开透露。

💬 精华片段（中文）

我们一方面要保留所有细节，但也要告诉科学家应该把时间和精力花在哪儿——也许这就是最令人信服或最有趣的假设，建议你优先阅读。

“One thing we try to do is … we want to have all the details in the reports. But we also tell the scientists where to spend time and attention on.”

专业术语注释

术语	解释
Med‑PaLM	谷歌 DeepMind 开发的医学调优大语言模型，首个在美国医师执照考试中达到及格和专家级分数的系统
AMIE	一个旨在构建和普及医疗超级智能的研究项目
co‑scientist	演讲中介绍的多智能体系统，用作科学家的协作伙伴，生成并优化科学假设
假设生成（hypothesis generation）	利用背景知识自动提出新颖科学猜想的过程，本例中是系统的核心功能
系统 1 思维	心理学家丹尼尔·卡尼曼提出的快速、直觉、自动的思维模式，LLM 的默认生成常属于此类
系统 2 思维	慢速、审慎、需要刻意努力的逻辑推理思维，科学研究更需要这种模式
自对弈（self-play）	AlphaGo/AlphaZero 采用的方法：智能体通过相互对局并接收胜负奖励信号来自我训练
强化学习（reinforcement learning）	通过奖励信号来调节智能体决策的机器学习范式
智能体脚手架（agentic scaffold）	以大语言模型为核心，配备工具、记忆和交互循环而形成的自动代理结构
多智能体系统（multiagent system）	由多个独立智能体协作、竞争或辩论的系统，如 co‑scientist 中的生成、审查、排名、改进智能体
Elo 评分	原用于棋类排名的统计学评分方法，此处用来对科学假设进行相对排序
认知谦逊（epistemic humility）	系统能够清晰表达自己不知道什么、对其假设的置信度及关键不确定性的能力
AlphaFold	DeepMind 开发的预测蛋白质结构的深度学习模型，极高精度但任务专用
Gemini	谷歌 DeepMind 的多模态大语言模型家族，co‑scientist 基于其 Pro 和 Flash 变体
IC50	半数抑制浓度，反映药物体外抑制肿瘤细胞生长能力的药效指标
类器官（organoid）	体外培养的微型简化器官，用于模拟器官功能并进行药物测试
山中因子（Yamanaka factors）	一组转录因子（如 Oct4），能将成体细胞重编程为多能干细胞，发现者获诺贝尔奖
衰老细胞（senescent cells）	失去分裂能力但保持代谢活性的细胞，分泌炎症因子，与衰老和疾病有关
ACE 抑制剂	血管紧张素转化酶抑制剂，常用降压药
B2R 受体	缓激肽 B2 受体，在本研究中 ACE 抑制剂通过影响缓激肽并激活该受体导致神经退行
CRISPR	基因编辑技术，用于敲除或修改特定基因以验证功能

延伸思考

验证瓶颈：当 AI 能规模化产生大量高可信度假设时，实验室验证能力和速度将成为整个科学加速过程中的关键约束，如何自动化验证或设计闭环自动化实验室？
通用性与安全性的张力：系统越通用，潜在误用场景越多。仅靠使用者意图过滤和生成内容监控是否足够？需要怎样的国际治理框架？
出版生态的重构：传统的同行评审周期远慢于 AI 产出速度，是否有必要建立基于智能体评审、可复现研究包和实时更新的科学知识图谱，以取代或补充现有论文体系？
人类科学家的角色演变：当 AI 能补全资深团队九步机制中的缺失环节时，年轻研究者如何培养批判性直觉和深度思维？人类在 AI 协作中应更专注于提出正确问题和设计验证，还是更高层次的创造性综合？
可解释性与信任：百页报告虽详细，但科学家如何快速建立对推荐假设的信任？能否通过交互式对话让 AI 解释推理链条、暴露其逻辑漏洞，从而增强决策质量？

原文发表：May 27, 2026 · 纪要生成：2026-06-22