来源: YouTube | Vivek (Google DeepMind) | May 27, 2026 播客: Stanford Online 分类: 其他 原文发表: May 27, 2026 纪要生成: 2026-06-22
Vivek 是 Google DeepMind 的研究科学家,领导 AI、科学与医学交叉领域的研究。他是 Med‑PaLM 和 Med‑PaLM 2 的主要研究者(首个通过或达到美国医师执业考试专家级水平的系统),同时联合领导 AMIE 项目(旨在构建医疗超级智能)。此前,他在 Facebook AI Research 研究多模态助理系统,并在哈佛公共卫生学院担任兼职教授。本次讲座系统介绍了该团队从医学问答转向通用科学发现系统的历程,重点阐述 co‑scientist 多智能体系统的设计哲学、架构及多项实验验证。
本节重点
详细精要
系统应当赋予专家“超能力”,加速科学发现的时钟速度
项目的具体起源:在 2023 年于斯坦福进行的一次关于 Med‑PaLM 的演讲后,一位教授 Dr. Gary Peltz 向演讲者提出,既然 LLM 经过了大量科学和医学文本的训练,也许可以用于假设生成(hypothesis generation)。
团队最初反馈“我们还没准备好”,但演讲者认为最好的项目往往是在不清楚最终路径时依然选择出发,好比跳下悬崖并在坠落过程中造出飞行器
早期尝试:虽然充满怀疑,团队还是用 PaLM 搭建了一个初步的 agentic scaffold(当时尚未流行“智能体”一词)。
💬 精华片段(中文)
项目就像你从悬崖上跳下,并且不得不在坠落的过程中,搞清楚如何造出一台飞行器或一架飞机。
“It's almost like you jumping off a cliff, and you have to figure out building out a flying machine or an airplane on the way down.”
本节重点
详细精要
对于许多任务是有效的,但不足以驱动真正的科学突破
科学发现需要系统 2 思维:科学的标志是更慢、更审慎、更严谨的思考过程。
因此,核心研究命题变成:如何构建能够执行这种结构化、严谨的科学思维的系统?
量化科学超级智能的图谱:为了度量进展,演讲者绘制了一个二维图。
💬 精华片段(中文)
你与那些最优秀的科学家交谈时,他们会告诉你,最好的想法通常是在他们思考一个问题数周、数月甚至数年之后才出现的。
“When you talk to some of the best scientists, they'll tell you that they've had their best ideas when they've been thinking about a problem for weeks or months, sometimes even like years.”
本节重点
详细精要
一个真正超级智能的系统应当具备这种通才特质
人类大脑是唯一的存在证明:在纪录片《The Thinking Game》中,Demis Hassabis 指出,Deep Blue 击败 Kasparov 虽令人印象深刻,但更让人钦佩的是 Kasparov 的大脑。
迄今为止,在整个宇宙中,我们唯一确认的能够进行此类通用假设生成的机器就是人类大脑
自然语言是通用性的基石:以自然语言作为输入输出接口,我们就能像人类一样理解各种概念,处理不同领域的问题。
💬 精华片段(中文)
Demis 说,他当时对 Garry Kasparov 的印象比 Deep Blue 更深刻,原因很简单,因为 Kasparov 的大脑极其通用。
“What Demis says is that he was actually more impressed by Garry Kasparov rather than by Deep Blue in that sequence. And the reason for that is just simply that Garry Kasparov's brain was remarkably general.”
本节重点
详细精要
这种“投入算力就能不断自我提升”的性质非常强大
从游戏到科学:过去几年,团队将这些策略从棋类游戏迁移到越来越复杂的领域。
最终目标是将这类智能体应用于现实世界的复杂任务,比如科学发现和医学
科学自我辩论:将自对弈推广到科学推理的核心思想是科学辩论与自我辩论。
💬 精华片段(中文)
你把算力扔给一个问题,你的算法好到几乎不需要你做别的事,你只需让系统运行一段时间,它就在这个任务上变得超人了。这难道不棒吗?
“Essentially, throw compute at a problem, and your algorithm is just so good that you don't have to do much. You just let that system run for a period of time, and then it becomes superhuman at this task. Isn't that awesome?”
本节重点
详细精要
所有这些构成系统的上下文
输出形式:系统动态运行一段时间(从几分钟到数小时、数天乃至数周,取决于问题复杂度),最终产出一份研究报告,内含一组假设或解决方案。
接口逻辑简单:研究目标进,研究提案/摘要出
内部工作方式:一个带 while 循环的程序:最简单理解,它是在计算机程序中的一个 while 循环,包含四个异步持续运行的函数:
这些智能体不专门为科学微调,而是直接使用基础模型,部分任务可能用 Flash 变体(简单任务)或 Pro 变体(推理密集型任务)
“策略库”(Library of Strategies):每个智能体拥有数百种从人类科学家中提炼出来的思维策略。
测试时只需采样一种策略,用来驱动该次生成
排名智能体与 Elo 评分:这是整个系统中至关重要的组成部分。
两大核心目的:
计算终止与最终产出:计算可持续至指定假设数量或系统无法进一步推进时结束。之后系统会将所有探索过的想法进行可视化聚类,生成一份详细的总结文档返回给科学家。
💬 精华片段(中文)
如果你只是把系统做成一个生成或审查机器,那它只会产出很多很多还不错或者过得去的点子。但在科学发现上,这远远不够。专家科学家缺的不是点子,而是时间和资源。
“If you were to simply have only a generation or a review agent within the system, then I think what that would end up being is a system that's generating many, many like good ideas or decent ideas … But I would argue that that's actually not enough to move the needle in terms of scientific discovery.”
本节重点
详细精要
在通用科学发现中,奖励信号主要来自辩论过程中自然语言的比较与排名,以及科学家在设定研究目标时提供的偏好和评判标准
测试时计算的缩放:
因此,对于“有优化空间且可通过探索改进”的问题类别,缩放几乎是无限的
知识截止与预测:
由于数据泄露,很难干净地做“仅用旧语料预测新事件”的实验
科学出版的未来:
💬 精华片段(中文)
对于搜索空间极大,并且你可以让问题智能地探索该空间的那类问题,从某种意义上看是几乎没有上限的。
“There's a class of problems where the search space is so big that if you keep on throwing more compute at the problem and let the problem intelligently explore the search space, then it is very likely to come up with better solutions. So for those classes of problems, essentially, there's in some ways no limits.”
本节重点
详细精要
此后系统已向全球越来越多科学家开放,催生出一种新型的人机协作模式
急性髓系白血病(AML)药物再利用:
系统对其推荐的新颖性有明确校准:比如推荐 KIRA6,同时坦诚指出虽然不是彻底突破(因同通路其他药物已在 AML 中尝试),但 KIRA6 本身未被广泛研究且无临床试验,值得尝试——体现了基于证据的推荐并真正驱动了实验验证
肝纤维化:
其中一个是已知的、已获批的抗癌药 vorinostat,这体现了 互补智能:AI 横向扫描癌症领域,发现意外关联,而人类专家运用深度专业知识判断合理性,二者结合产生远大于单一系统的效果
植物免疫学(Sainsbury Lab):
这对理解植物免疫、影响农业与全球粮食安全有重大意义
蛋白质从头设计与细胞重编程:
在另一未发表实验中,系统被要求寻找可减少衰老细胞(senescent cells)的新型分泌蛋白或遗传因子,将 AI 提名因子与已知的 Klotho 阳性对照比较,发现它们在降低衰老细胞百分比上达到相同倍数,若能证实,可能发现全新的回春因子
阿尔茨海默病机制补全(Mass General Hospital):
对比实验中,Claude 和 GPT‑5 仅能获得高层假设和第一步,无法细化到具体缺失环节,这凸显了 agentic scaffold(智能体脚手架) 相较于简单 LLM 在处理复杂细节上的绝对优势
神经退行与癌症的逆向共病性:
💬 精华片段(中文)
José 不是那种容易激动的人,他是一位经验极为丰富的研究者。当他给出那种本能的反应时,那是我们第一次感到:也许我们真的抓住了什么。
“So Jose's not someone who gets easily excited by things. He's like a very seasoned researcher. So when he had that visceral reaction, I think that was the first moment when we felt that, OK, we were on to something with the system.”
本节重点
详细精要
对于数学等严格问题,若要求一次性完成完整证明系统易崩溃,但将其分解为子问题并与人类迭代交互,就能持续取得进展
安全设计:
基础模型 Gemini 本身已通过内容安全检测,但多智能体设置扩大了潜在误用的表面,因此采用多层防护手段应对
运行规模:具体令牌消耗量和并行智能体数量演讲者未公开透露。
💬 精华片段(中文)
我们一方面要保留所有细节,但也要告诉科学家应该把时间和精力花在哪儿——也许这就是最令人信服或最有趣的假设,建议你优先阅读。
“One thing we try to do is … we want to have all the details in the reports. But we also tell the scientists where to spend time and attention on.”
| 术语 | 解释 |
|---|---|
| Med‑PaLM | 谷歌 DeepMind 开发的医学调优大语言模型,首个在美国医师执照考试中达到及格和专家级分数的系统 |
| AMIE | 一个旨在构建和普及医疗超级智能的研究项目 |
| co‑scientist | 演讲中介绍的多智能体系统,用作科学家的协作伙伴,生成并优化科学假设 |
| 假设生成(hypothesis generation) | 利用背景知识自动提出新颖科学猜想的过程,本例中是系统的核心功能 |
| 系统 1 思维 | 心理学家丹尼尔·卡尼曼提出的快速、直觉、自动的思维模式,LLM 的默认生成常属于此类 |
| 系统 2 思维 | 慢速、审慎、需要刻意努力的逻辑推理思维,科学研究更需要这种模式 |
| 自对弈(self-play) | AlphaGo/AlphaZero 采用的方法:智能体通过相互对局并接收胜负奖励信号来自我训练 |
| 强化学习(reinforcement learning) | 通过奖励信号来调节智能体决策的机器学习范式 |
| 智能体脚手架(agentic scaffold) | 以大语言模型为核心,配备工具、记忆和交互循环而形成的自动代理结构 |
| 多智能体系统(multiagent system) | 由多个独立智能体协作、竞争或辩论的系统,如 co‑scientist 中的生成、审查、排名、改进智能体 |
| Elo 评分 | 原用于棋类排名的统计学评分方法,此处用来对科学假设进行相对排序 |
| 认知谦逊(epistemic humility) | 系统能够清晰表达自己不知道什么、对其假设的置信度及关键不确定性的能力 |
| AlphaFold | DeepMind 开发的预测蛋白质结构的深度学习模型,极高精度但任务专用 |
| Gemini | 谷歌 DeepMind 的多模态大语言模型家族,co‑scientist 基于其 Pro 和 Flash 变体 |
| IC50 | 半数抑制浓度,反映药物体外抑制肿瘤细胞生长能力的药效指标 |
| 类器官(organoid) | 体外培养的微型简化器官,用于模拟器官功能并进行药物测试 |
| 山中因子(Yamanaka factors) | 一组转录因子(如 Oct4),能将成体细胞重编程为多能干细胞,发现者获诺贝尔奖 |
| 衰老细胞(senescent cells) | 失去分裂能力但保持代谢活性的细胞,分泌炎症因子,与衰老和疾病有关 |
| ACE 抑制剂 | 血管紧张素转化酶抑制剂,常用降压药 |
| B2R 受体 | 缓激肽 B2 受体,在本研究中 ACE 抑制剂通过影响缓激肽并激活该受体导致神经退行 |
| CRISPR | 基因编辑技术,用于敲除或修改特定基因以验证功能 |