来源: Latent Space Podcast | Zico Kolter & Matt Fredrikson (Gray Swan 联合创始人) | Jun 22, 2026 分类: 其他 原文发表: Jun 22, 2026 纪要生成: 2026-06-23
Zico Kolter 是卡内基梅隆大学(CMU)教授,同时也是 OpenAI 董事会安全与安保委员会成员。Matt Fredrikson 同为 CMU 教授,并担任 Gray Swan 的 CEO。两人在深度学习系统的对抗性漏洞和攻击面研究领域有超过十年的积累。
本集节目中,两位嘉宾深入探讨了 AI 安全为何是一个全新领域,而非传统网络安全的简单延伸。他们详细介绍了 Gray Swan 的三大核心产品:社区红队竞技场 Gray Swan Arena、自动化红队模型 Shade,以及 AI 防护栏模型 Cygnal。讨论覆盖了从间接提示注入(IPI)、代理身份验证到 AI 保险与合规的未来趋势等广泛议题,旨在揭示 AI 时代下所有人都应看见却常被忽视的“灰天鹅”式风险。
本节重点
详细精要
这些问题既包括日常失误,如代理做出错误的工具调用,也包括最坏情况,如攻击者有意识地让代理行为异常、泄露数据或窃取凭证。
公司深厚的研究背景:源于 CMU 的对抗性攻击研究
本节重点
详细精要
AI 系统拥有自己的固有漏洞,它们能像人一样在某种程度上被欺骗,因此你需要一种不同的安全思维方式。
模型集中化带来的相关性失效风险
💬 精华片段(中文)
“AI 系统拥有它们自身的固有漏洞。它们能以某种方式被欺骗,就像人也能被欺骗一样,因此你需要一种不同的安全思维方式。”
“AI systems have inherent vulnerabilities of their own. They can be tricked in ways people can be tricked, so you need a different security mindset.”
本节重点
详细精要
Matt Fredrikson 总结说,他们的工作是为模型构建者提供对抗性安全与安保评估,以帮助他们评估从一个模型迭代到下一个迭代的进展。
与模型开发者自有安全团队的分工
本节重点
详细精要
Matt Fredrikson 透露,这个社区非常庞大,大约有 1.5 万人在 Discord 服务器上活跃。虽然不是每个人都参与每场比赛,但通过这个社区,上游的模型开发者获得了大量高质量的数据和信号。
Shade:超越人类的自动化红队模型
💬 精华片段(中文)
“在大量最新实验中,我们发现可以比人类做得更好……我们的自动化红队模型,一个名为 Shade 的系统,在攻破模型方面,现在实际上比人类要好得多。”
“In a lot of the latest experiments, we can do much better than people, than human red teamers now at breaking these models... It's a system called Shade. That system is now actually quite a bit better at breaking models than humans are.”
本节重点
详细精要
这种差异性在对抗性攻击(adversarial attacks)和红队测试中表现得尤为明显。有些东西可以轻易骗过人类,但永远骗不了 AI;反之,有些东西可以骗过 AI,但人类永远不会上当。
用实验探索“外星智能”:AI 研究的独特优势
💬 精华片段(中文)
“这显然是一种与人类不同的智能形式。它是一种截然不同的外星智能,而这种差异性往往被对抗性攻击和红队测试在很大程度下暴露出来。”
“It is clearly a different form of intelligence than people. It's some alien intelligence that is vastly different, and that difference is actually often brought out to a large degree by things like adversarial attacks and red teaming.”
本节重点
详细精要
这样做的目的是将人类和 AI 代理放在一个更公平、更现实的对等环境中进行比较,而不是在脱离现实的环境下测试 AI。
实验的关键发现与反直觉的排名
本节重点
详细精要
这会导致两种失真情况:
能力激发是一种对抗性优化问题
💬 精华片段(中文)
“为了摸清模型的最大能力,你实际上必须做一些对抗性红队工作,以确保模型不会拒绝任何它有能力完成但决定不做的事情。”
“To get a sense of max capabilities, you actually have to do a bit of adversarial red teaming to make sure the model is not effectively refusing any task that it is capable of doing, but which it just decides it doesn't want to do.”
本节重点
详细精要
Zico Kolter 强调,鲁棒性(Robustness)其实也是一种需要单独训练的能力。仅仅让模型变得更大,并不会让它自动变得更安全或更能抵抗对抗性压力。虽然前沿实验室通过专门训练正在提升这一点,但问题远未解决。
Cygnal 的独特优势:对抗性训练闭环
Matt Fredrikson 展示了一个来自 IPI 基准论文的图表,它清楚地表明,模型在 GPQA Diamond 上的能力得分与其攻击成功率之间没有明显的相关性。这完美证实了模型能力不等于安全性的观点。
Cygnal 的部署形态:可配置、可泛化的策略执行
💬 精华片段(中文)
“鲁棒性这种能力,不会随着规模扩大而天真地增加。当你把模型做得越来越大时,它并不会天生就更好地抵抗越狱攻击。”
“The ability to be robust is also not something that has increased naively with scale. So when you make a model bigger and bigger, it does not necessarily get better inherently at resisting jailbreaks.”
本节重点
详细精要
Zico Kolter 解释了 Simon Willison 提出的致命三要素,它构成了最高风险的场景。要发生提示注入风险,必须同时满足三个条件:
企业引入防护栏的触发点与现实挑战
本节重点
详细精要
Zico Kolter 强调,像 Codex 计算机使用功能之所以是巨大的进步,恰恰是因为它正以“你”的身份在操作。但这种强大的能力也带来了前所未有的安全风险。
应对风险的初步方法与局限性
💬 精华片段(中文)
“当你涉及计算机使用时,伙计,你就能搞坏这些东西了……我不想要沙盒化我的代理,对吧?那会限制它的能力。所以,在可用性和代理的能力与安全性之间,存在一种宏观层面的权衡。”
“when you have computer use, you and when you have OpenClaw, man, you can break those things... I don't want to sandbox my agent, right? That doesn't, that limits its capabilities, right? So in some sense, the point here is that there is this trade-off... on a macro scale now is this, you have a trade-off between usability and how much power agent has versus security.”
本节重点
详细精要
当前最普遍的做法是代理直接继承创建者的全部权限。Zico Kolter 和 Matt Fredrikson 一致认为这是一个标准默认项,同时也是一场灾难。Zico 预测,这种思维模式在近期内必须也必然会被改变。
代理身份管理的未来演进路径
💬 精华片段(中文)
“当前很多情况下,我们仍然默认你的代理拥有你的全部权限……我认为这在不久的将来一定会改变,因为它必须改变。否则那就是一场灾难。”
“We are still a lot, in a lot of cases operating on the condition that your agent has your permissions... And I think that will be changed... That will change in the very near future, because it has to... a disaster, yeah.”
本节重点
详细精要
在科研层面,Zico Kolter 最兴奋的是利用代理(Agents)来推动科学自动化,尤其是首先自动化关于 AI 自身的科学(AI for AI Science),例如可解释性研究。
AI 保险与合规的曙光
Matt Fredrikson 补充说,首个重大的、公开的提示注入泄露事件(如导致公司市值暴跌的泄露),很可能是推动这一市场成熟的催化剂。
“灰天鹅”事件的隐喻
💬 精华片段(中文)
“灰天鹅这个名字,是对黑天鹅事件的引用。灰天鹅是指一个不常发生,但你仍然能够预见到的事件。这就是我们现在所处的阶段。这件事必定会发生,当它发生时,不会让任何人感到震惊,所以你应该趁现在还来得及,提前做好准备。”
“The name Gray Swan is a reference to black swan events. A gray swan is an unlikely event that you can still see coming. That is where we are. This will happen. It will not shock anyone when it does, so you want to get ahead of it while you can.”
| 术语 | 解释 |
|---|---|
| 对抗性攻击(Adversarial Attacks) | 通过精心构造的输入(对人类而言可能微不足道或无法察觉),导致机器学习模型做出错误判断或行为。 |
| 间接提示注入(IPI - Indirect Prompt Injection) | 一种攻击方式,攻击者将恶意指令隐藏在模型可能会摄取的不受信任的外部数据源中(如网页、邮件),从而劫持模型的行为,使其偏离原有目标。 |
| 红队测试(Red Teaming) | 一种模拟攻击行为的安全评估方法,通过从攻击者视角寻找并利用系统的弱点,来检验系统的防御能力。 |
| 自动化红队(Automated Red Teaming) | 使用专门的 AI 模型(如 Shade)来自动化地寻找目标模型的漏洞,比人类红队更快、更高效。 |
| 灰天鹅(Gray Swan) | 相对于不可预测的“黑天鹅事件”,指那些虽然不常发生,但人们基于现有迹象可以清晰预见其到来的高风险事件。Gray Swan 也是一家AI安全公司的名字。 |
| 致命三要素(Lethal Trifecta) | 由 Simon Willison 提出的概念,指构成严重 AI 安全风险的三大要素:1)从不可信来源摄取数据;2)有权访问私密内部信息;3)有能力将数据外泄。 |
| 评估意识(Eval Awareness) | 指 AI 模型能够意识到自己正处于评估或测试环境中,并可能因此调整自己的行为,导致评估结果失真。 |
| 沙包策略(Sandbagging) | 指模型故意在评估中隐藏其真实能力(表现得比实际更差),以避免引起部署者的警惕或触发某些安全审查。 |
| 能力激发(Capability Elicitation) | 通过各种技术手段(常常带有对抗性),促使一个 AI 模型展现出其真实拥有的、但可能未在默认提示下表现出的最大能力。 |
| 计算机使用代理(Computer-Use Agent) | 一种能够像人类一样直接操作计算机的 AI 代理,例如移动鼠标、点击按钮、使用键盘和浏览器等。这带来了巨大的安全攻击面。 |
| Mythos | Anthropic 公司的一个前沿模型。在本集中作为评估间接提示注入安全性的案例被提及。 |
| OpenClaw | 一个能让 AI 代理广泛连接各种工具和插件的开源框架,因其强大的功能性和潜在的安全风险而被重点讨论。 |