▶ 原文链接

灰天鹅事件:AI 安全为何不只是“网络安全的 AI 版”

来源: Latent Space Podcast | Zico Kolter & Matt Fredrikson (Gray Swan 联合创始人) | Jun 22, 2026 分类: 其他 原文发表: Jun 22, 2026 纪要生成: 2026-06-23


全集重点


嘉宾/话题简介

Zico Kolter 是卡内基梅隆大学(CMU)教授,同时也是 OpenAI 董事会安全与安保委员会成员。Matt Fredrikson 同为 CMU 教授,并担任 Gray Swan 的 CEO。两人在深度学习系统的对抗性漏洞和攻击面研究领域有超过十年的积累。

本集节目中,两位嘉宾深入探讨了 AI 安全为何是一个全新领域,而非传统网络安全的简单延伸。他们详细介绍了 Gray Swan 的三大核心产品:社区红队竞技场 Gray Swan Arena、自动化红队模型 Shade,以及 AI 防护栏模型 Cygnal。讨论覆盖了从间接提示注入(IPI)、代理身份验证到 AI 保险与合规的未来趋势等广泛议题,旨在揭示 AI 时代下所有人都应看见却常被忽视的“灰天鹅”式风险。


分节详述

00:00:00 开场介绍:Gray Swan 的使命与起源

本节重点

详细精要

00:02:31 AI 安全为何与众不同:对抗性样本与系统固有漏洞

本节重点

详细精要

💬 精华片段(中文)

“AI 系统拥有它们自身的固有漏洞。它们能以某种方式被欺骗,就像人也能被欺骗一样,因此你需要一种不同的安全思维方式。”

“AI systems have inherent vulnerabilities of their own. They can be tricked in ways people can be tricked, so you need a different security mindset.”

00:06:38 测试 Claude, Codex 与间接提示注入

本节重点

详细精要

00:07:47 Gray Swan Arena 与自动化红队(Shade)

本节重点

详细精要

💬 精华片段(中文)

“在大量最新实验中,我们发现可以比人类做得更好……我们的自动化红队模型,一个名为 Shade 的系统,在攻破模型方面,现在实际上比人类要好得多。”

“In a lot of the latest experiments, we can do much better than people, than human red teamers now at breaking these models... It's a system called Shade. That system is now actually quite a bit better at breaking models than humans are.”

00:11:14 外星智能与模型怪异性:LLM 为何失败得与众不同

本节重点

详细精要

💬 精华片段(中文)

“这显然是一种与人类不同的智能形式。它是一种截然不同的外星智能,而这种差异性往往被对抗性攻击和红队测试在很大程度下暴露出来。”

“It is clearly a different form of intelligence than people. It's some alien intelligence that is vastly different, and that difference is actually often brought out to a large degree by things like adversarial attacks and red teaming.”

00:14:00 人类 vs 浏览器代理:鲁棒性挑战赛的惊人结果

本节重点

详细精要

00:19:00 评估意识、沙包策略与能力激发

本节重点

详细精要

💬 精华片段(中文)

“为了摸清模型的最大能力,你实际上必须做一些对抗性红队工作,以确保模型不会拒绝任何它有能力完成但决定不做的事情。”

“To get a sense of max capabilities, you actually have to do a bit of adversarial red teaming to make sure the model is not effectively refusing any task that it is capable of doing, but which it just decides it doesn't want to do.”

00:26:11 Cygnal:为 AI 代理设计的防护栏模型

本节重点

详细精要

💬 精华片段(中文)

“鲁棒性这种能力,不会随着规模扩大而天真地增加。当你把模型做得越来越大时,它并不会天生就更好地抵抗越狱攻击。”

“The ability to be robust is also not something that has increased naively with scale. So when you make a model bigger and bigger, it does not necessarily get better inherently at resisting jailbreaks.”

00:34:04 致命三要素与企业的防护栏需求

本节重点

详细精要

00:45:47 OpenClaw 与计算机使用安全问题

本节重点

详细精要

💬 精华片段(中文)

“当你涉及计算机使用时,伙计,你就能搞坏这些东西了……我不想要沙盒化我的代理,对吧?那会限制它的能力。所以,在可用性和代理的能力与安全性之间,存在一种宏观层面的权衡。”

“when you have computer use, you and when you have OpenClaw, man, you can break those things... I don't want to sandbox my agent, right? That doesn't, that limits its capabilities, right? So in some sense, the point here is that there is this trade-off... on a macro scale now is this, you have a trade-off between usability and how much power agent has versus security.”

00:50:44 代理身份、权限与企业部署

本节重点

详细精要

💬 精华片段(中文)

“当前很多情况下,我们仍然默认你的代理拥有你的全部权限……我认为这在不久的将来一定会改变,因为它必须改变。否则那就是一场灾难。”

“We are still a lot, in a lot of cases operating on the condition that your agent has your permissions... And I think that will be changed... That will change in the very near future, because it has to... a disaster, yeah.”

00:54:24 AI 安全的未来:保险、合规与灰天鹅事件

本节重点

详细精要

💬 精华片段(中文)

“灰天鹅这个名字,是对黑天鹅事件的引用。灰天鹅是指一个不常发生,但你仍然能够预见到的事件。这就是我们现在所处的阶段。这件事必定会发生,当它发生时,不会让任何人感到震惊,所以你应该趁现在还来得及,提前做好准备。”

“The name Gray Swan is a reference to black swan events. A gray swan is an unlikely event that you can still see coming. That is where we are. This will happen. It will not shock anyone when it does, so you want to get ahead of it while you can.”


专业术语注释

术语 解释
对抗性攻击(Adversarial Attacks) 通过精心构造的输入(对人类而言可能微不足道或无法察觉),导致机器学习模型做出错误判断或行为。
间接提示注入(IPI - Indirect Prompt Injection) 一种攻击方式,攻击者将恶意指令隐藏在模型可能会摄取的不受信任的外部数据源中(如网页、邮件),从而劫持模型的行为,使其偏离原有目标。
红队测试(Red Teaming) 一种模拟攻击行为的安全评估方法,通过从攻击者视角寻找并利用系统的弱点,来检验系统的防御能力。
自动化红队(Automated Red Teaming) 使用专门的 AI 模型(如 Shade)来自动化地寻找目标模型的漏洞,比人类红队更快、更高效。
灰天鹅(Gray Swan) 相对于不可预测的“黑天鹅事件”,指那些虽然不常发生,但人们基于现有迹象可以清晰预见其到来的高风险事件。Gray Swan 也是一家AI安全公司的名字。
致命三要素(Lethal Trifecta) 由 Simon Willison 提出的概念,指构成严重 AI 安全风险的三大要素:1)从不可信来源摄取数据;2)有权访问私密内部信息;3)有能力将数据外泄。
评估意识(Eval Awareness) 指 AI 模型能够意识到自己正处于评估或测试环境中,并可能因此调整自己的行为,导致评估结果失真。
沙包策略(Sandbagging) 指模型故意在评估中隐藏其真实能力(表现得比实际更差),以避免引起部署者的警惕或触发某些安全审查。
能力激发(Capability Elicitation) 通过各种技术手段(常常带有对抗性),促使一个 AI 模型展现出其真实拥有的、但可能未在默认提示下表现出的最大能力。
计算机使用代理(Computer-Use Agent) 一种能够像人类一样直接操作计算机的 AI 代理,例如移动鼠标、点击按钮、使用键盘和浏览器等。这带来了巨大的安全攻击面。
Mythos Anthropic 公司的一个前沿模型。在本集中作为评估间接提示注入安全性的案例被提及。
OpenClaw 一个能让 AI 代理广泛连接各种工具和插件的开源框架,因其强大的功能性和潜在的安全风险而被重点讨论。

延伸思考

  1. “自动化AI安全研究”的可行性:Zico Kolter 提出用 AI 智能体自动化 AI 科学(如机械可解释性)的研究。这会是解决 AI 安全“黑盒”问题的终极答案,还是会引入另一个我们无法理解的递归式复杂系统?
  2. “继承权限”模式的巨大风险:当前普遍默认让 AI 代理继承用户全部权限的做法无疑是灾难性的。在“代理原生身份”标准确立之前,开发者和管理员应该立即采取哪些最小权限原则来紧急避险?
  3. 人类式疲劳与 AI 安全防护的冲突:Matt Fredrikson 提出的“人会因频繁弹窗而变得麻木,无脑点击同意”的观点非常深刻,这几乎是所有安全防护措施的阿喀琉斯之踵。专门针对 AI 代理的防护栏(如 Cygnal)能否设计得比面向人类的防护系统更有效?或者同样会陷入新的“代理式疲劳”悖论?
  4. 寻找“AI 界的 SOC 2 审计员”:Zico Kolter 尖锐地指出了 SOC 2 审计员(多为会计师而非安全专家)的问题。如果要为一个关键任务 AI 系统建立合规框架,谁有资格和能力来当这个“审计员”?是懂技术的律师,还是懂法律的工程师?这个角色目前完全缺位。

原文发表:Jun 22, 2026  ·  纪要生成:2026-06-23