来源: YouTube | Gus Martins & Ian Ballantyne | Jun 10, 2026 播客: AI Engineer 分类: Google DeepMind 原文发表: Jun 10, 2026 纪要生成: 2026-06-11
Gus Martins 和 Ian Ballantyne 均来自 Google DeepMind,负责 Gemma 开放模型产品。本次演讲在 Google 年度技术大会上,于 Gemma 4 正式发布(上星期四)之后进行。两位嘉宾分享了下一代开放权重模型(Gemma 4)的突破性技术细节,并深入探讨了在 Agent 工作流、主权机构隐私保护及端侧部署需求日益增长的背景下,模型“所有权”对于企业、开发者甚至是国家的关键战略意义。Ian 还在现场演示了在 Mac 笔记本和手机上本地运行 Gemma 4 执行复杂多 Agent 翻译任务的能力。
本节重点
详细精要
这些场景使得即使是最好的专有模型也无法直接提供帮助。
Gemma 填补所有权缺口
Gus 强调:“你不一定需要地球上最智能的模型来总结邮件、完成一些日常任务、辅助编码或进行搜索与文档交互的 Agent 能力。”
成本差异与硬件需求
💬 精华片段(中文)
“Do you need the most intelligent model of the planet to summarize your mail, to do some more minial tasks, to help you code, to do some agentic capabilities...? Probably not. That's why these models are so strong because they're cheaper.”
“你真的需要地球上最智能的模型来总结邮件、处理一些琐事、辅助编码或做一些 Agent 任务吗?大概不用。这就是这些模型强大的原因——因为性价比极高。”
本节重点
详细精要
这样做的核心意义在于能在 Pixel 手机 或市场上任何主流手机上流畅运行高质量的文本、视觉、音频理解模型(仅文本输出),同时支持思考链、编码和函数调用。
桌面与服务器的中大型模型
Gemma 4 31B:作为 Dense 模型 是最强旗舰,拥有 310 亿密集参数。
令人震撼的智能密度
💬 精华片段(中文)
“Both of them have a text, vision and audio input... They can do thinking, they can do coding, function calling, all this kind of cool things. This all running on your phone right now.”
“这两款(E2B/E4B)均支持文本、视觉和音频输入……它们能思考、编程、执行函数调用,诸如此类酷炫功能。而且这一切现在就能在你的手机上运行。”
本节重点
详细精要
Gus 将概念从“所有权”提升至 主权。用户不仅拥有模型,还能深度适配特定应用场景。关键的是,主权意味着不会受到 服务中断 的影响,也不会被平台单方面通过 API 禁用模型使用权。
许可协议的飞跃:Apache 2.0
为了打破这一阻碍 主权机构 采用的壁垒,Gemma 4 及未来的所有模型均迁移至公认的标准开源协议 —— Apache 2.0。现场响起了掌声,因为这消除了法律部门对使用本地模型的顾虑。
国家级应用案例
这些案例展示了开放模型对非英语母语国家构建数字主权的关键推力。
微调的悖论
💬 精华片段(中文)
“If you have a custom license... your lawyers will look at me with that face that I hate you, Gus... That never works. That's why we move to Apache 2.0.”
“如果你有一个自定义许可证……你的律师会用那种‘我恨你’的眼神看着我……那从来就行不通。这就是为什么我们要转向 Apache 2.0 许可。”
本节重点
详细精要
随着 AI 承担更多具备 Agent 能力 的工作负载(如处理文档、分析数据、研究、编程),Token 生成成本激增,这使得模型所有权带来的固定成本优势极为明显。
任务匹配的四条黄金基准
Ian 阐述了选用模型时的决策逻辑,不应仅看最强与否,而应形成一套新的 阈值评估体系:
编程领域的本地部署优势
可以顺畅地将大部分繁琐、高耗时的代码工作卸载到 单卡 GPU 或者个人硬件上完成。
使用成本的形态转换:从 Token 到能源
💬 精华片段(中文)
“Whereas we're not paying for the price of these agents or models within tokens, we're actually paying for them in terms of energy costs.”
“我们不再是以 Token 为单位来为这些 Agent 或模型付费,取而代之的,是真正开始为其背后的‘能源成本’买单。”
本节重点
详细精要
举例已高度定制的 MedGemma(医学版 Gemma)可运行于一至两块 GPU,依靠严格的本地私有数据,去支撑“一整家医院”的场景。该例有力地说明所有权模型对于敏感数据处理穿透性的保障。
演示:AI 手机的技能觉醒
该体验已触手可及:观众可直接在 Google AI Gallery 的 iOS 及 Android 应用中下载尝试。
桌面级本地联动实践
💬 精华片段(中文)
“You can imagine doing any kind of agentic task on your local machine... It could have it processing files, doing additional analysis.”
“你可以大胆设想,在你的本地机器上进行任何种类的 Agent 任务……让它处理文件或者进行更多分析。”
本节重点
详细精要
model 字段改成对应的 Gemma 名称,0 修改逻辑 即可运行。他建议所有开发者第一个动作:直接把它放进自己的旧有工作流,观察它在哪些具体任务上处理得好、哪些复杂度稍欠(力不从心)、哪些特性需要进一步调优。
完善自有评测基准
因此构建并丰富自己的评测套件是与模型磨合中的必须工作。
计算和维护的隐藏成本
对移动端而言,情况更复杂,要回答一系列现实问题:App 支持哪种 硬件加速器、用户的手机运行内存有多大。付出这一部分工程复杂性后,换来的是 完全离线 或 用户本地数据隐私绝对安全 的巨大场景解锁。
对未来的召唤
| 术语 | 解释 |
|---|---|
| Gemma | Google DeepMind 推出的开放权重系列模型,旨在通过让用户本地运行和微调来实现对 AI 模型的所有权和主权,最新版为 Gemma 4。 |
| Gemini | Google 另一系列性能最强的闭源多模态模型,通过云端 API 提供给用户,代表 Google 的顶级智能能力。 |
| Gemma 4 | 该系列最新模型家族,包括四款支持长上下文、多模态输入的模型,使用 Apache 2.0 许可。 |
| E2B / E4B | Gemma 4 专为移动端和 IoT 定制的轻量型号;“E”代表 Effective,通过将部分词表参数存于低带宽内存,让手机可流畅运行远大于常规 2B/4B 参数量的模型。 |
| MoE(混合专家) | 一种模型架构,由多个小型专家网络构成,每次推理只激活部分参数。Gemma 4 26B 虽是 260 亿总参数,但推理时仅激活约 4B 参数量,能极大降低对计算显存的需求。 |
| Dense | 经典 Transformer 架构,推理时会激活全部参数。Gemma 4 的 31B 就是 Dense 模型,提供最高智能密度。 |
| Apache 2.0 | 一种被业界广泛接受的开源软件许可协议,允许商业使用、修改和分发,无过多附加限制。Gemma 借此消除了法律审查大山的门槛。 |
| ELO 评分 | 用于计算大语言模型 Chatbot Arena 排行榜上的相对竞技能力分数,基于人类用户的盲测偏好得出。 |
| LM Studio | 一个流行的桌面应用,允许用户从界面下载并本地运行各类开源大模型,并开放兼容 API 给第三方应用。 |
| Agent / Agentic | 指能分解目标、自主规划、使用工具(如搜索、代码、其他 App)并执行多步复杂动作的 AI 系统。演讲强调了本地化 Agent 的低成本与高隐私优势。 |
| MedGemma | 通用 Gemma 模型在专有医疗数据上微调的衍生版本,专门针对医疗应用场景,适合处理高敏感医疗数据且用户可完全掌控。 |