主权逃逸速度：通过开放模型实现所有权 —— Gus Martins & Ian Ballantyne，Google DeepMind

来源： YouTube | Gus Martins & Ian Ballantyne | Jun 10, 2026 播客： AI Engineer 分类： Google DeepMind 原文发表： Jun 10, 2026 纪要生成： 2026-06-11

全集重点

Gemma 4 模型家族发布：Google DeepMind 推出四个尺寸的开放模型，以极小的参数量实现了与数倍大小的竞品模型相媲美的性能（ELO 排行榜第4和第7名）。
所有权 vs. 最智能：在需要数据隐私、离线运行、成本控制和自定义微调的场景下，拥有和掌控一个足够好的开放模型，比单纯依赖最强大的专有云端 API 更为重要，Gemini 与 Gemma 形成互补。
主权与许可突破：模型采用 Apache 2.0 许可证，彻底消除了企业和主权机构因自定义许可证带来的法律审查障碍，加速了各国家级 AI 应用的落地。
智能密度与硬件民主化：E2B/E4B 型号可在手机上运行，26B MoE 和 31B Dense 模型仅需一块消费级 GPU 即可部署，将推理成本（能耗和硬件）降低了数倍，使其能应用于从手机到企业私有云的全场景。
端侧与Agent的权衡转变：当模型能本地运行时，成本计算从“按 Token 付费”转向管理硬件利用率、延迟和能耗，尤其适合高 Token 消耗的编程、Agent 和多步骤推理任务。

嘉宾/话题简介

Gus Martins 和 Ian Ballantyne 均来自 Google DeepMind，负责 Gemma 开放模型产品。本次演讲在 Google 年度技术大会上，于 Gemma 4 正式发布（上星期四）之后进行。两位嘉宾分享了下一代开放权重模型（Gemma 4）的突破性技术细节，并深入探讨了在 Agent 工作流、主权机构隐私保护及端侧部署需求日益增长的背景下，模型“所有权”对于企业、开发者甚至是国家的关键战略意义。Ian 还在现场演示了在 Mac 笔记本和手机上本地运行 Gemma 4 执行复杂多 Agent 翻译任务的能力。

分节详述

[00:00] 模型的双轨战略：Gemini 与 Gemma 的互补逻辑

本节重点

Gemini 虽最强但受限于云端 API，许多场景需要本地所有权。
Gemma 的目标是让用户“拥有模型”，以解决数据隐私、自定义和离线运行问题。
Gemma 与 Gemini 互补：一个负责最高智能，一个负责数据主权和成本控制。
所有权带来的显著优势包括：成本更低、所需硬件更少、可定制化程度更高。

详细精要

为何不只用最强模型？
Gus 指出，职业偏见让他想说 Gemini 是最佳模型，因为它功能强大，拥有令人惊叹的多模态能力。
但现实场景中存在大量限制：用户可能需要将模型运行在 自有硬件 上，对模型进行 自定义微调，处理“无法离开自身基础设施”的 专有数据。
这些场景使得即使是最好的专有模型也无法直接提供帮助。
Gemma 填补所有权缺口
这正是 Gemma 存在的价值。当用户需要比通过 API 访问更高的 控制权和访问权 时，就需要开放模型。
Google 拥有 两个模型系列 的原因是它们互相补充：Gemini 是最智能的，托管在 Google 服务器上；Gemma 则让用户在高质量和能力强大之间找到完美结合，允许用户掌控一切。
Gus 强调：“你不一定需要地球上最智能的模型来总结邮件、完成一些日常任务、辅助编码或进行搜索与文档交互的 Agent 能力。”
成本差异与硬件需求
运行成本天差地别：一个 31B 模型 仅需一块 GPU 即可运行，而竞品模型可能需要 200GB 显存，堆叠四到五块昂贵的 GPU。
这种定价差异使得在粗略部署场景下，Gemma 对于企业构建 AI 服务应用具有巨大的商业优势。

💬 精华片段（中文）

“Do you need the most intelligent model of the planet to summarize your mail, to do some more minial tasks, to help you code, to do some agentic capabilities...? Probably not. That's why these models are so strong because they're cheaper.”

“你真的需要地球上最智能的模型来总结邮件、处理一些琐事、辅助编码或做一些 Agent 任务吗？大概不用。这就是这些模型强大的原因——因为性价比极高。”

[02:03] Gemma 4 模型矩阵详解：手机到服务器的全覆盖

本节重点

发布四款新模型：E2B 和 E4B 用于移动/IoT，26B MoE 和 31B Dense 用于桌面和服务器。
“E”系列代表“有效”（Effective），通过内存映射技术让手机能运行超大词表的模型。
26B MoE 模型以类似4B模型的推理开销运行，31B 作为 Dense 模型是该系列质量最高的存在。
模型均具备文本、视觉、音频输入能力和高级编程及函数调用。

详细精要

移动端与 IoT 专属的 “E” 系列模型
针对 移动端 或 IoT 等小型设备，发布了 E2B 和 E4B 两款模型。“E”代表 Effective（有效/等效），这是 DeepMind 独特的命名方式。
这两个模型看似反常：2B 模型 实际对应约 5B 参数，4B 模型 则更大。然而占用显存的部分仅包含真正的 2B 或 4B Transformer 参数。
剩余的约 3B 参数量 主要是词表映射（Token Mapping）权重，可以驻留在廉价、低速的次一级内存中，而非昂贵的 GPU HBM。
这样做的核心意义在于能在 Pixel 手机 或市场上任何主流手机上流畅运行高质量的文本、视觉、音频理解模型（仅文本输出），同时支持思考链、编码和函数调用。
桌面与服务器的中大型模型
Gemma 4 26B：该模型采用 混合专家（Mixture of Experts, MoE） 架构。它的总参数量高达 260 亿，但由于内部由多个专家子模型（每个约为 4B 规模）协同运作，推理时的计算量仅相当于一个对内存占用起决定性作用的 4 亿级模型。
这种设计大大拓宽了高智能模型的硬件可达性，让更多普通开发者能使用它。
Gemma 4 31B：作为 Dense 模型 是最强旗舰，拥有 310 亿密集参数。
令人震撼的智能密度
根据 LM Marina 排行榜的 ELO 评分，Gemma 4 的模型目前分别位列 第四名和第七名。
这是一个极其亮眼的数据：与前 20 到 30 名 的各类大模型相比，Gemma 4 通常只有竞品的 一半甚至三分之一 大小，部分竞品比它大 20 倍。
Gus 指出，这表明 Gemma 4 拥有极不成比例的“每参数智能量”。31B 模型 完全能胜任从编程到多语言交互的所有常见应用，用户稍后便可在 ai.dev 上免费体验其视觉+思考+代码执行同步进行的强大能力。

💬 精华片段（中文）

“Both of them have a text, vision and audio input... They can do thinking, they can do coding, function calling, all this kind of cool things. This all running on your phone right now.”

“这两款（E2B/E4B）均支持文本、视觉和音频输入……它们能思考、编程、执行函数调用，诸如此类酷炫功能。而且这一切现在就能在你的手机上运行。”

[07:09] 从所有权到主权：Apache 2.0 协议的国家级影响

本节重点

开源不仅是所有权，更是“主权”：用户不受限于服务中断、使用禁令。
将专属 Gemma 许可转向标准的 Apache 2.0，解决了法律与采购流程中的最大痛点。
已在国家层面得到应用，帮助乌克兰、保加利亚、巴西等构建本土化大语言模型。
直接微调极强能力的模型本身存在技术挑战，有时可能得不偿失。

详细精要

主权（Sovereignty）的真正定义
Gus 将概念从“所有权”提升至主权。用户不仅拥有模型，还能深度适配特定应用场景。关键的是，主权意味着不会受到 服务中断 的影响，也不会被平台单方面通过 API 禁用模型使用权。
许可协议的飞跃：Apache 2.0
过去，Gemma 拥有自定义的商业友好型许可证，但这给企业和政府机构带来了巨大麻烦。律师会对此投来“仇恨的目光”，导致长达 18 个月 的采购流程和法律审查，并尝试修改条款，往往陷入僵局。
为了打破这一阻碍 主权机构 采用的壁垒，Gemma 4 及未来的所有模型均迁移至公认的标准开源协议 —— Apache 2.0。现场响起了掌声，因为这消除了法律部门对使用本地模型的顾虑。
国家级应用案例
乌克兰：使用 Gemma 辅助其部分政府服务。
保加利亚：该国拥有一个基于 Gemma 2 微调的专有语言版本，作为国家的 本土大语言模型（LLM），正计划升级到 Gemma 4。
巴西：有基于 Gemma 3 微调的葡萄牙语版本，服务于巴西本地。
这些案例展示了开放模型对非英语母语国家构建数字主权的关键推力。
微调的悖论
Gus 分享了一个“技术内幕”：现在微调 Gemma 实现特定语种专长变得比以前更难。难点不在于工具，而在于基础模型本身已经极强，在众多语言上名列 前两三名。花数月时间进行微调可能只能提升 1% 的性能，投入产出比并不划算。这既是好事（开箱即用多语言极强），也是进一步专精化时的甜蜜烦恼。

💬 精华片段（中文）

“If you have a custom license... your lawyers will look at me with that face that I hate you, Gus... That never works. That's why we move to Apache 2.0.”

“如果你有一个自定义许可证……你的律师会用那种‘我恨你’的眼神看着我……那从来就行不通。这就是为什么我们要转向 Apache 2.0 许可。”

[09:32] 新思维框架：所有权下的成本、延迟与 Agent 负载

本节重点

Agent 工作负载增加了 Token 消耗，本地部署能绑定固定硬件成本以应对。
模型选择的核心在于任务标准：能力匹配、硬件适配、延迟敏感度及成本结构。
开源模型允许开发者从“按调用付费”转向对已有的、沉没的硬件进行管理。
Gemma 尤其擅长精准遵循指令的编程任务，如重构、分析和模块化代码生成。

详细精要

Agent 带来的 Token 生成量爆炸
Ian 通过 Open Router 的行业报告指出，编程（Programming） 这类任务已跃居所有任务的大模型请求中间地带，且是输入输出 Token 总和 最大的任务类型之一。
随着 AI 承担更多具备 Agent 能力 的工作负载（如处理文档、分析数据、研究、编程），Token 生成成本激增，这使得模型所有权带来的固定成本优势极为明显。
任务匹配的四条黄金基准
Ian 阐述了选用模型时的决策逻辑，不应仅看最强与否，而应形成一套新的 阈值评估体系：
1. 任务复杂度阈值：模型是否有足够的智力完成特定指令？
2. 硬件匹配度阈值：该模型能否刚好装入某个特定 GPU 或手机内存？
3. 延迟阈值：如果是实时用户交互（如拍照回答），必须在 几秒内 响应；如果是离线批量处理，标准则可适当放宽。
4. 成本结构阈值：是从自己的闲置算力、租赁的 GPU，还是完全依赖云端 API 更划算？
编程领域的本地部署优势
Ian 补充指出，Gemma 既不是为了替代顶尖模型进行全盘系统架构重写，但在精准遵循超长、复杂的指令，进行 重构、分析，以及 模块化代码生成 这种任务中表现非常出色。
可以顺畅地将大部分繁琐、高耗时的代码工作卸载到 单卡 GPU 或者个人硬件上完成。
使用成本的形态转换：从 Token 到能源
当模型移植到了本地设备后，花费关注的重心就此改变。不再是为 API 提供商支付 Token 账单，而是管理 GPU 利用率 和 电量消耗。
执行时机此时成了新变量：有的任务需要马上处理（接收用户照片），有的则能设为夜间手机充电时才启动的后台任务。这彻底改变了对大模型使用策略的思考方式。

💬 精华片段（中文）

“Whereas we're not paying for the price of these agents or models within tokens, we're actually paying for them in terms of energy costs.”

“我们不再是以 Token 为单位来为这些 Agent 或模型付费，取而代之的，是真正开始为其背后的‘能源成本’买单。”

[14:35] 企业级部署与现场演示：当模型学会使用 App

本节重点

企业部署从多卡平台下移至一块 H100，直接推高 ROI。
可微调的专用版本（如 MedGemma）能在一两块 GPU 上稳妥处理一家医院这类高隐私数据。
现场演示 Coremax 团队开发的移动端 Agent 应用，模型在手机上将动作推理并调用正常 App。
通过 LM Studio 顺利完成本地复杂多 Agent 翻译任务。

详细精要

企业硬件需求的“降维打击”
替代一个 300B+ 的超级闭源模型，以往可能需要动用多张 GPU 集群才能流畅推理。
现在仅靠一张 H100、A100，甚至在低配的 L4 即可完成许多现实场景下的 AI 支撑。面向一个“小型团队”甚至中型公司，低成本效益显著。
举例已高度定制的 MedGemma（医学版 Gemma）可运行于一至两块 GPU，依靠严格的本地私有数据，去支撑“一整家医院”的场景。该例有力地说明所有权模型对于敏感数据处理穿透性的保障。
演示：AI 手机的技能觉醒
Ian 播放了由 Coremax 团队 构建的原型应用。该应用定义了一系列 Agent 技能。一个大约 2B 参数 的 Gemma 4 在手机本地运行，接收视频与音频流。
核心不同：新版模型能够极其稳定地 推理每一步所需的行动，直接调用手机内类似日历、地图等 App 的技能合集，甚至支持自定义技能。
该体验已触手可及：观众可直接在 Google AI Gallery 的 iOS 及 Android 应用中下载尝试。
桌面级本地联动实践
Ian 打开 LM Studio 加载 26B MoE 模型。24GB 左右的显存占用，在一台高配 M4 Mac（48G 统一内存）便顺滑地启动了。
他编写了一个 编排器，下达指令：将一段 Gemma 4 公告 同时翻译为数种不同的语言。窗口内迅速分解为多个 Agent，其中每个子 Agent 都分别负责一种语言的翻译任务，且全部并行执行于本地。
任务最后，他还让模型自动生成一个网页，将刚翻译的结果全数可视化展示出来，充分展现了模型先进的多语言能力和小型任务编排的可靠性。

💬 精华片段（中文）

“You can imagine doing any kind of agentic task on your local machine... It could have it processing files, doing additional analysis.”

“你可以大胆设想，在你的本地机器上进行任何种类的 Agent 任务……让它处理文件或者进行更多分析。”

[16:09] 快速上手指南：将 Gemma 集成进你的工作流

本节重点

极简易的 API 切换：只需更改模型名，即可将现有工作流指向 Gemma。
建议将 Gemma 放置于自有应用的测试工作负载中来检验其真实能力。
在终端部署时需纳入维护、硬件兼容性等持续性成本评估。
离线处理与私有数据不离开设备是端侧算力的杀手锏。

详细精要

一行代码不改的迁移
Ian 提供了现场最容易执行的落地行动方案。如果之前采用的是任何兼容 OpenAI API 接口 的服务（例如 Ollama 或 LM Studio），只需将代码中模型服务的指向点和 model 字段改成对应的 Gemma 名称，0 修改逻辑 即可运行。
他建议所有开发者第一个动作：直接把它放进自己的旧有工作流，观察它在哪些具体任务上处理得好、哪些复杂度稍欠（力不从心）、哪些特性需要进一步调优。
完善自有评测基准
永远不要只依赖学术公共基准。Ian 特别强调，模型表现好坏 的终极评判来自它在你分配的业务和任务中的准确度。
因此构建并丰富自己的评测套件是与模型磨合中的必须工作。
计算和维护的隐藏成本
当决定自建 GPU 服务器部署模型，就拥有了 正常运行时间 的控制权，但这意味着开发团队需要自己承担 运维的持续成本（如硬件故障、框架更新）。需要考虑前期的资本支出与后期运维费用的比例。
对移动端而言，情况更复杂，要回答一系列现实问题：App 支持哪种 硬件加速器、用户的手机运行内存有多大。付出这一部分工程复杂性后，换来的是 完全离线 或 用户本地数据隐私绝对安全 的巨大场景解锁。
对未来的召唤
Ian 最后总结，大家能用这些模型所做的事情完全取决于想象力，无论是微调还是定制 Agent，DeepMind 期望能听到更多社区的真实反馈，与用户共同完善这一主权开源路线的旅程。

专业术语注释

术语	解释
Gemma	Google DeepMind 推出的开放权重系列模型，旨在通过让用户本地运行和微调来实现对 AI 模型的所有权和主权，最新版为 Gemma 4。
Gemini	Google 另一系列性能最强的闭源多模态模型，通过云端 API 提供给用户，代表 Google 的顶级智能能力。
Gemma 4	该系列最新模型家族，包括四款支持长上下文、多模态输入的模型，使用 Apache 2.0 许可。
E2B / E4B	Gemma 4 专为移动端和 IoT 定制的轻量型号；“E”代表 Effective，通过将部分词表参数存于低带宽内存，让手机可流畅运行远大于常规 2B/4B 参数量的模型。
MoE（混合专家）	一种模型架构，由多个小型专家网络构成，每次推理只激活部分参数。Gemma 4 26B 虽是 260 亿总参数，但推理时仅激活约 4B 参数量，能极大降低对计算显存的需求。
Dense	经典 Transformer 架构，推理时会激活全部参数。Gemma 4 的 31B 就是 Dense 模型，提供最高智能密度。
Apache 2.0	一种被业界广泛接受的开源软件许可协议，允许商业使用、修改和分发，无过多附加限制。Gemma 借此消除了法律审查大山的门槛。
ELO 评分	用于计算大语言模型 Chatbot Arena 排行榜上的相对竞技能力分数，基于人类用户的盲测偏好得出。
LM Studio	一个流行的桌面应用，允许用户从界面下载并本地运行各类开源大模型，并开放兼容 API 给第三方应用。
Agent / Agentic	指能分解目标、自主规划、使用工具（如搜索、代码、其他 App）并执行多步复杂动作的 AI 系统。演讲强调了本地化 Agent 的低成本与高隐私优势。
MedGemma	通用 Gemma 模型在专有医疗数据上微调的衍生版本，专门针对医疗应用场景，适合处理高敏感医疗数据且用户可完全掌控。

延伸思考

性能饱和下的微调困境：当基础通识模型已经极其擅长多语言和推理时，针对某一子领域的微调可能需要极大算力才能获得微小回报，这是否意味着特定垂域的传统全参微调将被提示工程、RAG和智能体技能组合所取代？
主权 AI 的未来形态：随着保加利亚、巴西等国家采用开源模型构建国家 LLM，这种模式是否会形成政府层面的“模型联盟”，共同分担微调、评测和对齐的数据成本，从而进一步缩小与超级大厂的语言与能力鸿沟？
Agent 调用的能源经济：如果推理成本从 Token 转向了本地电能消耗，未来操作系统的任务调度器是否需要像管理 CPU 负载一样管理 AI 模型的运行，例如在电价低/碳排放低的时段自动调度非紧急的大语言模型 Agent 任务？

原文发表：Jun 10, 2026 · 纪要生成：2026-06-11