原生多模态语言模型：构建哲学、架构与未来挑战

来源： YouTube (Stanford CS25) | 嘉宾： Victoria Lin (Thinking Machines Lab) | 日期： 2026-06-04 播客： Stanford Online 分类： 其他 原文发表： Jun 04, 2026 纪要生成： 2026-06-22

全集重点

[原生多模态的定义与优势]：通过跨模态统一分词与自回归生成，将LLM的提示、推理与 Scaling Law 等能力迁移至多模态领域
[Omni 模型的架构演进]：从离散分词（Chameleon），到统一自回归与扩散（Transfusion），再到模态特化参数（混合Transformer/MoT），逐步解决图像生成的质量与效率瓶颈
[模态分离的关键发现]：图像理解与图像生成至今难以用同一套表征统一，混合Transformer 和 BAGEL 等工作证明为生成任务分配独立参数效果更佳
[生成→理解的迁移困境]：更強的图像/视频的生成能力，目前并未被证明能给下游带来更好的纯文本/知识工作/理解能力的正向迁移
[语言作为推理骨架]：语言是高度压缩的人类认知抽象，这使得目前基于纯视觉信号的推理远比基于语言的推理困难，且目前多为少文本做骨架来辅助视觉推理

嘉宾/话题简介

本集嘉宾 Victoria Lin 是 Thinking Machines Lab 的技术团队成员，专注于原生多模态智能。此前她曾在 Meta AI 和 Salesforce AI Research 担任研究科学家，并于华盛顿大学获得博士学位。

本集讲座围绕“原生多模态语言模型”展开，系统梳理了如何借鉴大语言模型的成功范式来构建能同时处理文本、图像、音频甚至视频的单一模型。Victoria 详细探讨了 Omni 模型（支持多模态输入与输出）的几种关键架构，包括 Chameleon、Transfusion 和混合Transformer，并深入分析了多模态智能在表征统一、模型 Scaling 以及生成与理解能力迁移等方面的核心挑战与未来方向。

分节详述

00:00 开场与多模态必要性

本节重点

大语言模型（LLM）的突破主要基于对符号化信息的下一个 Token 预测
纯语言建模的局限性在于，数字与物理世界充斥着图像、音频、视频等多模态信息
构建能与物理世界实时交互的 AI 系统必须解决多模态信息处理问题

详细精要

LLM 的成功范式：当前的 LLM 基于 Transformer 架构，通过预测词汇分布上的下一个 Token 进行训练。
利用大量跨领域语料训练后，模型会涌现出获取海量知识、遵循指令、思维链推理以及规划解决复杂任务的能力。
这是当前 AI 能力的基石，但其输入输出仅限于符号化的文本。
纯文本建模的局限与多模态的必然性：仅仅依靠语言建模不足以覆盖人类的全部需求。
我们日常接触的数字世界（如互联网）和所处的物理世界，都充满了图像、音频和视频等不同模态的信息流。
若要构建能实时与物理世界互动的 AI（如机器人），就必须处理这些多模态信号。目标是建立不仅能处理符号知识，还能无缝理解视觉与听觉信息的 AI 系统。
当前业界前沿的许多模型已宣称是“原生多模态”的，能够展现出在图像/视频理解、视觉代码生成等任务上的惊人能力。

💬 精华片段（中文）

"Both the digital world we deal with every day and also the physical world we live in, they are actually filled with information coming from different modalities. Like images, audio, video." "我们每天打交道的数字世界和我们所居住的物理世界，其实都充满了来自不同模态的信息，比如图像、音频和视频。"

04:10 原生多模态语言模型的构建理念：统一分词与自回归

本节重点

核心思想是将多模态信息（图像、音频、视频）全部转换为 Transformer 可处理的 Token 序列
图像通过“Patch化”分为固定大小的块（如16x16像素），再经编码器转换为向量表示（Token）
音频通过波形变换后进行 Token 化；视频被视为连续的图像序列，逐帧 Patch 化并串联
这种“跨模态统一分词”使得我们可以复用 LLM 的训练范式

详细精要

类比 LLM 的全局架构：理解现代多模态模型的最佳方式，是将其视作对 LLM 的延伸。
其核心是跨模态分词，无论输入是图像、视频还是音频，都设法将其转换为 Transformer 可以处理的 Token 信息流。
在此基础上，执行与 LLM 类似的全局自回归生成建模。
多模态信息的 Token 化策略：
文本：沿用 LLM 的方法，使用字节对编码将文本切分成子词 Token。
图像：采用 Patch化 操作，将图像分割为固定尺寸（如 16x16 像素）的小块。随后用编码器处理这些图像块，得到向量表征，再将它们序列化，生成图像 Token。这里的 Token 可以是连续的稠密向量（Dense Vectors），不一定是离散的。
音频：对输入波形进行变换操作（Transforms），再将生成的表征进行 Token 化，从而得到音频 Token。
视频：视频可被视为图像序列。对视频的每一帧进行类似的 Patch 化，然后将整个视频序列中所有图像的所有块串联起来，最终将整段视频表示为一串 Token 序列。

💬 精华片段（中文）

"So the state of the art multimodal language model architecture is really performing tokenization across the board... So basically, we can divide this image into small parts... When I say tokens, they are not necessarily discrete tokens." "最先进的多模态语言模型架构的核心，实际上是进行全面的分词化……我们可以把图像切分成小块……我说的 Token，不一定是离散的 Token。"

07:25 多模态模型的两大范式：多模态输入模型 vs Omni 模型

本节重点

类型一：多模态输入，纯文本输出，擅长多模态理解与问答（如 Gemini、Qwen、Kimi），计算损失时只考虑文本 Token
类型二：Omni 模型，即支持多模态输入与输出，能生成图像、音频和文本（如 GPT-4o）
统一分词范式带来的四大优势：可提示/遵循指令、获得规划与推理能力、LLM 的 Scaling Law 可迁移、优化技术可复用

详细精要

两大模型分类：
多模态输入模型：仅接受混合模态（如图像+文本）输入，但输出纯文本。训练时仅在文本 Token 上计算损失，这足以诱导出强大的多模态理解能力。用户熟悉的 Gemini、Qwen、Kimi 等产品的核心版本多工作于此模式。
Omni 模型：不仅接受多模态输入，还能生成多模态输出，是真正的“全能”模型。例如 GPT-4o（o 代表 Omni），它具备直接生成图像的能力。
复用 LLM 技术范式的四大益处：
提示与指令遵循能力：可以构建包含图像的混合模态提示，引导模型解决复杂的多模态任务。
规划与推理能力：模型能将推理能力扩展到多模态信息上，进行基于多模态信息的规划和推理。
Scaling 法则的可迁移性：LLM 中“扩大数据与模型规模可提升性能”的正确学习（Positive Learnings）在多模态领域同样适用，随着参数和训练数据增加，性能持续变好，并可能涌现新能力。
架构与效率优化可复用：LLM 领域的许多架构 Scaling 和效率提升技术，如专家混合及其变体，可以直接应用于多模态模型以获得更好的性能。

💬 精华片段（中文）

"So first, by designing such architectures, this allows us to build multimodal models, which is able to allow us to conduct prompting and instruction following... This model will also acquire planning and reasoning capabilities." "首先，通过设计这样的架构，我们能构建支持提示和指令跟随的多模态模型……这些模型也会获得规划和推理的能力。"

11:41 Omni 模型的架构演进（一）：Chameleon —— 完全离散化的尝试

本节重点

Chameleon 系列模型的核心假设：将所有模态都转化为离散 Token，从而完全复用 LLM 的无损交叉熵训练范式
图像离散化的实现方式：在 Patch 编码后接入一个向量码本，将图像块的稠密嵌入映射为码本中最接近的离散索引，即 VQ-VAE 技术
成就：首次展示了从头训练的、交错文本-图像序列能涌现多模态能力，同时保持强文本能力
局限：离散化导致严重的图像信息损失（理解性能不佳），且生成高质量图像需要极大的训练 Token 和预算，Token 效率低下

详细精要

Chameleon 的极简哲学：核心问题是“能否将每一种模态都简单地 Token 化为离散符号？”。
如果成功，意味着我们可以将整个多模态世界建模成一串离散 Token，从而将 LLM 的大量特性完美迁移到多模态领域。
实现图像离散化的关键是在 Patch 化和连续编码后，引入一个学得的向量码本。通过将图像块的嵌入与码本匹配，找到每个块最接近的离散索引，从而将图像表示为一串整数序列。
训练方式与成就：
通过 VQ-VAE 技术离散化图像后，将其与文本 Token 交错的序列，应用标准的交叉熵语言模型训练目标。
成果显示该模型能按任意顺序生成交错的文本和图像，也能像 LLM 一样通过混合模态提示进行多任务处理，如聊天、头脑风暴、图像比较等。
这是最早一批证明“从头训练交错文本-图像序列可以诱导出多模态能力并保持强大纯文本性能”的模型。
离散化的显著缺陷：
信息损失导致理解能力下降：在图像理解任务上，离散化相比使用连续表征（如 SigLIP）的当代多模态模型，存在显著的性能差距。
生成效率低下：在图像生成侧，直接离散化并生成图像在 Token 效率上面临巨大挑战，模型需要海量数据训练才能采样出结构完好的图像。维多利亚总结道，对图像信息进行完全离散化的假设可能过于强了。

💬 精华片段（中文）

"So in summary, Chameleon presented a very interesting paradigm where we can train text and images interleaved from scratch. But we also found the limitations. Basically the assumption that we can discretize information in the images might be too strong." "总的来说，Chameleon 展现了一个非常有趣的范式，让我们能从头训练交错排列的文本和图像。但我们也发现了它的局限。根本上讲，那种‘我们能对图像中的信息进行离散化’的假设可能太强了。"

16:55 Omni 模型的架构演进（二）：Transfusion —— 统一自回归与扩散

本节重点

Transfusion 旨在克服 Chameleon 的局限性，保留图像的连续表征作为输入，并直接预测
核心创新是：在单一 Transformer 中融合了针对文本的自回归建模和针对图像的扩散建模
图像部分采用多重去噪扩散过程生成，且应用双向注意力机制，显著提升了图像生成质量和 Token 效率
两难困境：扩散生成常用 VAE 表征，它能高效生成图像，但对图像理解任务来说并非高效表征，导致生成与理解难以统一

详细精要

融合生成范式：Transfusion 架构巧妙地解决了离散 Token 生成效率低下的问题。
它采用图像的连续表征，并直接预测这些连续表征。它整合了图像的扩散模型——一种从纯噪声开始，逐步预测并移除噪声直至生成清晰图像的强大方法。
因此，Transfusion 在单一个 Transformer 内完成了两种生成模式的统一：对文本部分执行标准的自回归预测，对图像部分则在一个片段内执行多步扩散操作。模型先生成清晰的图像，再将其作为上下文，自回归地继续生成后续内容。
架构细节与优势：
文本保持因果注意力，而为了更好的生成效果，图像部分应用了双向注意力机制。
实验结果表明，与基于离散 Token 的图像生成相比，Transfusion 能使用少得多的 Token 预算快速生成出质量显著更好的图像，证明了连续扩散表征的高效性。
未解难题：表征的两难：
Transfusion 范式存在一个开放性问题：扩散生成通常采用的 VAE 表征对于图像生成非常高效，但对于图像理解任务来说效率低下。
这造成了 维多利亚 所说的“两难困境”：生成和理解似乎需要不同的图像编码。当前最先进的模型通常采用两类图像编码来分别处理理解和生成，以绕开此矛盾。

💬 精华片段（中文）

"So in summary, so transformation is a first approach, which seamlessly unify autoregressive next token prediction and the diffusion objective for multimodal modeling. It demonstrates a significant better image generation quality and token efficiency." "总的来说，Transfusion 是首个将自回归的下一个 Token 预测和扩散训练目标无缝统一起来进行多模态建模的方法。它在图像生成质量和 Token 效率上展现了显著的提升。"

21:09 Omni 模型架构创新：混合Transformer

本节重点

动机：不同模态的信息密度与数据本质差异巨大，共用一个 Transformer 参数集可能导致模态间的容量竞争，此为“容量竞争”问题
核心思想：为每种模态（如文本、图像、语音）配备独立的 Transformer 参数集，通过确定性路由激活对应的参数
工作原理：在注意力层，使用不同模态的投影矩阵（QKV）进行投影后再做联合注意力；在前馈层，各模态 token 走各自的前馈网络
价值：可以冻结强大的文本模型参数，仅新增并训练图像/语音生成模块，实现异步训练和稳定扩展

详细精要

架构创新的动因：
文本与图像等模态的信息密度和本质各不相同，强迫单一 Transformer 参数集处理所有模态可能产生“容量竞争”，即参数在两种能力间相互冲突，影响 Scaling 效果。
核心问题是：我们是否需要统一的 Transformer 参数，还是可以为每种模态引入专用的参数？
混合Transformer架构详解：
模态特化的参数集：为文本、图像、语音等每种模态分配独立的参数，包括注意力层的 QKV 投影矩阵和整个 前馈网络（FFN）。
确定性路由机制：给定一个交错模态的输入序列，模型根据 Token 的模态确定性地选择激活哪一套参数。文本 Token 走文本参数，图像 Token 走图像参数。
联合注意力与独立前馈：在注意力层，各类 Token 先用各自参数投影后，进入同一个联合注意力计算实现信息融合。但在前馈层，Token 再次分离，各自通过对应模态的前馈网络。
从外部看，这仍是一个标准的 Transformer 单元，但其内部实现了模态特化的处理路径。
架构的灵活性与优势：
该架构可以无缝结合前文提到的 Chameleon（离散自回归）或 Transfusion（文本自回归+图像扩散）的训练目标。
一个重要应用场景是异步训练：可以锁定一个现成的、文本能力极强的基础 LLM，然后仅为其添加用于图像/语音生成的额外参数集，冻结文本参数进行训练，从而在不牺牲原有文本能力的前提下扩展新模态的生成能力，提升了训练的稳定性和可控性。

24:20 混合Transformer 的实验与 Scaling 特性

本节重点

实验设计：进行了从 1.63亿 到 70亿 参数规模的 Scaling Ladder 实验，对比稠密基线（等参数）和等总参数量的 MoE 基线
关键发现：混合Transformer 在不牺牲文本生成性能的前提下，能显著改善非文本模态（如图像）的生成质量
原因分析：非文本模态生成是区别于文本生成的独特能力，参数分离避免了单一 Transformer 内的“容量竞争”
定性结果：混合Transformer 能更好地遵循细粒度指令，生成的对象细节更丰富

详细精要

实验设置与对比基线：
实验训练了从 1.63亿参数到 70亿参数不等的模型，形成一条Scaling Ladder。
由于 混合Transformer 为每种模态分配了独立参数，其总参数量会翻倍。因此，实验设置了两个基线：一个是相同总参数量的稠密模型（有天然劣势），另一个是使用等总参数量的专家混合模型作为更公平的对比。
核心实验结论：
论文证实，混合Transformer 能维持与稠密基线旗鼓相当的文本生成性能。
其真正“闪光点”在于非文本模态生成。实验显示，在图像生成损失和基于采样的图像生成评估指标上，混合Transformer 都远优于稠密基线，展现了更好的 Scaling 行为。
维多利亚对此的解释是：图像生成是一项与文本生成存在本质区别的能力。如果把所有能力都塞进一个 Transformer，它们之间会产生严重的“容量竞争”。而通过分配独立的参数集，每种能力都能得到更好的 Scaling。
定性分析与扩展性：
定性结果显示，混合Transformer 架构在图像生成任务中，能更好地遵循提示中的细粒度指令，生成更精细的对象。
“模态特化参数”的思路还可以与专家混合进一步结合：可以为不同模态分配不同数量的专家。研究发现，为文本增加专家对文本性能提升帮助巨大，但图像生成从增加专家中获得的收益则相对较慢。这为未来定制化多模态架构提供了思路。

💬 精华片段（中文）

"So what it really shines it is able to, without sacrificing the text performance, achieving much better performance, generating non-text modalities such as images... An explanation for this is non-text modality generation is probably something unique compared to text generation. So if we put everything inside a single transformer, there might be severe capacity computation." "它真正的亮点在于，能在不牺牲文本性能的前提下，在图像这类非文本模态生成上取得好得多的性能……一个解释是，非文本模态生成可能是一种有别于文本生成的独特能力。如果我们把所有东西都塞进单个 Transformer 里，可能会产生严重的容量计算（竞争）问题。"

31:49 混合Transformer 的启发与应用：BAGEL 与具身智能

本节重点

BAGEL 模型：继承了 混合Transformer 的模态分离思想，为图像生成设立专用参数，并利用自回归序列的先思考再生成
“先思考后生成”：通过先生成推理文本（思维链），再生成最终图像，能显著提升图像细节的丰富度与准确性
具身智能/机器人应用：机器人的动作预测被视为一种新模态，采用类似 混合Transformer 的架构，用独立的“动作输出头”预测行动指令
基础模型知识迁移：保留 Transformer 的自注意力结构和语言模型基础，使世界知识和语言能力能正向迁移到动作预测中

详细精要

BAGEL：语言模型的思考与图像生成分化：
BAGEL 是一个先进的 Omni 模型，其架构与 混合Transformer 高度相关。它为图像生成设置了独立的参数集，而它的基座模型则是一个能接受图文输入的多模态语言模型。
这再次印证了之前的观点：图像理解和图像生成需要走不同的参数路径，业界尚未找到完美的统一方案。
一个非常有趣的关键能力是“先思考后生成”。由于整个交织序列建模是自回归的，模型可以先生成一段用于思考的文本（思维链），然后再据此生成图像。论文显示，这能让模型生成细节更丰富、信息更准确的图像，这也是当前许多前沿图像生成模型使用的技术。
具身智能与机器人领域的架构共鸣：
混合Transformer 的框架在机器人学习领域获得了意料之外的广泛认同和应用。
在这些应用中，“动作”被视为一种全新的模态。这类模型会像 混合Transformer 一样，引入一套额外的、专用于动作预测的独立参数集（如动作输出头）。
这种设计的优势在于，Transformer 的自注意力机制和基座的语言模型结构能够让基础模型的世界知识和推理能力正向迁移到动作预测任务上，从而做出更好的决策。这是一种利用语言模型智能赋能物理世界交互的有效方式。

💬 精华片段（中文）

"So basically, the paper show that this would allow the models to generate images with much better details. And I think it's also basically thinking before generation is also the technique, which is used by lots of the state of the art image generation models nowadays." "这篇论文表明，这能让模型生成包含更多丰富细节的图像。而且我认为，‘先生成再思考’（此处为口误，应为先思考后生成）也是当今许多最先进的图像生成模型都在使用的技巧。"

35:30 生成与理解之间的鸿沟：正向与零向迁移

本节重点

理解→生成（正向迁移）：强力的基座模型理解能力（信息处理、规划、推理）能显著提升生成图像的质量与细节，并减少错误信息
生成→理解（缺乏迁移）：训练模型进行图像或视频生成，目前几乎没有证据表明这能反过来增强模型在图像/文本理解任务上的表现
Sergey Levine 的洞见：为何 LLM 通过“预测下一个词”能涌现智慧，但视频模型通过“预测下一个视频帧”却远未能获得更强的智能？

详细精要

被证实的一侧：理解助力生成：
构建具有更强理解能力的基座模型，可以赋予其更好的信息处理、规划和推理能力。
这种能力能够正向传递到生成侧，使得 Omni 模型能生成细节更精细、信息更准确，尤其是在生成信息图表时能减少幻觉的作品。
待解之谜：生成难以反哺理解：
相反，如果我们训练一个 Omni 模型去加强其非文本模态的生成能力，并为此投入巨量的 Token 预算，迄今为止的研究并未发现这能显著改善模型的纯理解能力。生成更强，并不意味着理解就更深刻。
维多利亚引用了 UC Berkeley 教授 Sergey Levine 在 Twitter 上提出的一个相关观点作为佐证：LLM 通过下一个词预测能获得惊人能力，但为何我们不能通过“预测下一个视频帧”来让视频模型变得聪明得多？
对此现象的几种初步解释：
语言的抽象本质：语言是高度压缩的人类认知抽象。当模型进行文本预测时，本质上是在学习人类的推理过程和行动暗示。而图像和视频是感官数据，是被动的世界观察，并非主观诠释。
复杂的损失景观：即使图像/视频生成的客观损失值看起来很低，人类看起来效果也可能不佳。这表明为图像和视频设计合适的、与人类感知对齐的损失函数景观比文本更复杂。
信息冗余：现实世界中视频帧之间存在大量冗余信息，单纯的下帧预测任务可能过于简单，无法学到深度表征。
维多利亚强调，这是一个需要时刻铭记的、极其有趣的现象。它说明，虽然我们将 LLM 的经验迁移到多模态领域取得了巨大成功，但这远非终点，多模态模型仍有更根本的问题需要解决。

💬 精华片段（中文）

"So basically, people found that if we build a better understanding capabilities in the base model, so this will allow the model to have much better information processing ability... But on the other hand... There has been little work showing that this has a positive transfer for understanding capability... Language is fundamentally different from the other modalities, because it is a highly compressed abstraction of human cognition." "基本上，人们发现如果在基座模型中建立更强的理解能力，就能让模型有更好的信息处理能力……但在另一方面……很少有工作证明这对理解能力有正向迁移……语言与其它模态有着本质区别，因为它是人类认知的高度压缩抽象。"

39:11 演讲总结与未来展望

本节重点

现状：Omni 模型在数字化的多模态信息处理上表现出色，但当面对真实物理世界时仍存在大量未解问题
技术挑战：时空理解、实时交互、机器人控制等领域尚未被现有范式解决
领域特征：多模态模型是一个远比 LLM 更“未摸清”的活跃研究领域，存在大量开放性问题
短期展望：多模态智能尚难统一，短期内将涌现越来越多为特定垂直领域定制的多模态模型
长期课题：如何将这些定制化的模型整合成一个统一的架构体系，是未来的重大研究方向

详细精要

当前范式的适用范围与局限：
Chameleon、Transfusion、混合Transformer 等 Omni 模型架构，解决了多模态智能中的一部分问题，尤其擅长处理数字化的多模态信息。
然而，当面临真实的、野外的物理世界时，涉及到时空理解、实时交互和机器人操控等任务，现有范式仍有大量尚未解决的难题。人们仍在致力于寻找能更好地服务于真实世界处理的多模态信息表征。
领域整体判断：
构建具有原生多模态能力的模型是一个非常活跃且充满开放问题的研究领域，其成熟度远不如语言模型。
多模态模型相比纯文本模型计算开销更大，这给训练和基础设施带来了额外的挑战。
多模态本身是一个复杂且有趣的问题空间：数字信息理解、物理智能、机器人学都需要多模态处理。因此，在短期内，我们更可能看到越来越多为特定能力定制的多模态模型。
如何将这些碎片化的能力统一成一个连贯的、统一的系统，将是未来一个极具魅力的研究范式。

💬 精华片段（中文）

"So basically, I hope this talk has motivated that building models with native multimodal capabilities is a very active research field nowadays. It has a ton of open problems... we still are far away from a paradigm which could perform powerful physical world multimodal intelligence." "我希望这次演讲能让大家理解，构建具有原生多模态能力的模型是当今一个非常活跃的研究领域。这里面有一大堆悬而未决的问题……我们离一个能实现强大物理世界多模态智能的范式还很遥远。"

41:49 现场问答与深度探讨

本节重点

模态间信息传递：依靠联合自注意力机制和因果条件建模，实现特化参数间信息的跨模态流动
多模态表征的未来：需要探索不同结构的语义表征模型（如 JEPa），以应对物理世界等复杂场景
单一统一表征的可行性：有实验显示直接用标准图像编码进行生成是可行的，这可能推动图像建模向 LLM 更进一步
“纯视觉推理” VS “语言骨架”：纯视觉推理的数据极度匮乏且生成低效，当前最有效的方式仍是以语言为骨架来辅助视觉推理

详细精要

关于模块化架构中信息传递的机制（问答1）：
维多利亚解释了即使参数是模态特化的，统一模型依然通过两种方式实现跨模态信息转移：
1. 联合自注意力机制：即使 Token 使用了各自的投影矩阵，它们仍然在一个共享空间中计算相互之间注意力关系。
2. 因果条件建模：模型保留了“给定图像，预测文本”的自回归结构。这种因果链保证了即使参数分离，信息流依然能从图像流向文本，反之亦然。
关于 JEPa 与对象中心化表征（问答2 & 3）：
对于物理世界交互等问题，维多利亚认为像 JEPa 这样旨在更高效建模视觉关系和/或具有更高层、更具语义（如对象中心化）的架构，是非常值得探索的方向。
针对“单一表征统一感知、生成与推理”的问题，维多利亚提到已有早期研究表明，可以采用标准图像编码表征直接用于生成任务，有时甚至能超越 VAE 表征。如果这条路走通，将极大地推动图像建模接近语言建模的统一性。
关于自回归范式的争议与未来（问答4）：
对于“下一个 Token 预测”是否就是 AI 的终极路径，维多利亚持开放但务实的态度。她认为该范式已证明极其有效。
一个重要的思考点是，尽管表面上是“预测下一个 Token”，但 Transformer 复杂的网络连接内部可能已经涌现出了结构化和层级化的学习，这是一种我们尚未完全理解的、隐藏的更高级学习。
关于“纯视觉推理”与“语言骨架”的辩论（问答5 & 6）：
针对“能否将文本渲染到图像中，从而消除文本这一独立模态”的工程设想，维多利亚从原理上认为这样做效率可能更低，因为直接预测象征符号比预测“图像化”的文字更高效，且文本能更好地驱动底层推理能力 Scaling。
针对“视频推理”的讨论，维多利亚认同一个关键现状：由于纯视觉数据中缺乏推理链条，且生成视频的推理帧会带来交互体验（UX）和效率的下降，目前最有效的方式仍然是使用语言作为推理的 “骨架”。尽管模型通过图像描述等任务实现了从视觉信号到语言抽象空间的转换，但未来计算机足够强大时，能否实现纯视觉空间的推理，仍是一个有趣的开放问题。

💬 精华片段（中文）

"I think the other way it goes, basically modeling still happens is through this causal conditioning. So we still have this structure of given input as image, you need to do text prediction. So even with separate set of parameters. these autoregressive orders is still there." "另一种方式是，建模依然通过这种因果条件作用发生。我们仍然有 '给定图像输入，你需要预测文本' 这样的结构。所以，即使有了独立的参数集，这些自回归的顺序依然存在。"

"[On autoregression] even on the surface, it's doing next token prediction. Because the network connection is pretty complicated. So there could already be in structure learning emerged, like in the latent space." "[关于自回归] 即使在表面上，它是在做下一个 Token 预测。但由于网络连接相当复杂，在其潜空间里，可能已经有结构化的学习涌现出来了。"

专业术语注释

术语	解释
Transformer	一种基于自注意力机制的神经网络架构，是现代大语言模型和多模态模型的基石。
Token / Token化	将文本、图像等原始信息转换为模型可以理解的最小单元序列（向量或离散索引）的过程。
自回归生成建模	一种序列生成方式，根据已生成的所有内容（上文），逐个预测下一个 Token，构成序列。
Patch化	将图像切分成固定大小（如16x16像素）的小块的操作，以便让模型像处理文本Token一样处理图像。
稠密向量	连续值的向量表示，区别于只有单一元素非零的独热编码，能携带更丰富的信息。
因果注意力	一种注意力机制，确保每个位置的输出只能依赖于其前文，在生成任务中必不可少。
双向注意力	允许模型在计算某个位置的表示时，同时关注其上下文所有位置的信息，常用于理解或扩散模型中的图像生成。
Omni 模型	指既能处理多模态输入，也能生成多模态输出（如文本、图像、音频）的全能模型。
VQ-VAE	向量量化变分自编码器，一种通过引入离散码本，将连续图像表征转换为离散索引的技术。
向量码本	VQ-VAE中的一组学得的离散向量，用于将图像块的连续嵌入映射并替换为最接近的码本向量索引。
扩散模型	一种生成模型，通过逐步向数据添加噪声，然后学习逆转该过程（从噪声中恢复出清晰图像）来生成样本。
VAE 表征	变分自编码器生成的一种连续、紧凑的图像潜在表征，常用于扩散模型以实现高效图像生成。
专家混合	一种模型扩展技术，通过并行训练多个“专家”子网络，并由门控网络决定每次输入由哪位“专家”处理，以在不显著增加计算量的前提下增大模型容量。
混合Transformer	一种为不同模态（如文本、图像）分配独立 Transformer 参数的架构，通过确定性路由激活，旨在解决模态间的容量竞争问题。
容量竞争	作者提出的一个概念，指在单一参数集中让模型同时优化文本与图像生成等差异巨大的任务时，可能出现参数优化方向相互冲突的现象。
因果条件建模	一种利用自回归序列的顺序来建立变量间关系的方法，例如，模型学习在给定图像 Token 的条件下，如何预测其后的文本 Token。
JEPa	一种旨在学习更高效、更语义化的视觉世界表征的模型架构，其特点有别于传统的 Patch 化方法。
对象中心化嵌入	一种视觉表征方式，旨在将场景分解为独立的对象及其关系，而不是将图像视为均匀的像素网格。
Scaling Ladder	一种系统性的实验方法，通过训练从小到大的多个模型版本，来研究模型性能随参数量/数据量增加的变化规律。

延伸思考

表征统一的圣杯：讲座中反复提及，图像生成（需 VAE 连续表征）与理解（需 SigLIP 等连续表征或特定离散化）的最佳表征不统一，是 Omni 模型的核心瓶颈。若未来出现一种统一的视觉表征，是否将彻底改变多模态模型的设计范式，使其真正像 LLM 一样简洁自洽？
生成能力赋能推理的路径探索：既然直接训练生成模型对纯文本理解任务的正向迁移微弱，是否存在间接路径？例如，能否利用视频生成模型构建一个“世界模拟器”，让 AI 在其中进行“具身想象”，通过执行想象中的动作并观察生成结果来学习物理知识，从而间接提升其知识工作能力？
混合Transformer 的工程化启示：该架构证明了“冻结强大的文本模型，仅追加训练新模态生成模块”的路径是稳定可行的。这是否意味着未来 AI 能力的扩展将更像软件工程中的“插件式开发”，围绕一个强大的基座 LLM，以动态加载不同模态“专家插件”的方式，来实现全方位的多模态智能？
语言作为推理骨架的普适性极限：虽然目前“以语言为骨架”是最高效的视觉推理方式，但这可能是因为我们对纯视觉的认知建模能力不足。一个能在高维、连续的感官数据流中直接进行“思维”的模型，其推理能力是否可能存在超越语言线性结构的潜力和上限？

原文发表：Jun 04, 2026 · 纪要生成：2026-06-22