▶ 原文链接

原生多模态语言模型:构建哲学、架构与未来挑战

来源: YouTube (Stanford CS25) | 嘉宾: Victoria Lin (Thinking Machines Lab) | 日期: 2026-06-04 播客: Stanford Online 分类: 其他 原文发表: Jun 04, 2026 纪要生成: 2026-06-22


全集重点


嘉宾/话题简介

本集嘉宾 Victoria LinThinking Machines Lab 的技术团队成员,专注于原生多模态智能。此前她曾在 Meta AISalesforce AI Research 担任研究科学家,并于华盛顿大学获得博士学位。

本集讲座围绕“原生多模态语言模型”展开,系统梳理了如何借鉴大语言模型的成功范式来构建能同时处理文本、图像、音频甚至视频的单一模型。Victoria 详细探讨了 Omni 模型(支持多模态输入与输出)的几种关键架构,包括 ChameleonTransfusion混合Transformer,并深入分析了多模态智能在表征统一、模型 Scaling 以及生成与理解能力迁移等方面的核心挑战与未来方向。


分节详述

00:00 开场与多模态必要性

本节重点

详细精要

💬 精华片段(中文)

"Both the digital world we deal with every day and also the physical world we live in, they are actually filled with information coming from different modalities. Like images, audio, video." "我们每天打交道的数字世界和我们所居住的物理世界,其实都充满了来自不同模态的信息,比如图像、音频和视频。"


04:10 原生多模态语言模型的构建理念:统一分词与自回归

本节重点

详细精要

💬 精华片段(中文)

"So the state of the art multimodal language model architecture is really performing tokenization across the board... So basically, we can divide this image into small parts... When I say tokens, they are not necessarily discrete tokens." "最先进的多模态语言模型架构的核心,实际上是进行全面的分词化……我们可以把图像切分成小块……我说的 Token,不一定是离散的 Token。"


07:25 多模态模型的两大范式:多模态输入模型 vs Omni 模型

本节重点

详细精要

💬 精华片段(中文)

"So first, by designing such architectures, this allows us to build multimodal models, which is able to allow us to conduct prompting and instruction following... This model will also acquire planning and reasoning capabilities." "首先,通过设计这样的架构,我们能构建支持提示和指令跟随的多模态模型……这些模型也会获得规划和推理的能力。"


11:41 Omni 模型的架构演进(一):Chameleon —— 完全离散化的尝试

本节重点

详细精要

💬 精华片段(中文)

"So in summary, Chameleon presented a very interesting paradigm where we can train text and images interleaved from scratch. But we also found the limitations. Basically the assumption that we can discretize information in the images might be too strong." "总的来说,Chameleon 展现了一个非常有趣的范式,让我们能从头训练交错排列的文本和图像。但我们也发现了它的局限。根本上讲,那种‘我们能对图像中的信息进行离散化’的假设可能太强了。"


16:55 Omni 模型的架构演进(二):Transfusion —— 统一自回归与扩散

本节重点

详细精要

💬 精华片段(中文)

"So in summary, so transformation is a first approach, which seamlessly unify autoregressive next token prediction and the diffusion objective for multimodal modeling. It demonstrates a significant better image generation quality and token efficiency." "总的来说,Transfusion 是首个将自回归的下一个 Token 预测和扩散训练目标无缝统一起来进行多模态建模的方法。它在图像生成质量和 Token 效率上展现了显著的提升。"


21:09 Omni 模型架构创新:混合Transformer

本节重点

详细精要


24:20 混合Transformer 的实验与 Scaling 特性

本节重点

详细精要

💬 精华片段(中文)

"So what it really shines it is able to, without sacrificing the text performance, achieving much better performance, generating non-text modalities such as images... An explanation for this is non-text modality generation is probably something unique compared to text generation. So if we put everything inside a single transformer, there might be severe capacity computation." "它真正的亮点在于,能在不牺牲文本性能的前提下,在图像这类非文本模态生成上取得好得多的性能……一个解释是,非文本模态生成可能是一种有别于文本生成的独特能力。如果我们把所有东西都塞进单个 Transformer 里,可能会产生严重的容量计算(竞争)问题。"


31:49 混合Transformer 的启发与应用:BAGEL 与具身智能

本节重点

详细精要

💬 精华片段(中文)

"So basically, the paper show that this would allow the models to generate images with much better details. And I think it's also basically thinking before generation is also the technique, which is used by lots of the state of the art image generation models nowadays." "这篇论文表明,这能让模型生成包含更多丰富细节的图像。而且我认为,‘先生成再思考’(此处为口误,应为先思考后生成)也是当今许多最先进的图像生成模型都在使用的技巧。"


35:30 生成与理解之间的鸿沟:正向与零向迁移

本节重点

详细精要

💬 精华片段(中文)

"So basically, people found that if we build a better understanding capabilities in the base model, so this will allow the model to have much better information processing ability... But on the other hand... There has been little work showing that this has a positive transfer for understanding capability... Language is fundamentally different from the other modalities, because it is a highly compressed abstraction of human cognition." "基本上,人们发现如果在基座模型中建立更强的理解能力,就能让模型有更好的信息处理能力……但在另一方面……很少有工作证明这对理解能力有正向迁移……语言与其它模态有着本质区别,因为它是人类认知的高度压缩抽象。"


39:11 演讲总结与未来展望

本节重点

详细精要

💬 精华片段(中文)

"So basically, I hope this talk has motivated that building models with native multimodal capabilities is a very active research field nowadays. It has a ton of open problems... we still are far away from a paradigm which could perform powerful physical world multimodal intelligence." "我希望这次演讲能让大家理解,构建具有原生多模态能力的模型是当今一个非常活跃的研究领域。这里面有一大堆悬而未决的问题……我们离一个能实现强大物理世界多模态智能的范式还很遥远。"


41:49 现场问答与深度探讨

本节重点

详细精要

💬 精华片段(中文)

"I think the other way it goes, basically modeling still happens is through this causal conditioning. So we still have this structure of given input as image, you need to do text prediction. So even with separate set of parameters. these autoregressive orders is still there." "另一种方式是,建模依然通过这种因果条件作用发生。我们仍然有 '给定图像输入,你需要预测文本' 这样的结构。所以,即使有了独立的参数集,这些自回归的顺序依然存在。"

"[On autoregression] even on the surface, it's doing next token prediction. Because the network connection is pretty complicated. So there could already be in structure learning emerged, like in the latent space." "[关于自回归] 即使在表面上,它是在做下一个 Token 预测。但由于网络连接相当复杂,在其潜空间里,可能已经有结构化的学习涌现出来了。"


专业术语注释

术语 解释
Transformer 一种基于自注意力机制的神经网络架构,是现代大语言模型和多模态模型的基石。
Token / Token化 将文本、图像等原始信息转换为模型可以理解的最小单元序列(向量或离散索引)的过程。
自回归生成建模 一种序列生成方式,根据已生成的所有内容(上文),逐个预测下一个 Token,构成序列。
Patch化 将图像切分成固定大小(如16x16像素)的小块的操作,以便让模型像处理文本Token一样处理图像。
稠密向量 连续值的向量表示,区别于只有单一元素非零的独热编码,能携带更丰富的信息。
因果注意力 一种注意力机制,确保每个位置的输出只能依赖于其前文,在生成任务中必不可少。
双向注意力 允许模型在计算某个位置的表示时,同时关注其上下文所有位置的信息,常用于理解或扩散模型中的图像生成。
Omni 模型 指既能处理多模态输入,也能生成多模态输出(如文本、图像、音频)的全能模型。
VQ-VAE 向量量化变分自编码器,一种通过引入离散码本,将连续图像表征转换为离散索引的技术。
向量码本 VQ-VAE中的一组学得的离散向量,用于将图像块的连续嵌入映射并替换为最接近的码本向量索引。
扩散模型 一种生成模型,通过逐步向数据添加噪声,然后学习逆转该过程(从噪声中恢复出清晰图像)来生成样本。
VAE 表征 变分自编码器生成的一种连续、紧凑的图像潜在表征,常用于扩散模型以实现高效图像生成。
专家混合 一种模型扩展技术,通过并行训练多个“专家”子网络,并由门控网络决定每次输入由哪位“专家”处理,以在不显著增加计算量的前提下增大模型容量。
混合Transformer 一种为不同模态(如文本、图像)分配独立 Transformer 参数的架构,通过确定性路由激活,旨在解决模态间的容量竞争问题。
容量竞争 作者提出的一个概念,指在单一参数集中让模型同时优化文本与图像生成等差异巨大的任务时,可能出现参数优化方向相互冲突的现象。
因果条件建模 一种利用自回归序列的顺序来建立变量间关系的方法,例如,模型学习在给定图像 Token 的条件下,如何预测其后的文本 Token。
JEPa 一种旨在学习更高效、更语义化的视觉世界表征的模型架构,其特点有别于传统的 Patch 化方法。
对象中心化嵌入 一种视觉表征方式,旨在将场景分解为独立的对象及其关系,而不是将图像视为均匀的像素网格。
Scaling Ladder 一种系统性的实验方法,通过训练从小到大的多个模型版本,来研究模型性能随参数量/数据量增加的变化规律。

延伸思考

  1. 表征统一的圣杯:讲座中反复提及,图像生成(需 VAE 连续表征)与理解(需 SigLIP 等连续表征或特定离散化)的最佳表征不统一,是 Omni 模型的核心瓶颈。若未来出现一种统一的视觉表征,是否将彻底改变多模态模型的设计范式,使其真正像 LLM 一样简洁自洽?
  2. 生成能力赋能推理的路径探索:既然直接训练生成模型对纯文本理解任务的正向迁移微弱,是否存在间接路径?例如,能否利用视频生成模型构建一个“世界模拟器”,让 AI 在其中进行“具身想象”,通过执行想象中的动作并观察生成结果来学习物理知识,从而间接提升其知识工作能力?
  3. 混合Transformer 的工程化启示:该架构证明了“冻结强大的文本模型,仅追加训练新模态生成模块”的路径是稳定可行的。这是否意味着未来 AI 能力的扩展将更像软件工程中的“插件式开发”,围绕一个强大的基座 LLM,以动态加载不同模态“专家插件”的方式,来实现全方位的多模态智能?
  4. 语言作为推理骨架的普适性极限:虽然目前“以语言为骨架”是最高效的视觉推理方式,但这可能是因为我们对纯视觉的认知建模能力不足。一个能在高维、连续的感官数据流中直接进行“思维”的模型,其推理能力是否可能存在超越语言线性结构的潜力和上限?

原文发表:Jun 04, 2026  ·  纪要生成:2026-06-22