来源: YouTube (Stanford CS25) | 嘉宾: Victoria Lin (Thinking Machines Lab) | 日期: 2026-06-04 播客: Stanford Online 分类: 其他 原文发表: Jun 04, 2026 纪要生成: 2026-06-22
本集嘉宾 Victoria Lin 是 Thinking Machines Lab 的技术团队成员,专注于原生多模态智能。此前她曾在 Meta AI 和 Salesforce AI Research 担任研究科学家,并于华盛顿大学获得博士学位。
本集讲座围绕“原生多模态语言模型”展开,系统梳理了如何借鉴大语言模型的成功范式来构建能同时处理文本、图像、音频甚至视频的单一模型。Victoria 详细探讨了 Omni 模型(支持多模态输入与输出)的几种关键架构,包括 Chameleon、Transfusion 和混合Transformer,并深入分析了多模态智能在表征统一、模型 Scaling 以及生成与理解能力迁移等方面的核心挑战与未来方向。
本节重点
详细精要
这是当前 AI 能力的基石,但其输入输出仅限于符号化的文本。
纯文本建模的局限与多模态的必然性:仅仅依靠语言建模不足以覆盖人类的全部需求。
💬 精华片段(中文)
"Both the digital world we deal with every day and also the physical world we live in, they are actually filled with information coming from different modalities. Like images, audio, video." "我们每天打交道的数字世界和我们所居住的物理世界,其实都充满了来自不同模态的信息,比如图像、音频和视频。"
本节重点
详细精要
在此基础上,执行与 LLM 类似的全局自回归生成建模。
多模态信息的 Token 化策略:
💬 精华片段(中文)
"So the state of the art multimodal language model architecture is really performing tokenization across the board... So basically, we can divide this image into small parts... When I say tokens, they are not necessarily discrete tokens." "最先进的多模态语言模型架构的核心,实际上是进行全面的分词化……我们可以把图像切分成小块……我说的 Token,不一定是离散的 Token。"
本节重点
详细精要
Omni 模型:不仅接受多模态输入,还能生成多模态输出,是真正的“全能”模型。例如 GPT-4o(o 代表 Omni),它具备直接生成图像的能力。
复用 LLM 技术范式的四大益处:
💬 精华片段(中文)
"So first, by designing such architectures, this allows us to build multimodal models, which is able to allow us to conduct prompting and instruction following... This model will also acquire planning and reasoning capabilities." "首先,通过设计这样的架构,我们能构建支持提示和指令跟随的多模态模型……这些模型也会获得规划和推理的能力。"
本节重点
详细精要
实现图像离散化的关键是在 Patch 化和连续编码后,引入一个学得的向量码本。通过将图像块的嵌入与码本匹配,找到每个块最接近的离散索引,从而将图像表示为一串整数序列。
训练方式与成就:
这是最早一批证明“从头训练交错文本-图像序列可以诱导出多模态能力并保持强大纯文本性能”的模型。
离散化的显著缺陷:
💬 精华片段(中文)
"So in summary, Chameleon presented a very interesting paradigm where we can train text and images interleaved from scratch. But we also found the limitations. Basically the assumption that we can discretize information in the images might be too strong." "总的来说,Chameleon 展现了一个非常有趣的范式,让我们能从头训练交错排列的文本和图像。但我们也发现了它的局限。根本上讲,那种‘我们能对图像中的信息进行离散化’的假设可能太强了。"
本节重点
详细精要
因此,Transfusion 在单一个 Transformer 内完成了两种生成模式的统一:对文本部分执行标准的自回归预测,对图像部分则在一个片段内执行多步扩散操作。模型先生成清晰的图像,再将其作为上下文,自回归地继续生成后续内容。
架构细节与优势:
实验结果表明,与基于离散 Token 的图像生成相比,Transfusion 能使用少得多的 Token 预算快速生成出质量显著更好的图像,证明了连续扩散表征的高效性。
未解难题:表征的两难:
💬 精华片段(中文)
"So in summary, so transformation is a first approach, which seamlessly unify autoregressive next token prediction and the diffusion objective for multimodal modeling. It demonstrates a significant better image generation quality and token efficiency." "总的来说,Transfusion 是首个将自回归的下一个 Token 预测和扩散训练目标无缝统一起来进行多模态建模的方法。它在图像生成质量和 Token 效率上展现了显著的提升。"
本节重点
详细精要
核心问题是:我们是否需要统一的 Transformer 参数,还是可以为每种模态引入专用的参数?
混合Transformer架构详解:
从外部看,这仍是一个标准的 Transformer 单元,但其内部实现了模态特化的处理路径。
架构的灵活性与优势:
本节重点
详细精要
由于 混合Transformer 为每种模态分配了独立参数,其总参数量会翻倍。因此,实验设置了两个基线:一个是相同总参数量的稠密模型(有天然劣势),另一个是使用等总参数量的专家混合模型作为更公平的对比。
核心实验结论:
维多利亚对此的解释是:图像生成是一项与文本生成存在本质区别的能力。如果把所有能力都塞进一个 Transformer,它们之间会产生严重的“容量竞争”。而通过分配独立的参数集,每种能力都能得到更好的 Scaling。
定性分析与扩展性:
💬 精华片段(中文)
"So what it really shines it is able to, without sacrificing the text performance, achieving much better performance, generating non-text modalities such as images... An explanation for this is non-text modality generation is probably something unique compared to text generation. So if we put everything inside a single transformer, there might be severe capacity computation." "它真正的亮点在于,能在不牺牲文本性能的前提下,在图像这类非文本模态生成上取得好得多的性能……一个解释是,非文本模态生成可能是一种有别于文本生成的独特能力。如果我们把所有东西都塞进单个 Transformer 里,可能会产生严重的容量计算(竞争)问题。"
本节重点
详细精要
一个非常有趣的关键能力是“先思考后生成”。由于整个交织序列建模是自回归的,模型可以先生成一段用于思考的文本(思维链),然后再据此生成图像。论文显示,这能让模型生成细节更丰富、信息更准确的图像,这也是当前许多前沿图像生成模型使用的技术。
具身智能与机器人领域的架构共鸣:
💬 精华片段(中文)
"So basically, the paper show that this would allow the models to generate images with much better details. And I think it's also basically thinking before generation is also the technique, which is used by lots of the state of the art image generation models nowadays." "这篇论文表明,这能让模型生成包含更多丰富细节的图像。而且我认为,‘先生成再思考’(此处为口误,应为先思考后生成)也是当今许多最先进的图像生成模型都在使用的技巧。"
本节重点
详细精要
这种能力能够正向传递到生成侧,使得 Omni 模型能生成细节更精细、信息更准确,尤其是在生成信息图表时能减少幻觉的作品。
待解之谜:生成难以反哺理解:
维多利亚引用了 UC Berkeley 教授 Sergey Levine 在 Twitter 上提出的一个相关观点作为佐证:LLM 通过下一个词预测能获得惊人能力,但为何我们不能通过“预测下一个视频帧”来让视频模型变得聪明得多?
对此现象的几种初步解释:
💬 精华片段(中文)
"So basically, people found that if we build a better understanding capabilities in the base model, so this will allow the model to have much better information processing ability... But on the other hand... There has been little work showing that this has a positive transfer for understanding capability... Language is fundamentally different from the other modalities, because it is a highly compressed abstraction of human cognition." "基本上,人们发现如果在基座模型中建立更强的理解能力,就能让模型有更好的信息处理能力……但在另一方面……很少有工作证明这对理解能力有正向迁移……语言与其它模态有着本质区别,因为它是人类认知的高度压缩抽象。"
本节重点
详细精要
然而,当面临真实的、野外的物理世界时,涉及到时空理解、实时交互和机器人操控等任务,现有范式仍有大量尚未解决的难题。人们仍在致力于寻找能更好地服务于真实世界处理的多模态信息表征。
领域整体判断:
💬 精华片段(中文)
"So basically, I hope this talk has motivated that building models with native multimodal capabilities is a very active research field nowadays. It has a ton of open problems... we still are far away from a paradigm which could perform powerful physical world multimodal intelligence." "我希望这次演讲能让大家理解,构建具有原生多模态能力的模型是当今一个非常活跃的研究领域。这里面有一大堆悬而未决的问题……我们离一个能实现强大物理世界多模态智能的范式还很遥远。"
本节重点
详细精要
维多利亚解释了即使参数是模态特化的,统一模型依然通过两种方式实现跨模态信息转移:
关于 JEPa 与对象中心化表征(问答2 & 3):
针对“单一表征统一感知、生成与推理”的问题,维多利亚提到已有早期研究表明,可以采用标准图像编码表征直接用于生成任务,有时甚至能超越 VAE 表征。如果这条路走通,将极大地推动图像建模接近语言建模的统一性。
关于自回归范式的争议与未来(问答4):
一个重要的思考点是,尽管表面上是“预测下一个 Token”,但 Transformer 复杂的网络连接内部可能已经涌现出了结构化和层级化的学习,这是一种我们尚未完全理解的、隐藏的更高级学习。
关于“纯视觉推理”与“语言骨架”的辩论(问答5 & 6):
💬 精华片段(中文)
"I think the other way it goes, basically modeling still happens is through this causal conditioning. So we still have this structure of given input as image, you need to do text prediction. So even with separate set of parameters. these autoregressive orders is still there." "另一种方式是,建模依然通过这种因果条件作用发生。我们仍然有 '给定图像输入,你需要预测文本' 这样的结构。所以,即使有了独立的参数集,这些自回归的顺序依然存在。"
"[On autoregression] even on the surface, it's doing next token prediction. Because the network connection is pretty complicated. So there could already be in structure learning emerged, like in the latent space." "[关于自回归] 即使在表面上,它是在做下一个 Token 预测。但由于网络连接相当复杂,在其潜空间里,可能已经有结构化的学习涌现出来了。"
| 术语 | 解释 |
|---|---|
| Transformer | 一种基于自注意力机制的神经网络架构,是现代大语言模型和多模态模型的基石。 |
| Token / Token化 | 将文本、图像等原始信息转换为模型可以理解的最小单元序列(向量或离散索引)的过程。 |
| 自回归生成建模 | 一种序列生成方式,根据已生成的所有内容(上文),逐个预测下一个 Token,构成序列。 |
| Patch化 | 将图像切分成固定大小(如16x16像素)的小块的操作,以便让模型像处理文本Token一样处理图像。 |
| 稠密向量 | 连续值的向量表示,区别于只有单一元素非零的独热编码,能携带更丰富的信息。 |
| 因果注意力 | 一种注意力机制,确保每个位置的输出只能依赖于其前文,在生成任务中必不可少。 |
| 双向注意力 | 允许模型在计算某个位置的表示时,同时关注其上下文所有位置的信息,常用于理解或扩散模型中的图像生成。 |
| Omni 模型 | 指既能处理多模态输入,也能生成多模态输出(如文本、图像、音频)的全能模型。 |
| VQ-VAE | 向量量化变分自编码器,一种通过引入离散码本,将连续图像表征转换为离散索引的技术。 |
| 向量码本 | VQ-VAE中的一组学得的离散向量,用于将图像块的连续嵌入映射并替换为最接近的码本向量索引。 |
| 扩散模型 | 一种生成模型,通过逐步向数据添加噪声,然后学习逆转该过程(从噪声中恢复出清晰图像)来生成样本。 |
| VAE 表征 | 变分自编码器生成的一种连续、紧凑的图像潜在表征,常用于扩散模型以实现高效图像生成。 |
| 专家混合 | 一种模型扩展技术,通过并行训练多个“专家”子网络,并由门控网络决定每次输入由哪位“专家”处理,以在不显著增加计算量的前提下增大模型容量。 |
| 混合Transformer | 一种为不同模态(如文本、图像)分配独立 Transformer 参数的架构,通过确定性路由激活,旨在解决模态间的容量竞争问题。 |
| 容量竞争 | 作者提出的一个概念,指在单一参数集中让模型同时优化文本与图像生成等差异巨大的任务时,可能出现参数优化方向相互冲突的现象。 |
| 因果条件建模 | 一种利用自回归序列的顺序来建立变量间关系的方法,例如,模型学习在给定图像 Token 的条件下,如何预测其后的文本 Token。 |
| JEPa | 一种旨在学习更高效、更语义化的视觉世界表征的模型架构,其特点有别于传统的 Patch 化方法。 |
| 对象中心化嵌入 | 一种视觉表征方式,旨在将场景分解为独立的对象及其关系,而不是将图像视为均匀的像素网格。 |
| Scaling Ladder | 一种系统性的实验方法,通过训练从小到大的多个模型版本,来研究模型性能随参数量/数据量增加的变化规律。 |