来源: YouTube | 主持人:Sally Kornbluth(MIT校长)、嘉宾:宋寒(Song Han,MIT EECS副教授) | 2026-03-11 分类: 其他 原文发表: Mar 11, 2026 纪要生成: 2026-03-24
Sally Kornbluth是MIT校长,其主持的播客《无界好奇心》主打对话全球科研前沿开拓者,探索面向未来的现实技术解决方案。本期嘉宾宋寒是MIT电气工程与计算机科学系副教授,核心研究方向为AI计算效率优化,其开发的模型压缩技术已被全球多家科技企业采用,累计下载量超6000万次。本期节目二人围绕高效AI的技术原理、落地场景、产业价值、人才培养与产学研协同等话题展开深度探讨。
本节重点 - 主持人介绍播客定位、嘉宾宋寒的研究背景与核心落地成果 - 宋寒分享高效AI研究的起源,来自斯坦福读博期间的软硬件协同优化发现 - 大模型高能耗来自计算开销与数据搬运开销两大核心来源,压缩可实现复合收益
详细精要
其研究成果已应用于自动驾驶高分辨率计算机视觉、AI图像生成、GPT性能优化、机器学习训练方法创新等多个领域
高效AI研究的起源:宋寒的高效AI研究始于10年前斯坦福读博期间,最初尝试用硬件方案加速大模型,意外发现软件层面压缩空间更大
软硬件协同优化的思路成为其后续研究的核心框架
大模型高能耗的两大核心原因:大模型运行的能耗主要来自计算开销与数据搬运开销两部分,后者能耗成本远高于前者
数据搬运开销:权重、激活值、KV缓存等数据在机器间、GPU间、内存与缓存间的搬运,能耗成本远高于计算本身
模型压缩的复合收益:模型压缩可同时缩小模型体积、减少计算量、降低数据搬运量,实现能耗的倍数级降低
💬 精华片段(中文)
"神经网络剪枝就像修剪树木一样,你有很多枝条,有些是主干上的不能剪,有些是侧枝,你可以安全移除它们,既不会伤害树木,也不会损失模型精度。"
"Pruning a neural network is like pruning a tree where you have so many branches, some of them that on the trunk, pruning. Some of them are like side branches. You can remove them safely without hurting the accuracy, without hurting the tree."
本节重点 - 模型压缩三大核心技术为剪枝、量化、知识蒸馏,可组合使用实现最优效果 - 图像/视频生成类AI压缩难度远高于大语言模型,需针对性优化token数量 - 轻量化AI除降本节能外,还可提升数据中心产能、支撑实时AI场景落地
详细精要
知识蒸馏:用大模型作为“老师”指导小模型学习,让小模型精度接近大模型,可直接落地生产环境
生成类AI的压缩难点:图像、视频生成类AI的压缩难度远高于传统大语言模型,主要来自高分辨率、长序列两大挑战
宋寒团队开发的深度压缩自编码器技术,可大幅降低需要生成的token量,在保证生成质量的前提下减少计算开销
稀疏注意力优化视频生成效率:利用视频的时间、空间相似性,采用稀疏注意力技术可大幅降低视频生成的能耗
核心逻辑是“注意力确实很重要,但你只需要关注需要关注的地方,不需要关注冗余或无关的区域”,可节省大量能耗
轻量化AI的额外价值:轻量化AI除降本节能外,还可提升数据中心产能、支撑实时AI场景落地
💬 精华片段(中文)
"注意力确实很重要,但你只需要关注需要关注的地方,不需要关注冗余或无关的区域,这样可以节省大量能源。"
"Attention is all you need, but you only pay attention to where you need. You don't need to pay attention where you don't need or it's redundant. And that can save a lot of energy."
本节重点 - 2022年ChatGPT的出现是AI发展的第二波浪潮,大模型缩放定律带来的能力提升超出行业预期 - 未来AI将采用端云混合部署模式,本地小模型负责简单请求,复杂请求路由到云端大模型 - 垂直领域小模型、长上下文AI是高效AI的重要落地方向
详细精要
近年最令人兴奋的AI能力突破包括自反思能力、训练后对齐能力、推理能力三大方向
大模型能力的三大新突破:近年大模型在预训练后的对齐、推理时缩放、自反思三大方向的突破,大幅拓展了AI的应用边界
对齐技术可让大模型呈现不同的性格特征与交互模式,优化用户的使用体验
端云混合的部署趋势:未来AI将采用云端大模型+端侧小模型的混合部署模式,兼顾性能、延迟与隐私
自动驾驶、机器人等物理AI场景对延迟、可靠性要求极高,不能依赖互联网,必须在端侧运行轻量化AI模型,且需要满足严格的功率预算限制
垂直领域小模型的发展前景:聚焦特定场景的垂直小模型可剔除大量冗余参数,兼顾高效、专用两大优势,未来将大规模落地C端与B端场景
💬 精华片段(中文)
"我相当惊讶,多亏了缩放定律,2022年的ChatGPT时刻让生成AI和之前的技术相比有了天壤之别。我2012年读博的时候AlexNet刚刚出现,那是第一波浪潮,十年后的2022年我认为是缩放定律带来的第二波浪潮。"
"I'm pretty amazed thanks to the scaling law, since 2022, ChatGPT moment, it was a lot different with these generative AI compared with before that, I did PhD in 2012. That's when AlexNet just came. That's the first wave and a decade later since 2022 I think that's the second wave with the scaling law."
本节重点 - 宋寒团队开发的Streaming LLM技术可支持大模型处理长上下文,解决传统模型“中间遗忘”问题 - 其开发的AWQ 4位量化技术下载量超6000万次,已被英伟达等企业集成到产品中 - 端侧AI可解决用户隐私顾虑,避免个人敏感数据上传到云端
详细精要
传统大模型处理长上下文时存在“中间遗忘”问题,对开头和结尾的内容记忆较好,对中间的内容记忆准确率较低
Streaming LLM技术的创新:宋寒团队开发的Streaming LLM技术可大幅降低长上下文处理的内存占用,支持连续交互不会出现内存爆炸问题
典型应用场景包括长视频事件检索、跨时间事件关联分析、长文档内容定位等,可帮助用户快速查找长内容中的特定信息
高效AI技术的产业落地进展:宋寒团队开发的AWQ 4位量化技术下载量已超6000万次,被学界和产业界广泛采用,证明高效AI已经是行业刚需
团队会根据产业的反馈迭代技术,比如当前正在将压缩技术从大语言模型扩展到多模态大模型
端侧AI的隐私价值:端侧运行大模型可让个人敏感数据保留在本地,不需要上传到云端,从根源上解决用户的隐私顾虑
💬 精华片段(中文)
"我们的4位量化技术AWQ已经被下载超过6000万次,不仅来自学术界也来自产业界。英伟达等很多公司都已经将其集成到产品中,这意味着高效AI不是锦上添花,而是必须拥有的技术。"
"Like our 4-bit quantization technique called AWQ has been downloaded more than 60 million times. Not only from academia but also industry. NVIDIA, a lot of companies have integrated them into their products, and that means efficient AI is not just good to have. It's a must have."
本节重点 - 宋寒团队的研究采用软硬件协同、训练推理协同、生成理解协同的全栈视角 - 宋寒建议AI领域学生要学习全栈知识,具备跨领域连接知识点的能力 - 其推出的EfficientML.ai公开课程已成为行业人才培训的重要资源,产学研协同是高效AI发展的核心动力
详细精要
生成与理解协同视角:理解模型可用于标注数据,支撑生成模型的训练,两类技术可形成协同效应
AI领域人才的能力要求:AI领域的从业者不能只懂coding,需要掌握从硬件到算法的全栈知识,具备跨领域连接知识点的能力
AI工具已经可以承担大部分基础coding工作,学生需要重点培养连接不同概念、探索设计空间的能力
EfficientML.ai公开课程的价值:宋寒3-4年前发起EfficientML.ai公开课程,旨在填补高效AI领域的人才缺口,所有课程资料全部公开免费
课程毕业生已经进入大厂任职、成为高校教授、创办相关创业公司,成果丰硕
产学研协同的发展路径:产业界提供真实场景需求与算力资源,学术界探索前沿创新技术,二者的协同越来越紧密,共同推动高效AI的发展
💬 精华片段(中文)
"AI是一种非常特殊的计算负载,它不是固定的,可以是密集的也可以是稀疏的,可以是全精度的也可以是量化的,存在大量的协同设计机会,这意味着学习从计算机架构到操作系统、高性能计算、编译器、机器学习、人工智能、自然语言处理到计算机视觉的全栈知识变得越来越重要,这些领域的联系越来越紧密。"
"AI is a very special animal where it's not a fixed workload from the computing perspective. It can be dense. It can be sparse. It can be full precision. It can be quantized. And there's just so many co-design opportunities, which means making it more important to learn the whole stack from computer architecture to operating system, high-performance computing, compilers, to machine learning, to artificial intelligence, from NLP to vision. So this whole stack, I think they are getting tighter and tighter."
本节重点 - 宋寒工作之余爱好高山滑雪,即将和实验室团队组织滑雪旅行 - 宋寒建议公众想要了解AI最好的方式是动手实践,尝试工具、写代码、动手实现 - 完成EfficientML课程即可在笔记本电脑本地部署70亿参数的大模型,AI是人类创造力的延伸而非替代品
详细精要
他调侃自己滑高山滑雪的速度和GPU的运行速度一样快,和主持人喜欢的慢节奏越野滑雪形成对比
公众入门AI的建议:当前有大量优质的公开AI资源,公众想要了解AI最好的方式是动手实践,不要只停留在看新闻的层面
也可以学习EfficientML的公开课程,完成课程项目后即可在个人笔记本电脑上本地部署70亿参数的大模型
AI的长期价值:AI是人类创造力的延伸,而非替代品,可帮助人类提升工作效率、拓展能力边界
AI for Science是当前增长最快的领域之一,可大幅推动科学研究的进展
节目结尾:主持人Sally感谢宋寒的分享,鼓励听众保持好奇心,继续关注《无界好奇心》播客
💬 精华片段(中文)
"现在有很多很棒的工具,就动手去尝试一些工具,动手用这些工具,写代码,开始实现东西,或者去上EfficientML的课程,我们有很多动手项目,做完项目之后,你基本上就可以在自己的笔记本电脑上本地部署一个70亿参数的模型。"
"Yeah, I think these days there are so many great tools. Just get hands dirty and try a few tools, get hands dirty and try the tools, and then use the tools, write the code, and start implementing stuff. Or take the EfficientML lectures. And we have lots of hands-on projects. Like after doing the projects, basically you can deploy a 7 billion parameter model locally on your laptop."
| 术语 | 解释 |
|---|---|
| 模型压缩(Model Compression) | 本集语境下指通过剪枝、量化、蒸馏等技术缩小大模型体积、降低算力与内存需求,同时保持模型精度的技术体系 |
| 剪枝(Pruning) | 指剔除大模型中的冗余参数,在不损失精度的前提下缩小模型体积的技术,类似修剪树木的侧枝 |
| 量化(Quantization) | 指降低大模型参数的数值表示精度,比如将32位全精度参数改为4位表示,大幅降低内存占用与计算开销的技术 |
| 知识蒸馏(Knowledge Distillation) | 指用大模型(老师模型)指导小模型(学生模型)学习,让小模型精度接近大模型的技术 |
| 稀疏注意力(Sparse Attention) | 指仅对输入中的重要区域投入计算资源,忽略冗余区域,从而降低大模型计算开销的注意力优化技术 |
| 缩放定律(Scaling Law) | 指大模型的能力随训练数据量、参数量、算力投入的增加而可预测地提升的规律 |
| KV缓存(KV Cache) | 指大模型推理过程中缓存之前计算的键(K)和值(V),避免重复计算,提升推理速度的技术,是大模型数据搬运开销的重要来源 |
| AWQ(Activation-aware Weight Quantization) | 宋寒团队开发的4位量化技术,可在几乎不损失精度的前提下将大模型量化为4位,下载量超6000万次,被产业广泛采用 |
| Streaming LLM | 宋寒团队开发的长上下文大模型优化技术,可大幅降低长上下文处理的内存占用,解决传统大模型“中间遗忘”问题,支持连续交互 |
| DLSS(Deep Learning Super Sampling) | 英伟达开发的深度学习超采样技术,利用AI实时提升游戏分辨率,是实时AI的典型应用 |
| 端云混合部署(Edge-Cloud Hybrid Deployment) | 指简单请求由端侧设备的小模型处理,复杂请求路由到云端大模型处理的AI部署模式,兼顾延迟、隐私与性能 |
| CUDA(Compute Unified Device Architecture) | 英伟达推出的并行计算平台和编程模型,用于GPU上的通用计算,是大模型推理与训练的核心底层软件之一 |
| AlexNet | 2012年推出的卷积神经网络模型,在ImageNet图像识别比赛中大幅超越传统方法,是深度学习普及的标志性里程碑 |