来源: YouTube | Jeremy Howard | 发布日期:Mar 03, 2026 分类: 其他 原文发表: Mar 03, 2026 纪要生成: 2026-06-29
Jeremy Howard 是深度学习先驱、Kaggle 特级大师,也是 ULMFiT 论文的作者,该研究奠定了现代迁移学习在自然语言处理中应用的基础。他创办了 fast.ai,致力于让更多人能够接触和理解深度学习。在本集中,Jeremy 结合其深厚的认知科学背景,猛烈抨击了当下盛行的“氛围编程”文化,强调真正的创造力源于对系统的深入理解和交互,并警示了将认知任务外包给 AI 对个人和组织竞争力的长期危害。
本节重点
详细精要
他认为,无论是在真实世界还是计算机内部,能够实时操纵、研究、移动和组合这些对象,是人类借助计算机大幅提升能力的关键。
LLMs 只是在“角色扮演”理解:Jeremy 指出一个看似矛盾的现象——既可以说 LLMs 不懂任何事,也可以说它们能完成惊人任务,但双方其实都正确。
问题在于,一旦脱离这个有效范围,其“愚蠢”本质就会暴露无遗。
AI 编码对实际生产力的提升被严重夸大:Jeremy 直接反驳了 AI 能带来指数级效率提升的流行说法。
这与人们在体验中感受到的效率提升感形成了鲜明对比,揭示了感知与现实之间的巨大差距。
AI 编码与赌博机制的相似性:Jeremy 将 AI 编程比作一台老虎机,因为它有诸多令人上瘾的元素。
💬 精华片段(中文)
“大语言模型在角色扮演理解。它们假装理解事物。有趣的是,它们都是对的。LLMs cosplay understanding things. Like, they pretend to understand things. And the funny thing is they're both right.”
本节重点
详细精要
技术栈主要包括:AWD-LSTM 架构(由 Stephen Merity 开发,在极端灵活的 LSTM 上添加了 5 种以上的正则化方法)、重新处理的维基百科数据集(修复了诸如“unk”之类的过时代 NLP 假设),以及 8 小时的单块游戏 GPU 训练。
迁移学习的重要性远未被认识:在当时,迁移学习是一个极其不受重视的领域,没人讨论它。
这种理念在当时是极具争议的,他们几乎是从零开始探索并确立了许多后来成为标准的方法论。
创新的微调方法论:fast.ai 团队开发了一系列微调技术,这些在当时都是反常识的。
💬 精华片段(中文)
“我的前提是,一台机器可以通过纯粹利用深度学习模型观察海量文本语料库中的统计相关性,来构建一个关于世界是什么以及如何运作的有效抽象层次。That was my premise... A machine could kind of build an effective hierarchy of abstractions about what the world is and how it works entirely through looking at the statistical correlations of a huge corpus of text using a deep learning model.”
本节重点
详细精要
这与 Yann LeCun 实验室的 DINO 论文思想一致:在预训练阶段保持多样性和保真度,以便为下游任务提供更多的“抓手”。
创造力与约束的关系:Jeremy 和主持人讨论了创造力的本质,并与 Margaret Boden 的理论相联系。
就像在二维平面上拟合曲线一样,一旦超出数据覆盖范围,曲线就会疯狂偏离。这种模型在插值范围内能力极强,但在外推时则完全不可靠。
“走出分布”的实证体验:Jeremy 分享了他作为研发人员的日常体验,他经常处于训练数据的边界或之外。
💬 精华片段(中文)
“他们真的不能外推出训练分布。答案是,不能。但训练分布如此之大,其间的插值方式如此之多,我们真的还不知道这其中的局限性在哪里。 they can't really extrapolate outside the training distribution. The answer is no, they can't. But the training distribution is so big, and the number of ways to interpolate between them is so vast, we don't really know yet what the limitations of that is.”
本节重点
详细精要
他将编程定义为一种“风格迁移”问题:根据问题描述,在训练数据中找到插值点,并将其转换为目标语言的语法。但这远非软件工程的全部。
软件工程的精髓在于设计而非编码:Jeremy 引用了 Fred Brooks 的经典论文《没有银弹》来支持他的观点。
因为软件工程中绝大多数工作不是敲代码。Jeremy 以身说法,虽然他现在 90% 的代码是 AI 写的,但他并没有因此变得“那么”高效,因为慢的从来不是打字。
AI 在原创设计上的灾难性表现:任何时候,只要让 LLM 去设计一个未曾被设计过多次的解决方案,结果都是“可怕的”。
当创造新东西的初衷就是为了摆脱旧东西时,这种表面相似的方案往往是绝对灾难性的,因为它会误导方向。
自动化悖论与知识侵蚀:Jeremy 和主持人探讨了将认知任务委托给语言模型的风险,这触及了知识的本质。
💬 精华片段(中文)
“软件工程是一门不寻常的学科,许多人误以为它和在 IDE 里敲代码是一回事。 Software engineering is a unusual discipline, and a lot of people mistake it for being the same as typing code into an IDE.”
本节重点
详细精要
这意味着虽然写代码的速度可能变快,但真正的产出来自于理解、设计、调试和协作的整个复杂过程。
AI 编程作为赌博的机制剖析:Jeremy 引用其妻子 Rachel Thomas 的文章,详细拆解了 AI 编码如何与赌博机制吻合。
这种循环导致令人筋疲力尽的马拉松式编程,Jeremy 自己就经历过 14 小时的 Claude Code 狂潮,事后感到极度疲惫。
“无人理解代码”的困境:Jeremy 分享了他用 AI 修复杂 IPykernel 的亲身经历。
💬 精华片段(中文)
“AI 编程就像一台老虎机,你会有一种控制的幻觉……你知道你可以设计你的提示词,你的 MCP 列表,你的技能等等,但最后,你拉下了拉杆。The thing about AI based coding is that it's like a slot machine and that you have an illusion of control... and then in the end, you pull the lever.”
本节重点
详细精要
他认为,像 Bret Victor 的作品所展示的那样,与工作对象建立直接、本能(visceral)的连接才是最重要的。传统软件工程专注于可复现的“死文件”,与这一理念背道而驰。
nbdev 与 Solveit:作为解决方案的交互式环境:Jeremy 介绍了他的项目 nbdev,它允许在 Jupyter Notebook 环境中创建生产级软件。
使用 Solveit 的体验与使用 Claude Code 截然相反。几个小时后,他感到充满活力和成就感,而非筋疲力尽。
Notebook 的“原罪”与救赎:针对 Joel Grus 著名的演讲《我不喜欢 Notebooks》中对 Notebooks 在可复现性和 Git 方面的批评,Jeremy 进行了回应。
💬 精华片段(中文)
“我的使命始终如一,就像过去20年一样,那就是阻止人们以这种方式工作。...当你和你的工作对象之间有一个直接的、本能的连接时,那才是最重要的。My mission remains the same as it has been for, like, 20 years, which is to stop people working like this... a direct visceral connection with the thing you're doing is all that matters.”
本节重点
详细精要
他现在承认模型在受限领域内可以表现出智能,甚至具备一定的“能动性”(agency),但这并不意味着它们能无限制地发展。
真正的“存在风险”是权力集中:Jeremy 阐述了他与 Arvind 的核心论点。
如果 AI 真的如此强大,将其交给埃隆·马斯克或唐纳德·特朗普独自掌控,对文明是毁灭性的。相反,将权力分散给全社会是更安全的做法。
当前更具体、更紧迫的风险:Jeremy 认为,相比于远期的 AI 失控,当下的风险更值得我们警惕。
💬 精华片段(中文)
“即使它最终被证明是极其强大的,你仍然不应该把所有这些权力集中在一家公司或政府的手中。因为如果你这样做,所有的权力都会被渴望权力的人垄断,并用来摧毁文明。Even if it turns out to be incredibly powerful... you still shouldn't centralize all of that power in the hands of one company or the government. Because if you do, all of that power is going to be monopolized by power hungry people, and used to destroy civilization, basically.”
| 术语 | 解释 |
|---|---|
| ULMFiT | Jeremy Howard 和 Sebastian Ruder 在 2018 年提出的论文,全称为 Universal Language Model Fine-tuning。它首次系统性地论证并实践了在通用大型文本语料上预训练语言模型,然后在多种下游任务上进行微调的有效性,是现代 NLP 迁移学习的奠基之作。 |
| AWD-LSTM | 全称 ASGD Weight-Dropped LSTM,一种在 LSTM 架构上应用了多种正则化技术的循环神经网络变体,是 ULMFiT 论文中使用的核心模型。 |
| REPL | Read-Eval-Print Loop(读取-求值-输出循环),一种简单的交互式编程环境,用户输入单行代码或命令,系统即时执行并返回结果,对探索式编程至关重要。 |
| Notebook / Jupyter Notebook | 一种基于 Web 的交互式计算环境,允许用户在一个文档中创建和共享包含实时代码、方程、可视化和叙述文本的程序。 |
| lkbdev | Jeremy Howard 开发的项目,它使得开发者可以直接在 Jupyter Notebook 环境中编写、测试和部署生产级别的 Python 软件,将探索与工程融为一体。 |
| 组合型创造力 (Combinatorial Creativity) | Margaret Boden 提出的创造力三层次之一,指将已知的概念、想法以新颖的方式进行组合。LLMs 极其擅长此道。 |
| 变革型创造力 (Transformational Creativity) | Margaret Boden 提出的最高层级的创造力,指改变现有概念空间的规则,创造出以前不可能被想到的新想法或风格。Jeremy 认为 LLMs 不具备这种能力。 |
| 理想难度 (Desirable Difficulty) | 教育心理学概念,指学习任务中存在适度的挑战和阻力时,反而能促进更深层次的编码和更持久的长期记忆。 |
| 控制幻觉 (Illusion of Control) | 心理学概念,指个体在面对随机事件时,倾向于高估自己的行为对结果的控制力。在 AI 编程中,指用户通过精心设计 prompt 误以为自己能掌控 AI 的输出质量。 |
| 认知负荷 / 理解债务 | 指在 AI 辅助编程中,由于代码由 AI 生成,开发者缺乏对代码细节的深入理解,导致未来维护、修改和扩展的潜在成本不断累积。 |
| IPykernel | Jupyter 项目的核心组件,它是提供 Python 代码执行计算能力的内核,负责处理代码执行、自动补全、调试等核心功能。 |