FFmpeg：互联网视频背后的惊人技术 | Lex Fridman 播客 #496

来源： Lex Fridman Podcast | Jean-Baptiste Kempf, Kieran Kunhya | May 06, 2026 分类： 其他 原文发表： May 06, 2026 纪要生成： 2026-05-11

全集重点

FFmpeg 是全球视频基础设施的隐形支柱：从 YouTube、Netflix 到 Chrome 和 VLC，几乎所有涉及网络视频的处理流程都依赖 FFmpeg，它是互联网上最大的 CPU 用户之一。
开源社区的纯粹与力量：FFmpeg 和 VLC 完全由志愿者开发维护，他们拒绝了几千万美元的广告/间谍软件诱饵，只为坚持开源、免费、无跟踪的原则，代码质量是唯一的准入门槛。
手写汇编的极致性能艺术：为了追求每一毫秒的性能极限，像 dav1d 这样的视频解码器有高达 79.9% 的代码是手写汇编，其性能比编译器优化后的 C 代码快上几十倍，这是一门正在被重新唤醒的“失传艺术”。
逆向工程与“二进制规范”：社区中的天才开发者们将没有文档的二进制文件视为“二进制规范”，凭借惊人的毅力与智慧逆向破解各种古老、专有的游戏和会议录像编解码器，为人类多媒体遗产的保存铺平道路。
维护开源基础设施的隐形负担与价值：维护这些支撑世界的项目的人员寥寥无几，他们时常面临来自大公司的傲慢要求、安全社区的过度恐慌，甚至死亡威胁，亟需全世界的理解、尊重与资金支持。

嘉宾/话题简介

本集播客邀请了两位视频技术领域的传奇人物。Jean-Baptiste Kempf 是 VideoLAN 基金会主席，VLC 媒体播放器和 FFmpeg 项目的关键人物与精神领袖。Kieran Kunhya 是一名资深的编解码器工程师、FFmpeg 的长期贡献者，同时以其运营的言辞犀利、热衷技术梗的 FFmpeg 推特账号而闻名。

两位嘉宾深入探讨了支撑整个互联网视频运转的底层技术体系：FFmpeg 和 VLC。对话不仅涵盖了视频播放、编解码、容器格式等硬核技术原理，更讲述了背后充满激情的开源社区文化，包括手写汇编的极致追求、逆向工程的惊心动魄，以及拒绝千万美元保持软件纯净的商业抉择。

分节详述

00:00 – 节目高光

本节重点

FFmpeg 的代码质量是最高标准，社区不在乎贡献者的身份背景。
视频编解码的每一次进步都是无数工程师毕生心血的结晶。
dav1d 项目拥有海量手写汇编代码，其“每周期都重要”的哲学引发业界震动。
VLC 坚决拒绝情报机构安装后门的请求。

详细精要

代码质量是唯一标准：FFmpeg 是一个绝对的精英化社区，唯一在乎的是代码是否卓越。他们不在乎你的身份、背景、来自哪家大公司，哪怕你是一条狗，只要代码好就行。
这种纯粹性吸引了来自世界各地、背景各异的贡献者，其中许多人是极度内向的人，但这完全没问题。
这导致了极高的贡献者流动性，核心社区（如 VLC 的五人，FFmpeg 的十到十五人）需要负责维护所有提交的代码，因此代码的可维护性和卓越性是硬性要求。
视频解码的巨大计算量：FFmpeg 可能是世界上最大的 CPU 用户之一，正运行在数十亿台设备上。
为了应对巨大的计算需求，疯狂的性能优化是必须的。例如，最新的 dav1d（AV1 解码器） 项目有超过 24 万行手写汇编代码，而整个 FFmpeg 为所有编解码器写了约 10 万行汇编。因为每一个 CPU 周期都至关重要。
目前，Netflix 约 30% 的视频和 YouTube 50% 的视频已采用 AV1 格式。

💬 精华片段（中文）

“重要的在于，你的代码好吗？我们关心的是卓越的代码。我们不在乎你是谁。也许你是一条狗，我不在乎，对吧？我不在乎你来自哪里。我需要看你的代码。”

"The important thing is, is your code good? We care about excellent code. We don’t care who you are. Like maybe you’re a dog. I don’t care, right? I don’t care where you come from. I need to look at your code."

💬 精华片段（中文）

“情报机构曾试图说，‘你们能在 VLC 里安个后门吗？‘……是的，有两家。……我说，不。嗯，我当时的语气可没这么客气。……简单来说，就是 ‘见鬼去吧’。……如果我们不得不妥协我们的软件，我们会直接把它关停。这一点很明确。”

"The intelligence agencies tried to, like, say, “Can you put a backdoor in VLC?”…Yes. Two of them.…Well, I was a lot less polite.…Basically saying, “Hell no.”…Like, if we had to compromise our software, we would shut it down. This is clear."

02:17 – 引言

本节重点

简要介绍 FFmpeg 和 VLC 的地位、功能与影响力。
Lex Fridman 向所有志愿者工程师致敬。
介绍两位嘉宾的角色。
强调开源基础设施对整个现代文明的重要性。

详细精要

FFmpeg 的定位：一个开源软件系统，是 YouTube、Netflix、Chrome、VLC、Discord 等几乎所有涉及网络音视频平台的无形支柱。它能够解码、编码、转码、流传输和播放几乎所有已创建的音视频格式。它被 Lex 认为是历史上最不可思议的软件系统之一，且完全由志愿者完成。
VLC 的定位：一款传奇的开源媒体播放器，几乎能播放任何你扔给它的文件，支持任何格式、任何平台，没有广告、没有追踪。其标志性的交通锥标深入人心。
VLC 的巨大传播度：下载量已超过 60 亿次，是 Lex 自己最喜欢的软件之一。
开源基础设施的重要性：现代文明的很大一部分是建立在那些不追逐名利、痴迷于工程技艺的人构建的软件之上。数十亿人每天消费视频，却从不去想它底层的无形机器。这些项目是人类跨越国界、默默协作，为大众构建有用、持久且优雅之物的伟大范例。

05:35 – VLC 能打开的最奇怪文件

本节重点

VLC 可以用于录制 VHS 录像带。
社区曾举办“最奇葩文件”大赛，VLC 成功播放了所有文件。
VLC 的交通锥标志已成为一个文化符号，深入人心。

详细精要

VLC 的万能播放能力：VLC 不仅能播放常规视频，还能直接连接采集卡录制 VHS 录像带，甚至有一个模块能直接控制某些 VCR 摄像机。它还支持 DVD-Audio 这种没人再做的格式，包括其自定义加密方案。
“最奇葩文件”大赛：在 VideoLAN 的一次会议上，社区组织了一场比赛，看谁能制作出最怪异、最糟糕的文件，并看 VLC 能否播放。
一个参赛作品是一个 MKV 文件，其每一帧都在改变分辨率、宽高比、旋转角度。
另一个作品整个视频都是由动画字幕（SSA）构成，每一帧都是黑屏，上面叠加了一帧动画字幕。
还有文件被制作成同时是有效的 ZIP 文件和有效的 MP3 文件，VLC 也成功打开了所有这些“愚蠢”的文件。
交通锥标志的传奇：VLC 的标志极具标志性，充满荒谬和欢乐感，最终演变为一种文化模因。
许多用户不知道 VLC，只知道“锥体播放器 (cone player)”，他们会在 Google 搜索“cone player”来下载 VLC。
社区曾在愚人节开玩笑说要更换标志，结果收到了约 10,000 封邮件反对，可见其影响力。

09:59 – 视频播放是如何工作的

本节重点

视频播放分为获取数据流、解复用、解码、渲染等核心阶段。
解码过程涉及复杂的空间和时间冗余去除。
视频压缩的核心是利用人眼和人耳的感知缺陷，在 YUV 色彩空间和频域上进行。
视频与音频的压缩率极高，可达 100-200 倍。

详细精要

视频播放的完整流程:
获取数据流 (Access/Demux)：从一个地址（如文件路径、HTTP URL、DVD 等）获取连续的字节流。首先使用解复用器 (demuxer) 解析容器格式，将音视频轨道分离成压缩数据帧。
解码准备 (Probing/Decoding Decision)：解析视频帧，判断该编解码器是否可以由 GPU 硬解码。约有 45% 的文件无法被 GPU 解码，需要回退到软件。
软件解码核心流程：
- 熵解码 (Deentropy Coding)：移除位流的数学编码，如 霍夫曼编码 (Huffman coding) 或 算术编码 (Arithmetic coding)。
- 帧内预测 (Intra Prediction)：处理 I 帧（关键帧），这些是独立于其他帧的静止图像。解码器在空间域上进行预测。
- 处理残差 (Residual Processing)：预测并非 100% 准确，预测值与实际值的差异称为“残差 (Residual)”。残差被量化后存储在频域 (Frequency Domain) 中。解码时需要进行逆变换 (Inverse Transform)，将其带回空间域，并应用到预测帧上。
渲染 (Rendering)：将解码后的原始图像和音频数据分别发送给显卡和声卡，最终呈现给用户。
视频压缩的惊人效率：音频压缩率约 10 倍，而视频则需要 100 到 200 倍。这种高压缩率依赖于去除人眼和人耳难以察觉的细节。
色彩空间转换：我们不使用 RGB 色彩空间，而是使用 YUV。其中 Y 代表亮度，UV 代表色彩。因为人眼对亮度变化的敏感度远高于色彩变化，因此编码时通常会降低色彩分辨率（如 4:2:0 采样），仅此一步就能将数据量减半。
频域变换：使用类似离散余弦变换 (DCT) 的数学工具将图像分块，从空间域转换到频域。这样做的目的是将能量集中，丢弃人眼不敏感的高频细节。解码错误或压缩过度时，画面中看到的“马赛克块”就是由此而来。
编解码器的代际更迭：新一代编解码器通常能比上一代在同等画质下节省约 30% 的带宽，但代价是编码所需的计算量会成百上千倍地增加。例如，AV1 编码的计算复杂度比 H.264 高两个数量级。

💬 精华片段（中文）

"我们过去几分钟里所说的每一句话，都是某个人一生的工作成果。关于每一句话，都有相关的书籍。所以，在很多情况下，其复杂程度是超乎寻常的。"

"everything we’ve just said in the past couple of minutes, every sentence is someone’s lifetime’s work. There are books about every sentence. So the level of complexity in many cases is inordinate."

19:20 – 视频编解码器与容器

本节重点

容器是存放多个轨道（音视频、字幕）的“盒子”。
常见的容器格式包括 MP4、AVI、MOV 和 MKV。
VLC 和 FFmpeg 不信任文件扩展名，会通过探测文件内容来判断其真实格式。
这种“不信任输入”的原则源于其早期的流媒体应用，这也是 VLC 能播放损坏文件的原因。

详细精要

容器 vs. 编解码器：容器（如 MP4）是封装音视频流的文件格式，本质上是一个多路复用器 (muxer)。而编解码器（如 H.264）是压缩和解压缩数据的方法。
命名的历史包袱：人们常常混淆两者，部分原因在于行业自身混乱的命名。例如，H.264 的官方名称是 MPEG-4 Part 10，简称 AVC。而 MPEG-4 本身是一个包含视频（Part 2）、音频（AAC）等多部分的“元规范”，这导致 MP4（容器）和 MPEG-4（规范族）的概念极易混淆。但实际应用中，99% 的 MP4 文件就是 H.264 视频加 AAC 音频。
VLC 的“不信任”哲学：VLC 和 FFmpeg 的强大之处在于，它们不信任文件扩展名，而是会分析文件内部的实际数据来确定其格式。此理念源于 VLC 最初作为VideoLAN 流媒体解决方案客户端的历史。当年的流媒体通过不可靠的 UDP 协议传输，数据包可能损坏，因此软件必须设计为能够处理破损的输入。这也使得 VLC 在早期 BT 下载时代广受欢迎，因为未下载完成的文件（索引信息在文件末尾）也能被 VLC 尝试播放。

30:07 – FFmpeg 详解

本节重点

FFmpeg 是一个强大的底层多媒体处理工具集。
它提供了命令行工具（ffmpeg, ffprobe）和核心库（libavcodec, libavformat 等）。
FFmpeg 的命令行工具本身就像一种编程语言，功能极其强大。
它的使命是让普通人也能轻松使用极其复杂的技术。

详细精要

FFmpeg 的定义：它是一个包含编解码库、多路复用/解复用器库、滤镜库的底层软件集合，并提供了一系列命令行工具来构建处理音视频文件的“管线”。它是几乎所有视频处理的基础，从 YouTube、Chrome、智能电视到 OBS 录制软件，无处不在。
技术民主化的象征：FFmpeg 实现了令人难以置信的公平竞争环境，无论是个人用户处理家庭录像，还是万亿美元市值的公司处理海量数据，都使用同一套技术栈。很多大公司内部就是靠一个几千字符长的 FFmpeg 命令行完成任务。
命令行即语言：FFmpeg 的命令行工具功能强大到可以看作一门编程语言。人们会编写程序来动态生成 FFmpeg 命令行，甚至用 AI 来生成命令行。它几乎可以完成像 Adobe After Effects 那样复杂的特效处理，但对于图像处理，却没有一个命令行工具能与之匹敌（ImageMagick 没有如此复杂的滤镜系统）。
核心使命：FFmpeg 和 VLC 的共同使命是让极其复杂的技术变得易于每个人使用。用户通过拖放文件或输入命令，无需理解其底层错综复杂的技术就能完成工作。这种工具化是播客、流媒体和 YouTube 革命能够发生的重要原因，因为它将在 90 年代需要花费数十万美元、体积如汽车般大小的专业设备才能完成的视频压缩能力，送到了每个人的手中。

51:07 – Linus Torvalds

本节重点

Linus Torvalds 的严苛主要体现在对内核维护者的代码审查上。
FFmpeg 和 VLC 的核心维护者数量极少，需要极高的代码质量标准。
开源社区的低语言门槛和直接的沟通方式可能被误解为无礼。

详细精要

关于 Linus Torvalds：Linus 的严厉和强硬风格广为人知，但 Jean-Baptiste 认为他创建 Git 的成就甚至比 Linux 内核本身更有趣。他的严厉通常针对的是那些他本人也认识的内核维护者，而非所有普通开发者。
为什么必须高标准：维护一个开源项目的核心团队非常小，VLC 核心团队约 5 人，FFmpeg 约 10-15 人。在数千名贡献者中，能长期留下来的人不到 1%。因此，当一位开发者的代码被提交后，他很可能因为换工作、生子、意外等原因离开，而核心团队将负责维护这些代码。所以代码必须优秀且可维护。
沟通中的文化差异：开源社区的交流有时显得生硬，这并非恶意，而是由其亚文化和现实因素决定的。
社区成员很多是内向者，且多数人的母语不是英语，语言的微妙之处难以掌握。
很多贡献是在日常工作之余的晚上，人们疲惫且忙碌，因此交流可能会很简练。这种直接是针对代码本身，而非个人攻击。

55:46 – 拒绝数百万美元以保持 VLC 无广告

本节重点

Jean-Baptiste Kempf 多次拒绝数千万美元，以换取在 VLC 中捆绑广告或间谍软件。
决策的动机是道德感和对项目的责任感。
VLC 起源于巴黎中央理工学院的一个学生项目，其技术和组织架构经历了漫长的演化。

详细精要

拒绝千万美金的原因：Jean-Baptiste 本人多次确认拒绝了高达数千万美元的商业合作邀约。他并未因此成为百万富翁，因为他在道德上认为这是“不正确的事”。他觉得自己没有完全的合法性来利用 VLC 赚钱，因为它是一项集体遗产。
VLC 的前世今生：
起源：VLC 的故事始于巴黎中央理工学院 (École Centrale Paris)。因学校校园由校友非营利组织管理，所有设施（网络、电视等）都由学生运营。90 年代初，学生为玩《毁灭战士》等低延迟游戏，向学校申请更快网络。在求助校方无果后，他们联系到一家法国大公司的 CIO，该 CIO 认为未来的视频在卫星上。
VideoLAN 项目诞生：1996 年左右，学生们在一个名为 Network 2000 的项目中，架设巨大卫星天线接收 MPEG-2 节目源，并通过高速园区网进行流媒体分发，这便是 VideoLAN 项目的雏形。该项目的客户端部分后来演变成了 VLC。
开源与延续：2001 年，该学生项目在创始人们的争取下成为开源项目。2003 年，Jean-Baptiste 加入后创建了非营利组织 VideoLAN，将项目从学校独立出来，并持续运营至今。他认为自己只是一个优秀项目的延续者。
对道德商业的坚持：他拒绝的邀约包括捆绑工具条（实为间谍软件）、修改默认搜索引擎、或在 VLC 内部添加广告等。他认为赚钱必须合乎道德。如果当初是 Netflix 来找他谈集成合作，故事可能会不同，但主动找上门的都是“不光彩的广告公司”。他这样做也是出于一种自我要求，希望能“晚上能安心入睡”，并对自己的选择感到自豪。

01:10:04 – FFmpeg 与 Google 的风波

本节重点

Google 使用 AI 大规模生成 FFmpeg 的安全漏洞报告，给志愿者开发者造成巨大负担。
安全社区普遍存在“警报疲劳”和轻视免费开源软件的问题。
微软团队曾像对待付费供应商一样，向开源项目免费索取紧急支持。
通过社交媒体的“网络对战”，FFmpeg 成功提升了公众意识并获得了更多捐赠。

详细精要

Google 风波始末：冲突的起因是 Google 开始使用 AI 大规模生成安全报告。这些报告针对的是一个 90 年代冷门游戏编解码器，其漏洞严重性被夸大。更严重的是，Google 在志愿者有时间修复问题之前，就率先向媒体宣传其 AI 的强大能力，这给志愿者带来了巨大的压力。这些 AI 生成的报告冗长且杂，对冷门编解码器形成了一种“AI 生成的拒绝服务攻击”。
安全社区的“狼来了”问题：Kieran 和社区的 Alex Strange 对此进行了尖锐的批评。他们认为安全社区中存在一种“自我炒作”的风气，通过制造恐慌来获取名声、奖金和会议邀请。一切都被标记为“高危”，这对维护者是巨大的心理消耗。他们把寻找漏洞的成就感建立在开源开发者免费劳动之上，而忽视了修复问题的成本。
一个例子是，某个可能导致一个像素颜色错误的整数溢出漏洞，也被标记为 7.5 级的红色高危。
微软 Teams 的供应商心态：微软 Teams 团队曾在一个志愿者维护的公开 Bug 追踪系统上，像对待已签署 SLA（服务水平协议）的付费供应商一样，声称他们的问题具有“高优先级”，并需要紧急支持。当项目方礼貌地请求一份长期维护的支持合同时，微软只提供了一次性几千美元的补偿，这与 FFmpeg 为其节省的巨额成本完全不成比例。
社交媒体的力量与结果：通过 FFmpeg 和 VideoLAN 的推特账号发布“辛辣”的推文，这些问题得到了有效解决。
Google 开始在报告漏洞时提供修复补丁和奖励。
对 FFmpeg 的捐赠大幅增加（尽管仍不足以雇佣一个全职开发者）。
之前在应用商店因微小问题被卡住一年多无法更新的 VLC Android 版，在发出“将停止分发”的警告推文后，迅速得到应用商店方的回应和解决。

01:29:18 – FFmpeg 的开发者

本节重点

驱动开源贡献者的首要因素是热爱（如动漫）。
参与 FFmpeg 或 VLC 是学习系统编程的“最佳学校”。
开源多媒体开发需要对计算机底层架构有深刻理解。
世界是一座热情项目的博物馆，而软件领域的热情项目能通过网络效应被无限放大。

详细精要

贡献的源动力：热爱与学习：
许多开发者加入社区，最初是因为热爱动漫，他们想要更好的编码和字幕工具，支持自己喜爱的内容。
另一个强大动力是，参与这些项目是学习 C 语言、汇编和计算机架构的“世界上最好的学校”。在这里写的代码会被世界上最顶尖的程序员 Review 每一处细节，让你无处遁形，必须直面自己的缺点并提升。
Andrew Kelley（Zig 语言创始人）就是在这里学习编程后，创建了自己的编程语言。
实时处理的硬性要求：与游戏引擎可以减速等待一帧不同，视频播放必须在 16 毫秒内完成一帧的解码和显示。任何延迟都会导致掉帧，破坏观看体验。这是一个严苛的硬实时系统。
深入底层架构的必要性：在这个领域编程，不仅仅是写代码，还需要深刻理解计算机架构，包括 CPU 流水线、SIMD（单指令多数据流）指令集、ALU（算术逻辑单元）工作方式、I/O、各级缓存（L1, L2, L3）及内存等。社区的争论会围绕着某一条汇编指令在不同 CPU 代际上会差几个时钟周期展开。
热情的放大效应：引用 John Collison 的话，“世界是一座热情项目的博物馆”。在软件世界，一个热情项目可以快速启动，并借助网络效应，其成就远大于各部分之和。一个或少数几个人，凭借一个愿景，就能创造出改变世界的东西，如 Linus Torvalds 在两周内创造了 Git。

01:35:55 – VLC 与 FFmpeg

本节重点

FFmpeg 和 VLC 是“双星系统”，相互依存，共同成功。
一个关键纽带是 VideoLAN 旗下的 x264 项目。
两者在功能、用户基础和开发者群体上深度交织。

详细精要

双星系统 (Binary Star System)：Kieran 用“双星系统”来比喻两者的关系，即 VLC 之于 FFmpeg，如同 Android 之于 Linux。它们因为彼此而共存和成功。网络上常有“VLC 只是 FFmpeg 的外壳”的误解，但实际关系要紧密得多。
项目间的相互依存：
一个关键纽带是 x264 编码器（一个广受欢迎的开源 H.264 编码器），它是 VideoLAN 项目，但也是大量 FFmpeg 工作流的核心依赖。
VLC 使用 FFmpeg 库，为其提供了在大量怪异文件上的曝光和测试机会。VideoLAN 也使用部分捐款资助 FFmpeg 的开发。它们在逆向工程等方面共同合作，共享开发者，形成了一个良性循环。
VideoLAN 项目家族：除了 FFmpeg 外，VLC 在编解码生态中还依赖众多第三方库。而 VideoLAN 旗下也有一个庞大的项目群，包括 x264, libdvdcss, libdvdnav, libbluray, dav1d 等。这些项目相辅相成，共同构成了一个强大的开源多媒体世界。

01:40:29 – FFmpeg 的历史

本节重点

FFmpeg 经历了不同的时代，每个时代由关键人物推动。
早期 FFmpeg 解决了播放混乱复杂的视频格式的痛点。
H.264 的解码成熟是 FFmpeg 发展的重要转折点。

详细精要

创建者 Fabrice Bellard：被誉为“神级程序员”，他奠定了 FFmpeg 的概念基础。
2000 年代 – Michael Niedermayer 的西绪福斯时代：这是 FFmpeg 发展的关键时期。Michael 的工作是让 FFmpeg 实现对 DivX / Xvid 以及各种怪异 MPEG-4 Part 2 变种（例如中国某些监控系统的独有版本）的全面支持。同时，FFmpeg 还开发了对 Windows Media 和 RealMedia 格式的原生解码器。
这项工作的伟大之处在于，在 2000 年代，播放不同格式的视频需要安装不同的播放器（如重和臃肿的 RealPlayer）。而 FFmpeg 作为一个统一的库，让 VLC 无需安装任何额外的、可能包含间谍软件的“编解码器包 (Codec Pack)”就能播放所有格式。此工作量极其巨大，充满了无穷无尽的边缘情况，如同西绪福斯推石上山。
2008 年后 – H.264 与高清时代：随着 H.264 解码器的成熟，FFmpeg 进入了高清视频时代。这也是大型逆向工程开始涌现的年代。

01:43:46 – 逆向工程编解码器

本节重点

逆向工程师是开源社区中的天才群体，代表人物是 Kostya Shishkov。
逆向工程一个二进制文件如同考古，通过反汇编器与调试器，在不断摸索中恢复出原始的压缩算法。
逆向工程工作对人类文化遗产的长期数字保存至关重要。

详细精要

逆向工程大师 Kostya Shishkov：这位住在德国的乌克兰开发者被描述为拥有“近似天才的头脑”。他能凭借直觉，将数十 MB 的二进制程序视为“二进制规范 (binary specification)”来进行逆向。他单枪匹马地为 FFmpeg 添加了对 GoToMeeting 等极端复杂的专有编解码器的支持。他的代码不仅强大，还充满了个人风格的玩笑。
逆向工程的详细过程（以 GoToMeeting 为例）：
寻找目标模块：在庞大的软件安装包中，找到那个执行视频解压缩的核心二进制文件（DLL/EXE）。
转储原始数据：通过调试器或虚拟机劫持该模块，运行一个样本文件，并导出解码后的原始 YUV 数据作为后续对比的参考（黄金样本）。
使用反汇编器分析：在反汇编器中打开该模块，大量依赖经验和直觉来识别代码模式。比如，猜测哪里是 DCT（离散余弦变换），哪里是熵解码。
反复试错与比对：这是一段漫长的“黑盒”工作。因为解码流程很长（熵解码、反量化、逆变换、预测等），在中间环节，缓冲区里都是无意义的系数，开发者是在纯内存层面进行调试。这很容易走错方向，可能因为一个系数缓冲区的理解错误而陷入“兔子洞”，前功尽弃。
样本的重要性：整个过程依赖多个样本文件，覆盖不同的编码工具和分支。有时社区会通过推特公开征集极端稀有的样本文件。
长期价值：这项工作的深远意义在于对未来数字遗产的保护。今天的会议录像文件（如 GoToMeeting 录制的 .wmv），未来在非 Windows、非 x86 的平台上（如 ARM、RISC-V）将无法播放。而将解码算法逆向并融入开源软件，就意味着这些数据将永久可读。

01:57:01 – FFmpeg 的测试

本节重点

FFmpeg 拥有一个名为 FATE 的自动化测试系统。
该系统由志愿者贡献的无数不同配置的计算机构成。
其目的是测试 FFmpeg 在无数种操作系统、编译器、指令集组合下的正确性，防止编译器误编译等问题。

详细精要

FATE (FFmpeg Automated Testing Environment)：这是一个庞大的、持续运行的自动化测试系统。访问 fate.ffmpeg.org 可以看到一个令人眼花缭乱的表格，里面是来自全球各地志愿者贡献的测试机器在几分钟前的最新测试结果。
测试范围的复杂性：测试矩阵包含了疯狂的组合：macOS、iOS、tvOS、不同版本的 Windows、各种 Linux 发行版、BSD、Solaris，甚至还在坚持运行的 OS/2。编译器方面，有不同版本的 GCC、Clang、Apple Clang、MSVC 等。架构方面，有 x86/x64、ARM、RISC-V，甚至已逝的 DEC Alpha 和 PowerPC。
测试的目的：主要为了应对两个问题：
兼容性：确保 FFmpeg 在所有环境下都能正确编译和运行。
编译器 Bug：FFmpeg 使用的复杂 C 代码有时会触发编译器的错误优化（误编译, miscompilation）。这在视频解码中是灾难性的，因为帧与帧之间存在依赖，解码开头的一个微小比特错误，可能会在后续帧中扩散成巨大的视觉故障。FATE 在这些真实硬件上运行测试，比对输出文件的 MD5 等哈希值，确保其位精确 (bit-exact)。

02:01:08 – 汇编代码（手写）

本节重点

手写汇编，特别是 SIMD 汇编，能带来数十倍的性能提升，远非编译器优化所能及。
dav1d 项目将汇编的使用推向了极致，甚至在内部创建了自己的函数调用约定。
现代编程趋势（如 Python 和类型脚本）让人忽略了底层优化的巨大价值。
Kieran 创建了 asm-lessons 教程，旨在系统化地传授这门“正在消逝的艺术”。

详细精要

什么是汇编与 SIMD：汇编是直接与 CPU 指令打交道的语言。FFmpeg 主要使用 SIMD（单指令多数据流），一条指令可以同时对一整个向量（如 16 个像素）进行操作，这非常适合视频这类对大面积相同重复数据进行计算的场景。
为什么必须手写汇编：编译器自带的自动向量化 (auto-vectorization) 功能和内置函数 (intrinsics)，其效率与手写汇编不是一个量级，不是慢 5%-10%，而是数倍甚至数十倍的差距。FFmpeg 推特曾发布一个案例：某个函数的手写汇编版本比 C 语言版本快 62 倍。社区内部分享这类真实数据时，总会激起那些坚信编译器无所不能的人们的激烈反对。
dav1d 的极致优化：
dav1d 解码器的代码中，79.9% 是手写汇编。这是一个惊人的工程奇迹。
为了追求极限速度，开发者甚至会“滥用”CPU 指令，例如使用与视频处理完全无关的加密指令来完成某些运算。
破坏函数调用约定：标准编程中，调用函数需要遵循操作系统 ABI（应用程序二进制接口）来保存和恢复寄存器状态，这会产生开销。dav1d 有时会在其库内部使用一套自创的函数调用约定，越过常规规则，以避免保存和加载寄存器的开销，从而榨取出更多性能。
学习汇编的价值与途径：
在摩尔定律接近失效的今天，硬件速度不再快速提升，深入底层进行代码优化变得越发重要。
Kieran 创建了 asm-lessons 教程，摒弃了传统汇编教学从指令集语法讲起的枯燥方式，采用了从解决实际问题出发的教学法。他强调，学习汇编所需的数学知识仅为高中数学，再加上 C 语言基础（尤其是指针）。
已经有很多学生通过这些教程学会了汇编，并向 FFmpeg 提交了他们的第一份汇编补丁。这证明了汇编并非遥不可及的“魔法”，而是可以被新一代程序员掌握的工具。

💬 精华片段（中文）

"这就是巅峰视频编解码器该有的样子：79.9% 的汇编，19.6% 的 C，还有 0.5% 的其他。"

"This is what peak video codecs should look like. Seventy-nine point nine percent assembly, nineteen point six percent C, and zero point five percent other."

💬 精华片段（中文）

”有些汇编语言真的很美，我认为它之所以美，有点像驾驶一架喷火战斗机。这是航空技术最纯粹的状态，但同时你也在将飞机推向设计者未曾想到的极限。“

"Some of this assembly language is really beautiful, and I think it’s beautiful because it’s kind of like flying a Spitfire. It’s really aviation at its purest, but also pushing the aircraft beyond what the designer thought was possible."

02:25:26 – Rust 编程语言

本节重点

Rust 在内存安全方面很有价值，但其社区存在“重写一切”的乌托邦倾向。
对于 FFmpeg/VLC 这类包含大量手写汇编的项目，将 C 部分重写为 Rust 并不能解决汇编部分带来的内存安全问题。
核心观点是“不要重写”，因为阅读和理解旧代码的成本远高于编写新代码。

详细精要

Kieran 对 Rust 的看法：认为它有浓重的“世界语 (Esperanto)”和 “Sinclair C5 (一个失败的电动车项目)” 气息，充满了乌托邦的自我感动，但离解决实际问题还有距离。要取代旧事物，必须做得和它至少一样好，而原型（85-90% 的功能）很容易，那最后 10% 才是 99% 的工作。
JB 对 Rust 的实践与看法：他认为 Rust 是一个更好的 C++，在内存管理和解析/网络等任务中表现优异，非常适合作全新项目。
但当与既有代码交互时，Rust 的优势会被削弱。而且 Rust 社区普遍存在的“重写一切”的冲动是错误的。阅读代码比编写代码难一个数量级，旧代码中包含无数业务逻辑和未文档化的决策智慧，轻易重写会重蹈无数失败的覆辙。
对于 dav1d 这类项目，将 C 壳重写为 Rust，而核心仍然是手写汇编，这毫无意义。因为手写汇编可以随意跳到内存任何位置，这完全破坏了 Rust 精心构建的安全模型。他认为，应该发展的方向是“安全汇编 (secure assembly)”，即在编译时对汇编代码进行安全检查。

02:34:42 – FFmpeg 与 Libav 的分裂

本节重点

2011 年 FFmpeg 与 Libav 的分裂源于项目治理和开发流程的分歧，而非技术原因。
分叉是开源社区的正常生态，可以打破现状，促使进步。
最终 Libav 的大部分工作被 FFmpeg 吸收合并，社区重新统一并变得更强大。

详细精要

分裂的本质：这次分裂主要是由项目治理、领导风格和开发流程上的分歧引起，而非根本性的技术差异。这就像 GCC/EGCS 和 KHTML/WebKit/Blink 等开源项目的历史分叉一样，是一种正常的开源现象。
分叉的积极作用：JB 认为，分叉虽然伴随着激烈的戏剧性，但可以打破社区的现状。以 GCC 为例，当时的分裂就是因为有人想从根本架构上改变编译器以使其更快。Libav 的竞争在客观上促使 FFmpeg 反思和优化了自身的审查、代码提交等流程。当分歧解决后，Libav 的活跃开发者都回到了 FFmpeg，并将 Libav 的开发成果也合并了回来，最终 FFmpeg 获得了 Libav 功能的超集，变得比以前更强大，最终受益的是用户。

02:43:04 – 开源维护者的倦怠

本节重点

开源维护者的倦怠问题严重，是现代开源面临的重大挑战。
AI 生成的垃圾报告加剧了维护者的负担。
维护者面临巨大的精神压力，有时甚至会收到死亡威胁。
用户的感谢是维持开发者热情的重要动力。

详细精要

维护者倦怠的原因：
外部压力：XZ 后门事件的悲剧性案例显示，一个维护者被有组织的攻击者通过持续、高压的“贡献”所压垮，最终被迫交出权限。另外，像 curl 的维护者 Daniel Stenberg 所指出的，AI 生成的代码垃圾正给维护者带来带来巨大负担，因为他们需要处理大量虚假或糟糕的补丁和问题报告。
被当作免费供应商：像 Google 的安全风波、微软 Teams 的“高优先级” bug 报告等事件，都反映出大公司和安全社区不把志愿者项目当回事，没有意识到他们是在消耗一个个活生生的人的精神资源。
个人遭遇的极端压力：
Jean-Baptiste 分享了自己曾收到带有疑似炭疽粉末的死亡威胁信件的经历，起因仅仅是他决定停止对老旧的 PowerPC 架构的 VLC 版本进行维护。这件事在当时给他带来了巨大冲击，但也锻炼了他的内心承受力。
他认为，面对难听的指责，需要一颗“强大的心脏 (tough skin)”。
支持的力量：
用户的感谢非常重要。JB 提到，每当他在 Reddit 上回复网友帖子，就会收到海量的“谢谢你的 VLC”留言，他会把这些截图发到开发者群里，这能极大地鼓舞团队士气。
为了不让感谢被淹没，JB 总是尽量回复每一个感谢私信，因为他想“验证这样一个事实：你需要感谢开源社区”。

02:50:51 – x264 与互联网视频

本节重点

x264 编码器凭借其出色的心理视觉优化，碾压了传统基于 PSNR 指标的编码器。
心理视觉率失真和自适应量化是 x264 成功的两大关键技术。
开源社区的反馈循环，尤其是在动漫编码优化上，推动了技术的真正进步。

详细精要

H.264 与 x264：H.264 是一套视频编码标准，而 x264 是它的一个开源实现，也是 VideoLAN 项目。x264 在互联网视频、蓝光光盘等领域占据了统治地位。今天，如果一个 H.264 视频产自软件环境，那它几乎肯定是用 x264 创造的。
颠覆性的优化：从数学到感知：
学术和工业界曾长期痴迷于数学指标 PSNR（峰值信噪比），但这会导致图像被过度模糊，因为算法会通过给整个画面加一点小误差来换取更小的均方误差。
x264 的核心突破在于引入了心理视觉优化：
1. 心理视觉率失真 (Psychovisual Rate Distortion)：在做编码决策时，会考虑人眼的感知，力求让画面看起来更舒服，而非追求冰冷的数学指标。
2. 自适应量化 (Adaptive Quantization)：动态地将更多比特分配给视觉上更复杂的区域，从简单区域（如平坦天空）中节省比特。
推动进步的样本与社区：
ParkJoy 样本：一个由瑞典电视台制作的、画质极高的公园跑步片段，包含树林、水面、草地、运动等极具挑战性的元素。这个样本清晰地展示了 x264 等带有心理视觉优化的编码器，远比那些只会追求高 PSNR 的传统编码器看起来要好得多。在开发者眼中，它是区分平庸与卓越的试金石。
动漫 (Anime) 社区是这个技术进步的催化剂。在 Crunchyroll 等正版平台出现前，大量动漫需要粉丝自购 DVD 并进行压制和字幕翻译（字幕组）。这些爱好者（如 Loren Merritt）对编码有极高的要求，他们不断在社区反馈、迭代，推动了 x264 去处理大量在正常实拍中不常见的、难以压缩的纹理和色彩渐变问题。

03:04:07 – 视频压缩基础

本节重点

介绍了 I帧、P帧、B帧的基础概念。
解释了 GOP（图像组）和显示/解码顺序的不同。
编解码器内涵盖了无数的灵活工具和参数，以适应不同类型的内容。

详细精要

帧类型详解 (IPB Frames)：
I 帧 (Intra-coded)：关键帧，是一幅独立且完整的图像，就像一张 JPEG 图片。
P 帧 (Predicted)：前向预测帧，只记录与前面参考帧（通常是 I 或 P 帧）之间的差异。
B 帧 (Bi-directionally predicted)：双向预测帧，它可以同时参考前面和后面的帧。这意味着一群图片的显示顺序和解码顺序是不同的，解码器需要先拿到未来的参考帧，才能解码当前的 B 帧，这是一个非常巧妙的机制。
一个 GOP (Group of Pictures)，就是从某个 I 帧开始，直到下一个 I 帧之前的一组帧。在 H.264 中，一个 GOP 可以长达 250 帧，即每隔几秒才有一个完整的关键帧。
编解码器作为工具集：现代编解码器（如 AV1）不是一个单一的算法，而是一整套编码工具的集合。为了适应不同内容（如摄像机实拍、屏幕录制、动画等），编解码器内部有不同的工具，编码器需要在编码时进行大量搜索，决定使用哪种工具组合效果最好。
YouTube 的工作流：YouTube 是一个很好的例子，它首先用 H.264 编码所有视频，但对于热门的视频，会再次用 AV1 重新编码，因为 AV1 能节省 40-60% 的带宽，虽然编码更贵，但对观看次数多的视频来说，总成本更低。

03:11:04 – CIA 与假 VLC

本节重点

通过维基解密文件曝光，CIA 和黑客组织都曾制作过包含后门的“假 VLC”。
VLC 在印度曾被全面封禁，直到 Jean-Baptiste 通过法律途径解封。
Google 对存在了12年之久的德国假 VLC 网站不作为。
VLC 正在进行一项极具挑战性的进程沙盒化（sandboxing）工作。

详细精要

情报机构与黑客的手法：CIA 曾在一次名为 “Vault 7” 的行动中，制作了一个特制版 VLC。它不是直接修改 VLC 主程序，而是额外添加了一个看似无害的 DLL 文件（如 psapi.dll），当用户观看电影时，这个文件会在后台悄悄加密并上传用户的文档文件夹。这是一种很“聪明”的攻击，因为看电影时用户通常不会操作电脑，风扇和 CPU 使用率上升也被认为是正常的。
一些黑客组织也会用类似手法，利用 VLC 的代码来包装恶意软件，进行目标攻击。
对抗恶意软件的困境：
印度政府封禁：曾有黑客利用 VLC 的一个 DLL 文件制作恶意软件攻击印度用户，导致印度政府直接封杀了 VLC，直到 JB 通过法律途径抗辩才得以解封。他强调，这就像有人用锤子杀人而去禁售锤子一样不合理。
Google 的不作为：一个在德国运营了至少 12 年的假 VLC 网站，提供带有自定义安装器的伪造版本。该版本会在安装后潜伏三周，然后悄悄下载间谍软件和广告软件。由于该二进制文件太大，超出了 Google 病毒分析器的检测限制，Google 明知此事，却一直未采取有效措施将其从搜索结果中移除。
VLC 的沙盒化挑战：为了提高安全性，VLC 团队正致力于将其从单一进程拆分为多个互相隔离的进程（沙盒化），这样如果其中一个部分崩溃或被攻破，不会影响整个程序。
这项工作的最大难点在于性能。VLC 处理的是千兆比特每秒级别的海量内存拷贝数据，这与对普通网页进行沙盒化完全不是同一个量级的挑战。要在如此高的吞吐量下维持安全隔离，又不影响性能，是一门非常困难的研究课题。

03:21:39 – 超低延迟流媒体

本节重点

Jean-Baptiste 的新创业公司 Kyber 致力于实现毫秒级的超低延迟视频流。
其目标是 4 毫秒的“玻璃到玻璃”延迟。
Kyber 解决机器人远程控制中的多传感器精确同步和时钟漂移问题。
通过 QUIC 协议将视频、音频和控制指令合并在单一连接中。

详细精要

Kyber 的终极目标：让距离消失，使远程控制如同身临其境。目标延迟是 4 毫秒 “玻璃到玻璃 (glass-to-glass)”，即从一个摄像头捕获光线，经过编码、网络传输、解码、渲染，到在另一个屏幕上显示出来的全过程，总时间不超过 4 毫秒。这相当于 240 赫兹的刷新率。目前他们已实现了 7 毫秒的延迟。
技术挑战与解决方案：
统一的连接：使用基于 UDP 的 QUIC 协议，在一个 socket 连接上同时传输多条数据流，包括音频、视频和控制指令（键盘、鼠标、游戏手柄等）。
时钟漂移同步：这是 Kyber 的核心技术之一。当控制一个机器人（如特斯拉的 Optimus 或自动驾驶汽车）时，它会有多个摄像头和大量传感器。然而，所有硬件的时钟都会漂移。Kyber 集成了 VLC 和 FFmpeg 多年来在广播级 MPEG-TS 处理中积累的经验，实现了对时钟漂移的精确补偿和时间戳重映射，确保所有传感器数据在回放和用于 AI 训练时是严格同步的。
应用场景：
远程操控与监测 (Teleoperation & Teleobservation)：无论是飞行无人机、操控人形机器人、云游戏，还是价值数十亿美元的 Waymo 自动驾驶出租车在 1% 的情况下需要远程安全员接管，Kyber 的技术都能提供关键的实时控制能力。
训练机器人 AI：提供精准同步的多模态数据，用于端到端 AI 模型训练。

03:39:07 – AV2 编解码器与视频专利

本节重点

AV2 是 AV1 的下一代，目标是将效率再提升 30%。
视频编解码领域是一个巨大的专利雷区。
专利勒索是导致 AOM（开放媒体联盟）和 AV1/AV2 等免版税标准诞生的直接原因。
欧洲对软件专利的限制保护了 VLC 等开源项目。

详细精要

AV2 与 dav2d：AV2 是下一代免版税视频编解码标准，预计比 AV1 的效率再高 30%。其对应的 VideoLAN 开源解码器项目将被命名为 dav2d（发音似“大卫”）。
专利雷区与 AOM 的诞生：
视频编解码是数学密集型领域，因此充满了专利。在 HEVC (H.265) 时代，专利许可状况变得极为混乱。出现了三个互不兼容的专利池（MPEG LA, HEVC Advance 以及像诺基亚这样的独立权利方），导致要合法使用 HEVC，不仅过程复杂，成本还极高且没有上限。
这直接导致像 YouTube 和 Netflix 这样的公司，每年光是专利费就可能高达数亿美元。他们意识到，与其支付如此高昂的专利税，不如自己出钱建立一套免版税 (Royalty-Free) 的标准。这便是 AOM (Alliance for Open Media，开放媒体联盟) 及 AV1 标准诞生的商业逻辑。
在 AOM 的编解码器开发过程中，会有专门的专利审查环节，试图规避所有已知专利。而 MPEG 的标准制定过程是完全禁止讨论专利的。
VLC 的“避风港”：VLC 项目之所以能存在，部分原因在于它起家于法国。法国及大部分欧洲地区的法律不承认纯粹的软件专利或数学方法专利。Jean-Baptiste 曾计算过，如果要为 VLC 支付所有其涉及的编解码器专利费，每位用户将需要支付超过 200 欧元，这显然是不可能的。如果真要付，他会把项目关闭或者迁移到马耳他、开曼群岛等地重新开始。

03:48:59 – VLC 的后门

本节重点

多个情报机构曾要求 Jean-Baptiste 在 VLC 中植入后门，均被拒绝。
VLC 的编译过程极其偏执，采用完全离线、双重签名等方式，以确保软件供应链安全。
VLC 从不审查用户播放的内容，因为它是完全离线的工具，没有遥测。

详细精要

拒绝后门请求：JB 明确表示，有两家情报机构曾与他接触，要求在 VLC 中加入后门。他的回答虽然没像“见鬼去吧”那么不礼貌，但态度非常坚决。他的原则是，如果软件必须被妥协，会直接关停项目。
偏执的安全措施：为了防止被植入恶意代码，VLC 的编译过程极其严格。他们使用从未连接过互联网的离线计算机，甚至从编译自己使用的编译器开始，以确保整个编译链条的纯净。软件的签名过程也采用双重签名等机制。这种偏执是有原因的，他们曾发现并相信，有来自非西方世界的政府机构试图将伪造的二进制文件推送到他们的服务器上。
作为工具的中立性：VLC 是一个完全离线的工具，不连接任何服务器，不包含任何遥测代码，因此它无法知道用户用其播放了什么内容。他们不会、也无法根据视频内容进行审查。即使政府要求他们提供某个用户是否观看了某类视频的信息，他们也回答“不知道”。
他们与执法部门的唯一合作形式是提供纯粹的技术支持。例如，美国警方曾因某旧版本 VLC 无法播放一起谋杀案中的关键损坏视频文件而联系他们，请求技术帮助，但从未向他们发送过视频文件本身。甚至还有在阿富汗前线的美军士兵联系他们，因为 VLC 的更新导致他们军营局域网内用于提升士气的电影服务器出现故障。

03:59:14 – 视频存档

本节重点

有一支专门的视频存档社区，将 FFmpeg 视为保存人类多媒体遗产的“罗塞塔石碑”。
他们资助了 FFV1 无损编解码器的开发。
C 语言因其接近数学逻辑的特性，被认为是能跨越千年的语言。

详细精要

存档社区的崇高使命：以 Dave Rice（纽约城市大学）为首的一批人对 FFmpeg 的重要性有着独特而深刻的理解，他们将其视为多媒体领域的“罗塞塔石碑 (Rosetta Stone)”。他们的目标是确保今天我们创造的视频，在 1000 年后依然能被播放和理解。
他们没有资金购买昂贵的商业软件，但他们深知确保长期可访问性的极端重要性。英国的“新末日审判书 (New Domesday Book)”项目就是一个反面案例，他们将数据存储在 BBC 微型计算机上，但 15-20 年后就没人有能正确播放它们的软件了。
技术与理念：
他们资助了 FFV1 编解码器的开发。这是一种专为存档设计的无损压缩格式，它不仅是无损的，还要保证能够快速地进行基于 CPU 的编解码，并且具备极高的弹性，能够从单个比特的错误中快速恢复，而不会像有损编码那样因丢失了一个比特而毁掉一整个 GOP。
他们相信用 C 语言编写的 FFmpeg 能流传千古。他们认为，1000 年后可能没有能运行我们今天操作系统的机器了，但 C 语言作为接近数学逻辑的语言，会像拉丁文一样作为一种古典语言被理解和研究，从而确保写在里面的解码逻辑能被后人重新实现。
社群的温度：这群人也反过来为 FFmpeg 提供了关于色彩学、老式胶片和磁带特性等方面极其专业的知识。他们正为了抢救上世纪 30-80 年代那些正在物理退化的胶片和录像带而与时间赛跑，面临着“必须决定保存什么、丢弃什么”的巨大伦理压力。

04:05:51 – FFmpeg 与 VLC 的未来

本节重点

FFmpeg 的未来是成为所有“多媒体”的框架，其定义将扩展到人类的所有感官。
VLC 和 FFmpeg 将扩展支持 3D、点云、气味、脑电波等新型数据流。
新标准的诞生遵循技术成熟度曲线，开源框架是实现标准化的关键一步。
他们不后悔任何事，过往都是学习。

详细精要

“多媒体”定义的扩展：对于 5-10 年后的未来，Jean-Baptiste 认为 FFmpeg 将继续存在。他们认为，未来的 FFmpeg 将不仅处理音视频，还会扩展到人类的所有感官。
气味：会有气味传感器和扩散器，它们的数据流会作为一个新的轨道类型（track type）出现在 muxer 和 demuxer 中，就像杜比全景声一样，我们可以期待“左鼻孔/右鼻孔的立体声嗅觉流”。
触觉与脑电波：VLC 已经有一个插件可以处理某些主题公园里 4D 影院的液压动作数据流。未来，无论是通过脑机接口（如 Neuralink）传输的数据，还是给机器人远程操作发送的触觉反馈，都将是 FFmpeg 处理的范畴。
技术与标准的成熟曲线：Jean-Baptiste 总结了一个规律：一个新技术出现时，会有 5-6 个不同的私有标准竞争。然后，随着热度降温，行业中的一些参与者（通常是排名第二和第三的公司）会合作制定一个开放标准。此时，像 FFmpeg 和 VLC 这样的开源项目就会站出来实现这个标准，从而加速标准的普及，最终倒逼行业领头羊也采用该标准。
哲学与人生态度：在谈及是否有令自己后悔的推文时，Kieran 和 JB 引用了法国名曲《我无怨无悔 (Non, je ne regrette rien)》的精神：“后悔是对你心智征收的税。” 我们应该从错误中学习，但绝不要沉浸在后悔中，除非你有时光机能回到过去改正它。
FFmpeg 的影响力已经超出了地球。Kieran 提到，已经有论文证实 NASA 毅力号火星车上使用了 FFmpeg 来压缩图像，因为他们希望尽可能使用现成的商业技术。JB 补充说，欧洲核子研究组织 (CERN) 的大型强子对撞机 (LHC) 也曾用 VLC 来监控长达 27 公里的环形隧道中的模拟摄像头，他们还曾受邀前往参观并解决了一个技术问题。

专业术语注释

术语	解释
FFmpeg	一个自由软件，可以执行音频和视频多种格式的录影、转换、串流功能，包含了 libavcodec 这个领先的音视频编解码库。它是无数音视频软件的基石。
VLC	一款自由、开源的跨平台多媒体播放器及框架，可以播放大多数多媒体文件，以及 DVD、音频 CD、VCD 及各类流媒体协议。
编解码器 (Codec)	编码器/解码器的合称，一种能对数字视频或音频进行压缩或解压缩的软件或硬件。
容器 (Container)	一种文件格式，用于将压缩后的视频、音频、字幕等数据流打包在一起。常见的如 MP4、MKV、MOV。
解复用/复用 (Demux/Mux)	解复用 (Demux) 是将容器中的不同数据流（音视频）分离出来。复用 (Mux) 则是其反过程。
YUV	一种色彩空间，Y 代表亮度 (Luminance)，U 和 V 代表色度 (Chrominance)。人眼对亮度比对色彩更敏感，因此视频压缩常通过压缩色彩信息来减少数据量。
频域 (Frequency Domain)	通过数学变换（如 DCT），将图像从像素空间转换到频率空间。这可以更好地分离出重要和次要的视觉信息。
I/P/B 帧	I 帧是关键帧，包含完整图像；P 帧是前向预测帧，依赖前帧；B 帧是双向预测帧，可依赖前后帧。它们构成了视频压缩的核心帧结构。
GOP (Group of Pictures)	图像组，指从一个 I 帧开始到下一个 I 帧之前的序列。
H.264 / AVC	一种高度压缩的数字视频编解码器标准，是目前应用最广泛的视频编码标准之一。
AV1	一种开源的、免版税的视频编码格式，由开放媒体联盟 (AOM) 开发，旨在取代 H.264/HEVC。
x264	一个兼容 H.264/AVC 标准的免费、开源视频编码器，属于 VideoLAN 项目。
dav1d	一个专注于性能的、极其高效的开源 AV1 视频解码器，由 VideoLAN 社区开发。其绝大多数代码是手写汇编。
软件解码 (Software Decoding)	使用 CPU 的通用计算能力来解码视频。灵活，但在功耗和处理速度上可能不如硬件解码。
硬件解码 (Hardware Decoding)	使用 GPU 或 SoC 中专门用于视频解码的模块来处理视频。速度快、功耗低，但支持的格式和规格受限。
损失性压缩 (Lossy Compression)	通过永久性地移除某些（通常是人眼耳不易察觉的）信息来减小文件大小。绝大多数互联网视频音频都采用此方式。
位精确 (Bit-exact)	一个要求严苛的标准，意味着对于同一输入标准流的解码，任何正确的解码器实现都必须产生逐字节完全相同的输出。
SIMD (Single Instruction, Multiple Data)	单指令多数据流，一种CPU指令集扩展，允许用一条指令同时对多个数据点执行相同的操作，是视频编解码加速的关键技术。
手写汇编 (Handwritten Assembly)	程序员直接编写 CPU 能理解的底层机器指令，而非依赖编译器生成。这通常是为了获取极致的性能。
FATE	FFmpeg 自动化测试环境，一个庞大的、由志愿者计算机组成的测试网络，用于确保 FFmpeg 在各种软硬件环境下的正确性。
心理视觉优化 (Psychovisual Optimization)	在视频压缩决策中，侧重于优化人眼实际看到的感知质量，而非单纯追求像 PSNR 这样的冰冷数学指标。
逆向工程 (Reverse Engineering)	在没有文档的情况下，通过分析软件或硬件的二进制代码来还原其设计原理、功能和算法的过程。
版权左派 (Copyleft)	一种许可证类型（如 GPL），要求对使用了该许可证的代码进行修改和再发布时，也必须以相同或兼容的许可证开源。
SLA (Service-Level Agreement)	服务等级协议，通常指服务提供商与其客户之间就服务质量、响应时间等达成的正式合同。
GPL / LGPL / MIT	几种常见的开源软件许可证，对使用者的限制和要求（如是否必须开源衍生作品）不同。
Sandboxing	沙盒化，一种安全机制，将运行中的程序隔离在一个受限环境中，以防止它对系统或其他程序造成损害。
QUIC	一种基于 UDP 的新一代传输层网络协议，旨在减少延迟，并提供与 TCP 相同的可靠性。
Open Source Burnout	开源倦怠，指开源软件的维护者和贡献者在长期无偿、高压、缺乏认可和外部苛责的环境下，出现精力耗竭和精神耗竭的现象。

延伸思考

开源软件的可持续性困境：当整个现代互联网都依赖于像 FFmpeg 这样由寥寥数人志愿者维护的软件时，我们该如何建立一个更公平、更可持续的经济模型？企业“捐几百万”才是常态，而目前微软 Teams 只想给几千美元解决问题，这种巨大的价值与回报的落差如何弥合？
手写汇编的复兴？ 在摩尔定律放缓、AI 推理对算力需求激增的今天，像 dav1d 那样通过手写汇编来榨干硬件每一滴性能的做法，是否会在一些关键基础设施软件中成为一种更广泛的趋势，而不仅仅是视频编解码的“独门秘技”？
安全研究与开发的对立统一：安全社区与开发者社区之间巨大的立场差异（“警报疲劳” vs “维护者倦怠”）如何才能走向良性循环？AI 的介入是放大了这一矛盾，还是有可能成为均衡双方能力的工具？
数字长存的罗塞塔石碑：我们正在产生的海量数字内容，在未来 1000 年后还能否被读取？FFmpeg 和 C 语言被视为一种解决方案。我们是否需要设立一个“现代亚历山大图书馆”，专门存储这些关键开源软件及其代码的所有文档和二进制文件，以备文明重启之需？
专利与创新的博弈：视频标准领域激烈的专利战和“雷区”现象，最终催生了 AV1 这样的免版税标准。这种“被逼出来的开放”是最终解决了问题，还是只是将战场从技术转向了法律，甚至可能抑制了后续的创新投入？

原文发表：May 06, 2026 · 纪要生成：2026-05-11