朱邦华：SGLang，强化学习，英伟达收购，二次创业，清华，伯克利，LMSYS，Chatbot Arena，善于放弃

来源： YouTube | 朱邦华 (Relies Arc CTO) | May 17, 2026 分类： 其他 原文发表： May 17, 2026 纪要生成： 2026-05-24

全集重点

二次创业的选择：放弃数千万美元既得利益，只因相信AI基础设施民主化和Agent未来的使命。
强化学习的本质分野：RLHF 让模型更像人，RLVR 让模型成为工具，两者分别解决对齐和智能问题。
从理论到实践的哲学转变：当模型规模超越理论预测能力，能降低50%成本的系统工程比理论影响更大。
“品味”是AI人才的终极筛选器：在AI编码时代，对代码和系统设计的“好品味”与批判精神，是驱动Agent产出高质量成果的核心。
善于放弃才能抓住版本：在这个AI变革的时代，犯错的成本变低了，敢于放弃既定路径、拥抱新方向的人，将获得更多。

嘉宾/话题简介

朱邦华（Relys Arc CTO）是开源推理框架SGLang的联合创始人。他本科毕业于清华大学电子系，在加州大学伯克利分校获得博士学位，期间师从两位统计学与机器学习泰斗 Michael Jordan 和 Martin Wainwright。他曾创立 Nexoflow AI，专注于企业级Agent后训练与强化学习，后被英伟达收购。在英伟达工作数月后，他放弃了巨额的留任激励，携手长期合作伙伴盛颖再次创业，创立了AI基础设施公司 Relies Arc，并获得10亿美元融资，旨在为更多公司和开发者提供前沿、开放的AI训练与推理基础设施。

分节详述

00:45 二次创业与Relies Arc的宏大愿景

本节重点

首次创业的公司被英伟达收购，朱邦华放弃了足以安稳生活的股票激励。
放弃的核心诱惑在于社区、技术、人才以及公司的使命。
Relies Arc的终极目标是打造并民主化前沿级别的AI基础设施。
公司目前聚焦于强化学习框架和以SGLang为代表的推理引擎。

详细精要

放弃巨额利益的决定：朱邦华在首次创办的 Nexoflow AI 被英伟达收购后，工作仅数月便选择离开，放弃了巨额未兑现的股票。
他坦言这笔钱的数额“足够让一个人生活得很安稳”，但无法与一些创始人从零到一的放弃相比。
做出这个决定的根本原因在于，他更被社区的技术、人才以及公司要完成的使命所吸引。
Relies Arc的定位与愿景：公司本质上是一家AI基础设施公司，其核心是做大模型训练和推理所需的系统。
愿景是使前沿AI实验室级别的AI基础设施“民主化”，让更多公司、开发者能够使用到更开放、更可靠、更高效的AI基础设施。
业务重心覆盖一个完整的生命周期：训练和推理。在训练方面，他们在做新一代的强化学习框架；在推理方面，他们在推进开源推理框架 SGLang。
SGLang的市场采用情况：作为开源推理框架，SGLang已经获得了非常广泛的开源采用。
包括 Google、微软、甲骨文、英伟达、AMD 等大厂，以及 Rely、DeepSeek 等前沿AI公司都与其有深度合作。
选择训练与推理双轮驱动的商业逻辑：这是一套自然形成的“飞轮效应”。
企业在模型落地过程中，会产生大量私有数据，这些数据对改良模型极其宝贵。从成本效益上看，客户必然倾向于先用自己产生的数据去训练（后训练）出一个更满意的私有模型，然后再进行推理部署。
这样，Relies Arc既可以帮助企业提升私有模型的能力，它们在使用推理服务的同时又能产生新的数据，进而继续促进模型改进，形成一个正向循环。

💬 精华片段（中文）

"The most important thing is one is the community's technology and people. And one is the mission of the company and the things to do. I think these two things may be very attractive to me." “最重要的是两样东西，一个是社区的技术和人，另一个是公司的使命和要做的事情。我觉得这两样东西对我吸引力非常大。”

06:53 商业模式的扩散：从前沿实验室到500强企业

本节重点

完整的训练-推理飞轮正从前沿实验室向新实验室和AI原生公司扩散。
未来，传统公司和财富500强企业也将大规模采用后训练+推理的模式。
朱邦华与SGLang的缘分始于其在伯克利期间与盛颖等人的合作。

详细精要

后训练需求的逐步扩散路径：整个模式从一开始只发生在前沿实验室，正在逐步向更广泛的群体渗透。
第一阶段是前沿实验室自身，如 OpenAI、Anthropic 等。
第二阶段是新一代的AI实验室和AI原生公司，这些公司离AI稍远，但体量可观。
第三阶段将是传统公司，包括财富500强企业。当它们意识到AI的能力边界无法满足其特定需求时，必然会选择使用私有数据做后训练再进行推理。
与SGLang的渊源：朱邦华最初并未直接参与SGLang项目，他是在其发展后期才正式加入。
SGLang由盛颖和 郑连明 创立，三人是伯克利时期的长期合作伙伴。
在SGLang之前，市场上已有另一款流行的开源推理引擎 VRM。朱邦华认为在没有一个极强的产品和开源软件优势下，很难说服用户切换。
经过一两年的发展，SGLang的社区成熟度和采用率都变得更好，改变了包括他合作伙伴在内很多人的职业和生命轨迹。基于此，他在去年底与盛颖进行了多次深入交流后，决定全职加入。
这轮AI浪潮的起始与判断：朱邦华在2022年底 GPT 刚出现时就敏锐地意识到其颠覆性。
当时他正在伯克利读博第五年，研究机器学习和统计学理论。试用GPT后，他感到这可能是“过去时代的终结”，并在2022年底决定转向语言模型和GPT相关的研究。
他与 OpenAI 联合创始人 John Schulman 有过关于RLHF理论的邮件交流，并与盛颖团队在Flexion（CPU上做语言模型推理的论文）等项目上合作，开启了 LMSYS 和 Vicuna 等一系列早期知名项目的工作。

💬 精华片段（中文）

"At that time, I tried the GPT 3.5 and it wrote code. It really shocked me. I never thought that a next token prediction machine could write a simple lead code question." “当时我试了GPT 3.5，它写了代码。那真的让我震惊。我从没想过一个基于下一个token预测的机器能写出一道简单的LeetCode题目。”

16:29 Anthropic的新多模态模型与AI交互的未来

本节重点

Anthropic发布的交互式多模态模型展示了新一代人机交互的范式。
这种多模态交互将对数据管线、模型Tokenizer设计以及整个底层基础设施提出全新挑战。
DeepSeek V4等创新架构的出现，迫使推理引擎进行深度定制和优化。

详细精要

对Anthropic多模态交互模型的看法：朱邦华认为Anthropic发布的交互式模型展示的Demo让人印象深刻，开创了更实时、多模态的人机交互新尝试。
他欣赏Anthropic的文化，他们很愿意让研究人员去尝试不同的事情，哪怕有些尝试可能不会立即获得巨大成功，但始终在为创造下一代产品而探索。
多模态模型对基础设施的新挑战：这种能同时处理多模态输入和输出的模型，会带来颠覆性的改变。
数据管线：例如，模型能“看到”用户在思考并等待回应，这种非文字的自然交互类型需要全新的数据准备流程。
模型与基础设施设计：语言模型本身的token设计、以及整个Infra的设计都将面临全新的挑战。
DeepSeek V4带来的工程挑战：DeepSeek V4的模型架构非常有创意，但这也给推理基础设施带来了巨大的适配挑战。
需要专门针对其特殊架构进行大量新的设计和更改，例如：为 Prefix Caching 做的 Shadow Radix 设计、对稀疏架构的深度稀疏优化等。
朱邦华透露，当时可能有半个公司的同事都为这个项目投入了大量经验和支持。结果是，DeepSeek V4 的推理性能和交付体验在短时间内得到了巨大提升。
中美工程技术人才的能力差异观察：朱邦华观察到，在AI基础设施领域，中美工程师各有优劣。
美国工程师：更擅长从0到1的创新，拥有很多天马行空的想法，能创造出全新事物。
中国工程师：一旦目标明确，从100做到完美的落地能力极强，写代码又快又可靠。
他还提到一个有趣的观察：在一个AI基础设施的开源社区里，如果中国开发者的数量不能超过一半，整个项目的代码贡献量会迅速下降。他将其归因于，在当前这个以编程和规模化能力为核心的AI时代，中国工程师在理解如何写出最佳系统、做最好的数据与算法方面更具优势。

23:25 开源模型领域差距与RL环境的决定性作用

本节重点

中美开源模型差距约6个月，而美国前沿新实验室与OpenAI等巨头的差距约1年。
国内模型在复杂的Agent强化学习环境上相对滞后，这成为了隐性瓶颈。
环境本身的设计，包括奖励函数和用户模拟，是一个被低估的“艺术问题”。

详细精要

对新老实验室差距的判断：朱邦华根据自己一线适配模型的观察做出了明确的比较。
中国与美国开源模型的差距大约是 6个月。
美国本土的新兴实验室与OpenAI这类顶级实验室相比，发布时间上的差距可能接近 1年。
他特别提到英伟达的 NEMO 模型虽然还在路上，但进展非常快，这个差距正在逐渐缩短。
国内模型的关键短板：RL环境：他认为国内模型在纯粹模型能力上其实还不错，但在一个相对有限的领域存在短板。
真正的差距在于处理真实、复杂强化学习任务的 RL环境。由于某些原因，国内对这一块的投入和积累不如美国。
这使得美国公司能持续投资更复杂的Agent RL基础设施，而国内在此处可能会稍微落后。
RL环境（Environment）的重要性：这在当前Agent时代很容易被忽略，但它正成为新的瓶颈。
在代码执行、多Docker环境等复杂场景下，CPU 的重要性正重新凸显，因为很多延迟和并发瓶颈都出在CPU侧。
奖励函数（Reward）的设计是一个“艺术问题”，如何设计出非常高质量的奖励信号极具挑战。
在一个多Docker环境里，如何模拟一个非常真实的用户，也是一个非常开放的前沿问题。谁能设计出这样的环境和数据，谁就能在模型训练上获得巨大优势。
在美国，为了推动前沿实验室解决复杂任务，出现了很多像 e2b 这样的环境设施公司，市场对此有强需求。而国内此类创业公司相对少见。

💬 精华片段（中文）

"The environment is a relatively easy to be ignored... especially how to design this reward is an art problem." “环境是一个相对容易被忽略的东西……特别是如何去设计这个奖励，是一个艺术问题。”

27:09 首次创业：Nexoflow AI与PPO实战经验

本节重点

2023年创立Nexoflow AI，在公司创立初期即利用PPO成功训练出7B的RLHF模型。
当时大多数人认为PPO不work，转而使用DPO，但朱邦华通过大量工程trick证明了PPO的上限极高。
RL训练的调参高度依赖直觉，因为搜索空间太大，无法进行网格搜索。

详细精要

Nexoflow的创立背景：2023年，朱邦华和导师抓住机会，用开源数据训练了一个 7B 的早期版本RLHF模型。
这个模型在 LMSYS Chatbot Arena 上登顶，极大地展示了如何让模型更善于交流并给出令人满意的回答。
他们当时的愿景是：如果能把RLHF做到极致，就能用同样的方法让模型变成一个能执行Function Calling甚至多步任务的 Agent。这是“Next Flow”的由来。
PPO与DPO的路线之争：当时社区普遍发现OpenAI所用的 PPO 算法在开源复现中不work，因此更简单、无需训练Critic的 DPO 成为主流。
朱邦华团队通过深入研究，发现PPO不work是因为里面有大量实现细节和陷阱（hidden pit），如果这些细节调整不到位，就会得到完全错误或相反的结果。
他相信只要能调整好这些trick，PPO的上限远比DPO高。事实证明，他们用PPO训出的模型表现优异。虽然后来 GRPO 等方法出现，让人们用PPO的变少了，但他坚持认为PPO的潜力未被完全挖掘。
RL调参的“直觉”艺术：由于模型训练的维度太高，无法进行传统的超参数搜索，整个优化过程极度依赖直觉。
他举了一个具体的例子：在训练时，如果用初始化的 Critic（价值函数） 直接去优化Policy（策略模型），会破坏语言模型的权重。因为Critic刚开始的Loss非常高，直接用它提供的梯度更新Policy是不对的。
正确的“Trick”是：先用一些数据单独对Critic进行预热训练，使其Loss收敛到一个相对较低的位置，然后再将其接入PPO流程，初始化整个训练。
他当时从未接触过语言模型，但基于理论直觉，在一两个月内就完成了从模型训练到登顶的全过程，这得益于2023年那个处于“百花齐放”早期阶段的时代。

💬 精华片段（中文）

"To be able to design this reward, at the same time even in multi-docker environments how to simulate a very good user, these are some very open problems." “能够设计出这样的奖励，同时即便在多Docker环境里如何去模拟一个很好的用户，这些都还是些非常开放的问题。”

35:39 RLHF与RLVR的概念解析

本节重点

RLHF (从人类反馈中进行强化学习)的核心是训练一个奖励模型，让大模型的回复让人更“喜欢”。
RLVR (基于可验证奖励的强化学习)的核心是直接利用客观标准（如数学答案对错）作为奖励信号。
简单理解，RLHF让模型会聊天，而RLVR则让模型变成能解决问题的有效工具。

详细精要

RLHF的运作机制与目的：RLHF旨在让模型的对话风格更贴近人类偏好，使其更容易被“喜欢”。
其思路是先训练一个 奖励模型。这个模型通过学习人类对多个不同回复的排序数据，来预测什么样的回复是“好”的。
然后，用这个奖励模型去指导通用大模型的训练。在GPT-3.5之前，模型回答往往很简短，信息量不足。经过RLHF后，模型的回答变得口吻亲切、内容丰富，更受人喜欢。
RLVR的运作机制与目的：RLVR的核心是利用 可验证的、客观的奖励。
常用于有明确对错的领域，比如数学题或代码题。你可以直接运行代码，看它是否通过测试用例，这就提供了一个完全客观的奖励信号。
这种方法对提升模型在特定客观任务上的智能极为有效，包括现在很多复杂的 Agentic任务，也可以通过最终目标是否达成来给出可验证的奖励，从而使训练过程更客观。
两者关系：RLHF通常在模型训练的最后阶段，用于进行对齐，使其符合人类价值观。而RLVR则是在整个后训练过程中，持续推动模型智能和工具使用能力提升的关键。

39:23 创业的教训：时机与英伟达收购后的GEMO项目

本节重点

第一次创业最大的教训是：做最正确的事，也必须在最正确的时机。
放弃数千万美金加入英伟达，是为了体验万卡级GPU集群带来的系统挑战。
在英伟达领导的NEMO GEMO项目，目标是成为一个Agent数据收集与后训练的联邦平台。

详细精要

时机的重要性：朱邦华反思，虽然他们早在2023年就预测了Agent趋势，但当时市场教育成本极高。
他们需要花大量时间向市场解释“什么是Agent”，以及它能带来什么价值。
由于入场稍微偏早，导致无法立刻进入最主流的市场。他总结道，创业的关键是“在对的时间做对的事”，否则太早的技术先驱会成为教育市场的铺路石，让后来的第三、第四家公司活得更好。
加入英伟达的动机与体验：签约那天他心情平静，把这次收购看作一个新的开始，并期待成为“GPU富人”。
他原以为能获得海量卡，结果发现作为收购进来的创业团队，最初只分配到大约 2-4个节点（约100-130张卡），颇感“失望”。
他在英伟达内部领导了一个名为 NEMO GEMO 的项目。这是一个非常宏大的构想：希望打造一个英伟达内部的开放式Agent数据联邦平台，各个团队都可以将自己的数据放上去，用于训练模型。
从一个小团队开始，最终演变成一个全公司多个团队参与的项目，体验了一个大公司内部如何推动一个自下而上的创新。
万卡与四卡的系统鸿沟：在英伟达，他深刻体会到了大规模基础设施的挑战。
对于小模型或几十亿参数的模型，在几个节点上训练相对简单。但一旦规模扩展到万卡级别，整个Infra的要求就完全不同了。
必须设计复杂的故障容错机制，并确保在容错后，整个集群的计算精度和MFU（模型FLOPs利用率）依然匹配。这种系统工程的经验，是在初创公司无法获得的，这也是很多从大公司出来的人能成功训练超大模型的原因。

💬 精华片段（中文）

"If you just do some very small-scale training, then actually you have no way to generalize the experience of large-scale model." “如果你只是做一些非常小规模的训练，那么实际上你没有办法推广出大规模模型的经验。”

47:23 学术生涯转变：从理论大师到系统工匠

本节重点

从统计学和机器学习理论转向AI系统与语言模型，是因为当模型规模大到一定级别，系统能力比理论能带来更大影响。
在Berkeley期间，从Michael Jordan、Jacob Steinhardt等人身上学到了如何判断未来5-10年的重要问题。
一个顶尖PhD的价值不在于论文数量，而在于是否有且仅有一项所有人都知道、都在用的影响力工作。

详细精要

学术转向的逻辑：在GPT出现后，朱邦华发现问题的性质发生了根本变化。
过去，模型的规模很小，算法理论的微小改进就能覆盖大部分训练效果。
但当语言模型的规模大到一定程度，纯粹的理论研究（如预测模型能否变得更聪明）变得“不那么重要”。最关键的问题变成了：如何用最小的成本让这件事发生？
如果一个好的系统能将训练一个大模型的成本从10块降到5块，那么它给世界带来的实际影响，远大于一个单纯的理论推导。因此，他选择从理论转向了系统。
从清华到伯克利的学习经历：他通过 UGVR 项目从清华到斯坦福暑期交流，后进入伯克利攻读博士。
他最初的研究兴趣从电子工程转向计算生物学，因此拿到了斯坦福的offer，但最终选择了伯克利。
他师从 Michael Jordan，认为这位大师最令人印象深刻的是其作为终身学习者的姿态：即使在60-70岁高龄，依然开设2.5小时的阅读小组,带领学生研读经济学和博弈论的书籍,因为Jordan认为未来的人机AI交互本质上是一个经济学问题。
这种对未知领域持续不断的好奇和学习能力，让朱邦华深受震撼。
对学术影响力的衡量：在伯克利，他观察到，真正会被人记住的顶尖博士生，不是看其发了多少篇顶会论文。
一个“明星PhD”的标准是，他整个博士生涯可能只有一项工作、一篇论文，但这篇论文所有人都知道、都在用。这才是真正的顶尖。
善于放弃与等待“版本”：朱邦华形容自己一直在探索不同方向，直到博士第五年才转向做机器学习理论，并用一篇论文奠定了找到教职的基础。
他将这种模式类比为“等版本”，关键在于，当看到机会时，要敢于做出准确的判断并抓住它。
他建议现在的学生，如果只是对研究有兴趣，任何时候都可以读博；但如果身处当下这个AI革命的时代，应该优先去一个能提供无限卡、无限代码、无限Token的地方，去看看这个时代最前沿的东西。

01:07:05 未来展望：持续学习、多模态与RL的基础设施

本节重点

持续学习是一个非常重要但定义尚不清晰的问题，有可能会“爆炸式”地推动AI发展。
未来5年，纯文本语言模型的地位会下降，原生多模态乃至全模态模型将成为主流。
开源社区在RL基础设施上与前沿实验室存在巨大差距，Relies Arc的使命就是通过商业化来民主化万卡级别的训练和测试能力。

详细精要

持续学习的前景：他认为持续学习（或类似概念的自我提升）如果实现爆发，将是一个巨大的事。虽然实现的边界尚不明确（如是否受限于能源），但我们都希望它是通往 ASI 的最终路径。
多模态是确定性的未来：朱邦华预测，再过5年，纯文本语言模型的重要性会大幅下降。
人们将更多地转向原生多模态，甚至是 Omni（全能）模型——即任何模态输入、任何模态输出。
这并非说纯文本的Scaling已经到头，而是多模态将带来全新的数据、交互方式和训练范式，从而催生更多新问题和新机会。
开源RL与前沿的差距及解决路径：他指出，开源社区与Google、OpenAI等前沿实验室在RL领域存在巨大差距。
这种差距的核心在于环境、数据质量和RL基础设施的细节。如果没有在大规模集群上进行验证，这些基础设施本身可能根本无法训练出好模型。
有时一个隐藏极深的小bug，会导致训练结果的准确率出现系统性偏差。要发现这类问题，必须要千卡、甚至万卡规模的测试环境。
Relies Arc 希望通过其RL和推理平台，将这种大规模验证机会民主化，让更多公司和人能够触及千卡、万卡级的训练和测试，从而逐步缩小差距。

01:14:33 长期终局：AI基础设施公司存在的形式

本节重点

未来可能会出现像Snowflake、Databricks一样，帮助大公司管理AI基础设施的平台。
一个更吸引人的终局是，出现定义人与Agent、Agent与Agent之间交互规则的公司。
Relies Arc希望成为世界AI的“电力公司”，赋能百花齐放的Agent生态，而非仅为一家模型公司服务。

详细精要

平台型公司的出现：他认为未来一定会出现平台型公司，去赋能更多人构建前沿级别的AI，并用前沿级别的基础设施进行训练。
Agent生态的终局畅想：相比于平台本身，他更感兴趣的是Agent之间的交互。
未来可能会出现 Agent Auction（代理拍卖）这样的机制，你发布一个任务，所有属于你的Agent都会来竞标完成。
这时就需要一个公司来定义这些个人Agent、以及Agent与Agent之间、Agent与人之间的交互界面和标准。
Relies Arc的终极使命：朱邦华首次清晰地描绘了公司的理想终局。
他们不希望世界最终只有一个像OpenAI一样的终极“黑箱”模型公司，然后所有Agent都寄生其上。
他们希望推动一个相反的未来：存在无数个不同公司、不同类型的Agent，而Relies Arc 就是那个在背后为所有这些Agent公司提供算力、训练和推理基础设施的“电力公司”。
即使这个愿景最终失败，让世界按照自己相信的方式去前进一次，哪怕只是引发更多人沿着这个方向努力并最终成功，这个过程本身也极具价值。

💬 精华片段（中文）

"We hope to see a stage of a hundred flowers... there are more different agents and these agents come from different companies and we become the people who empower these companies." “我们希望看到一个百花齐放的阶段……有更多不同的Agent，这些Agent来自不同公司，而我们成为赋能这些公司的人。”

01:30:00 给年轻人的建议：品味、批判性思维与善于放弃

本节重点

AI时代的软件工程师，其核心价值将向顶尖的系统设计能力集中。
“好品味”体现在对代码和系统持续不断的批判性思考，这是驱动AI Agent产出高质量产品的关键。
在这个快速变化的时代，善于放弃旧路径的人，才更有可能抓住新的东西。

详细精要

对CS毕业生未来的看法：朱邦华认为这是一个非常困难的现实问题，AI正在深刻变革计算机行业。
负面冲击：初级软件工程师的就业将变得非常困难，因为Agent能替代很多基础、常规的编码工作。
正面效应：顶尖的系统工程师和研究人员的效率会被极大放大。未来一个原本需要几百上千人的复杂软件项目，可能只需要10个顶尖的、善于驾驭AI Agent的工程师就能完成。
这会导致CS毕业生的就业压力空前巨大（他估算每年仅国内就有至少1500万相关专业毕业生），但同时也可能带来新的需求，比如对更复杂的数据进行标注。
如何定义和识别“好品味”：朱邦华认为，在面试和协作中，识别一个人的“好品味”至关重要。
这种品味不是被动的接受，而是一种强烈的批判性思维。看到一段代码或一个系统设计，他会本能地觉得“这个写得很烂”、“这里不应该这么做”。
他引用了Linux之父 Linus Torvalds 的例子：Linus虽然以骂代码写得烂著称，但他的出发点是对代码质量的极致追求，他清楚知道什么是好代码。
在AI时代，一个拥有高品味的工程师，不仅能自己写出好代码，还能极大地驱动AI Agent，明确指出它的不足，让Agent也跟着写出好代码。
“善于放弃”的人生哲学：朱邦华对刚毕业、正在工作、或刚起步创业的年轻人都给出了“善于放弃”的建议。
他认为现在犯错的成本变低了。只要在正确的大方向上，无论尝试了什么，总会有收获。
很多人不敢放弃既有的东西（比如多年的经验），但正是那些敢于放弃、去尝试全新方向的人，才有可能获得更多。
他以自己为例，放弃了世界级大师Michael Jordan指导下的理论方向，转投当时尚不明朗的语言模型，而他最核心的想法是：“别人能做，为什么我不能做？试试看，也许你做得比他更好。”

💬 精华片段（中文）

"I think especially now the time has changed so fast, people who can give up will be able to take more." “我觉得现在这个时代变化太快了，善于放弃的人，才可能拿到的更多。”

专业术语注释

术语	解释
SGLang (Ashland)	由朱邦华等人共同创建的开源大模型推理引擎，旨在提供高效、可靠的AI推理服务，已被Google、微软、英伟达等公司广泛采用。
强化学习 (Reinforcement Learning)	一种机器学习范式，通过让智能体在环境中尝试并依据奖励信号进行学习。在本集中，特指用于微调大语言模型的RLHF和RLVR两种技术。
RLHF	从人类反馈中进行强化学习。核心是训练一个奖励模型来模拟人类偏好，然后用它来指导语言模型，使其回答更符合人类交流习惯。
RLVR	基于可验证奖励的强化学习。在数学、编程等有明确客观答案的领域，直接使用结果对错作为奖励信号来优化模型，提升其智能水平。
PPO	近端策略优化，是OpenAI在InstructGPT中使用的核心强化学习算法，以其稳定性和上限高著称，但实现细节极其复杂。
DPO	直接偏好优化，一种对PPO的简化替代方案。它直接从偏好数据中优化模型，无需显式训练单独的奖励模型。
GRPO	分组相对策略优化，是DeepSeek使用的PPO变体，近年来在开源社区中变得更为流行。
Critic	在Actor-Critic架构的强化学习中，Critic负责评估当前状态或动作的价值，其输出用于指导Policy的更新。
NEMO GEMO	朱邦华在英伟达领导的一个Agent数据收集与后训练联邦平台项目，旨在让不同团队共享数据，共同优化模型。
MFU	模型FLOPs利用率，是衡量GPU集群在大规模训练中计算效率的关键指标，表示有效计算占理论峰值算力的百分比。
LMSYS / Chatbot Arena	朱邦华参与创立的一个非营利组织及其旗舰项目。通过让用户对匿名模型的对战结果进行投票，生成业界最有影响力的模型排行榜。
UGVR	斯坦福大学本科生研究项目，为国际学生提供暑期研究机会，是朱邦华学术生涯的重要跳板。
持续学习	一个AI概念，指模型能在不遗忘旧知识的情况下持续学习新知识。在本集中被视为AGI道路上一个尚不清晰但潜力巨大的方向。

延伸思考

“时机”的辩证法：朱邦华提到太早创业会成为教育市场的“铺路石”，那么对于现在的Agent赛道，此刻究竟是处于“太早”还是“刚刚好”的阶段？
开源的“万卡鸿沟”：开源社区由于资源限制，无法在万卡级别验证RL基础设施，这是否意味着未来最顶尖的模型能力仍将长期掌握在少数拥有巨大资源的封闭实验室手中？
“品味”的可培养性：朱邦华所推崇的工程师“品味”和批判性思维，是天赋还是在大量高质量工程实践中熏陶出来的？如果是后者，应该如何设计培养路径？
Agent的交互规则：如果未来真的出现“Agent Auction”这样的Agent间市场，其中的协议、标准和信任机制该如何建立？这会成为新的创业机会吗？
给年轻人的选择：在AI强烈冲击计算机行业的当下，一个对CS有热情但能力未必顶尖的学生，究竟应该坚持把编程作为职业，还是退一步，将其作为AI时代下实现其他兴趣的爱好和工具？

原文发表：May 17, 2026 · 纪要生成：2026-05-24