▶ 原文链接

朱邦华:SGLang,强化学习,英伟达收购,二次创业,清华,伯克利,LMSYS,Chatbot Arena,善于放弃

来源: YouTube | 朱邦华 (Relies Arc CTO) | May 17, 2026 分类: 其他 原文发表: May 17, 2026 纪要生成: 2026-05-24


全集重点


嘉宾/话题简介

朱邦华(Relys Arc CTO)是开源推理框架SGLang的联合创始人。他本科毕业于清华大学电子系,在加州大学伯克利分校获得博士学位,期间师从两位统计学与机器学习泰斗 Michael JordanMartin Wainwright。他曾创立 Nexoflow AI,专注于企业级Agent后训练与强化学习,后被英伟达收购。在英伟达工作数月后,他放弃了巨额的留任激励,携手长期合作伙伴盛颖再次创业,创立了AI基础设施公司 Relies Arc,并获得10亿美元融资,旨在为更多公司和开发者提供前沿、开放的AI训练与推理基础设施。


分节详述

00:45 二次创业与Relies Arc的宏大愿景

本节重点

详细精要

💬 精华片段(中文)

"The most important thing is one is the community's technology and people. And one is the mission of the company and the things to do. I think these two things may be very attractive to me." “最重要的是两样东西,一个是社区的技术和人,另一个是公司的使命和要做的事情。我觉得这两样东西对我吸引力非常大。”


06:53 商业模式的扩散:从前沿实验室到500强企业

本节重点

详细精要

💬 精华片段(中文)

"At that time, I tried the GPT 3.5 and it wrote code. It really shocked me. I never thought that a next token prediction machine could write a simple lead code question." “当时我试了GPT 3.5,它写了代码。那真的让我震惊。我从没想过一个基于下一个token预测的机器能写出一道简单的LeetCode题目。”


16:29 Anthropic的新多模态模型与AI交互的未来

本节重点

详细精要


23:25 开源模型领域差距与RL环境的决定性作用

本节重点

详细精要

💬 精华片段(中文)

"The environment is a relatively easy to be ignored... especially how to design this reward is an art problem." “环境是一个相对容易被忽略的东西……特别是如何去设计这个奖励,是一个艺术问题。”


27:09 首次创业:Nexoflow AI与PPO实战经验

本节重点

详细精要

💬 精华片段(中文)

"To be able to design this reward, at the same time even in multi-docker environments how to simulate a very good user, these are some very open problems." “能够设计出这样的奖励,同时即便在多Docker环境里如何去模拟一个很好的用户,这些都还是些非常开放的问题。”


35:39 RLHF与RLVR的概念解析

本节重点

详细精要


39:23 创业的教训:时机与英伟达收购后的GEMO项目

本节重点

详细精要

💬 精华片段(中文)

"If you just do some very small-scale training, then actually you have no way to generalize the experience of large-scale model." “如果你只是做一些非常小规模的训练,那么实际上你没有办法推广出大规模模型的经验。”


47:23 学术生涯转变:从理论大师到系统工匠

本节重点

详细精要


01:07:05 未来展望:持续学习、多模态与RL的基础设施

本节重点

详细精要


01:14:33 长期终局:AI基础设施公司存在的形式

本节重点

详细精要

💬 精华片段(中文)

"We hope to see a stage of a hundred flowers... there are more different agents and these agents come from different companies and we become the people who empower these companies." “我们希望看到一个百花齐放的阶段……有更多不同的Agent,这些Agent来自不同公司,而我们成为赋能这些公司的人。”


01:30:00 给年轻人的建议:品味、批判性思维与善于放弃

本节重点

详细精要

💬 精华片段(中文)

"I think especially now the time has changed so fast, people who can give up will be able to take more." “我觉得现在这个时代变化太快了,善于放弃的人,才可能拿到的更多。”


专业术语注释

术语 解释
SGLang (Ashland) 由朱邦华等人共同创建的开源大模型推理引擎,旨在提供高效、可靠的AI推理服务,已被Google、微软、英伟达等公司广泛采用。
强化学习 (Reinforcement Learning) 一种机器学习范式,通过让智能体在环境中尝试并依据奖励信号进行学习。在本集中,特指用于微调大语言模型的RLHF和RLVR两种技术。
RLHF 从人类反馈中进行强化学习。核心是训练一个奖励模型来模拟人类偏好,然后用它来指导语言模型,使其回答更符合人类交流习惯。
RLVR 基于可验证奖励的强化学习。在数学、编程等有明确客观答案的领域,直接使用结果对错作为奖励信号来优化模型,提升其智能水平。
PPO 近端策略优化,是OpenAI在InstructGPT中使用的核心强化学习算法,以其稳定性和上限高著称,但实现细节极其复杂。
DPO 直接偏好优化,一种对PPO的简化替代方案。它直接从偏好数据中优化模型,无需显式训练单独的奖励模型。
GRPO 分组相对策略优化,是DeepSeek使用的PPO变体,近年来在开源社区中变得更为流行。
Critic 在Actor-Critic架构的强化学习中,Critic负责评估当前状态或动作的价值,其输出用于指导Policy的更新。
NEMO GEMO 朱邦华在英伟达领导的一个Agent数据收集与后训练联邦平台项目,旨在让不同团队共享数据,共同优化模型。
MFU 模型FLOPs利用率,是衡量GPU集群在大规模训练中计算效率的关键指标,表示有效计算占理论峰值算力的百分比。
LMSYS / Chatbot Arena 朱邦华参与创立的一个非营利组织及其旗舰项目。通过让用户对匿名模型的对战结果进行投票,生成业界最有影响力的模型排行榜。
UGVR 斯坦福大学本科生研究项目,为国际学生提供暑期研究机会,是朱邦华学术生涯的重要跳板。
持续学习 一个AI概念,指模型能在不遗忘旧知识的情况下持续学习新知识。在本集中被视为AGI道路上一个尚不清晰但潜力巨大的方向。

延伸思考

  1. “时机”的辩证法:朱邦华提到太早创业会成为教育市场的“铺路石”,那么对于现在的Agent赛道,此刻究竟是处于“太早”还是“刚刚好”的阶段?
  2. 开源的“万卡鸿沟”:开源社区由于资源限制,无法在万卡级别验证RL基础设施,这是否意味着未来最顶尖的模型能力仍将长期掌握在少数拥有巨大资源的封闭实验室手中?
  3. “品味”的可培养性:朱邦华所推崇的工程师“品味”和批判性思维,是天赋还是在大量高质量工程实践中熏陶出来的?如果是后者,应该如何设计培养路径?
  4. Agent的交互规则:如果未来真的出现“Agent Auction”这样的Agent间市场,其中的协议、标准和信任机制该如何建立?这会成为新的创业机会吗?
  5. 给年轻人的选择:在AI强烈冲击计算机行业的当下,一个对CS有热情但能力未必顶尖的学生,究竟应该坚持把编程作为职业,还是退一步,将其作为AI时代下实现其他兴趣的爱好和工具?

原文发表:May 17, 2026  ·  纪要生成:2026-05-24