▶ 原文链接

陈天奇20年机器学习生涯:从竞赛少年到AI系统开源领袖

来源: Youtube | 陈天奇 | 2025年9月12日 分类: AI 工程 原文发表: Sep 12, 2025 纪要生成: 2026-03-18


全集重点


嘉宾/话题简介

陈天奇是卡内基梅隆大学助理教授,AI系统领域顶级科学家,主导开发了XGBoostMXNetTVMMLC-LLM等多个全球广泛使用的机器学习开源框架,对AI工程化落地做出了里程碑式贡献。本集播客中,陈天奇回顾了自己近20年的机器学习从业经历,从县城少年接触编程、ACM班系统训练,到博士期间主导多个开源项目,再到创业后被NVIDIA收购的完整历程。他还分享了对科研、开源、创业、教育的底层思考,以及对AI系统未来发展方向的判断。


分节详述

00:00 开场与嘉宾介绍

本节重点

详细精要

💬 精华片段(中文)

"I think this experience will make me more realistic. I will know how to achieve better through realistic ways. Failure is not so terrible. And then you have to accept that you can fail."

我认为这段经历让我变得更务实,我懂得了如何通过更现实的方式把事情做得更好。失败并没有那么可怕,你必须要接受自己有可能会失败。


02:07 早年成长:从县城少年到ACM班成员

本节重点

详细精要

💬 精华片段(中文)

"I think that at that time, I felt that because there was Internet, it could allow us to freely contact with these information, so that I could be like a player, and I could slowly enter this field. I think that's really amazing."

我当时觉得,因为有互联网,它可以允许我们自由接触这些信息,让我像一个玩家一样慢慢进入这个领域,我觉得这真的很神奇。


12:05 早期科研:从迷茫到找到方向

本节重点

详细精要

💬 精华片段(中文)

"At that time, we basically just persisted for two years on the right question and the wrong method. Almost like this."

当时我们基本上就是在正确的问题上坚持了两年,但用了错误的方法,差不多就是这样。


35:20 XGBoost的诞生与成功逻辑

本节重点

详细精要

💬 精华片段(中文)

"You have to be able to know that we have the ability to know how the algorithm itself can go forward and how the system can do it. This is one reason."

你不能只懂算法或者只懂系统就能做出成功的产品,你必须同时理解算法本身如何演进,以及系统如何实现,这是成功的原因之一。


49:34 MXNet的兴衰与经验总结

本节重点

详细精要

💬 精华片段(中文)

"At that time, we were choosing the user experience and performance. At first, we thought we all wanted it. But the user experience should be chosen first. Right?"

当时我们在用户体验和性能之间做选择的时候,最初以为两者都能兼顾,但最后发现用户体验应该是优先级更高的选择,对吧?


01:07:26 TVM的诞生与发展现状

本节重点

详细精要

💬 精华片段(中文)

"Once you try to do something that you are not so comfortable with, once you try to do something new, there will be a challenge. It must be uncomfortable. And now I think it's annoying to say, with the growth of time, experience is the best. That's true. But a lot of times, the courage to do things, I think it's still the first time."

一旦你尝试做你不那么舒服的新事情,就一定会有挑战,一定会不舒服。现在我觉得随着时间增长,经验会变多,但做事的勇气仍然是第一位的。


01:30:22 AI系统领域的发展历史与未来方向

本节重点

详细精要

💬 精华片段(中文)

"At the beginning I started doing deep learning project we do a model to spend six months write maybe 20,000 rows Kuda can only do one model to the depth of the study frame you can almost in a few minutes write a few lines you can do the same thing this is a very big this technology in this place."

我刚开始做深度学习项目的时候,做一个模型要花6个月写2万行CUDA代码,只能支持一个模型;现在有了深度学习框架,你几乎花几分钟写几行代码就能实现同样的功能,这就是AI系统技术带来的巨大变革。


01:45:45 开源理念与成功经验

本节重点

详细精要

💬 精华片段(中文)

"The issue and feedback are very precious because your project is a software successful software it is good because software is to be maintained so at this time the issue and feedback are very precious."

用户的Issue和反馈是非常宝贵的,因为软件的成功依赖于持续的维护,这些反馈能帮助项目变得更好。


01:53:31 OctoML创业与被NVIDIA收购的历程

本节重点

详细精要

💬 精华片段(中文)

"As a startup I think the biggest lesson is that it is not only technical human factor it is very important how to communicate how in this team can can not say management but how to perform a leadership role I think this point will be very important then there is how to quickly do technical transformation because everything you have to reinvent yourself smoothly see the new generation can go to go to do this is very important."

作为创业者,我认为最大的教训是,除了技术之外,人的因素非常重要:如何沟通、如何发挥领导力、如何快速完成技术转型,这些都非常关键,因为你必须不断重塑自己,跟上新一代技术的发展。


02:10:05 教授生涯、人生思考与未来展望

本节重点

详细精要

💬 精华片段(中文)

"Many difficulties and helplessness are just part of the random growth. As long as there is enough time and patience, the process of random growth will always be connected with the stable relationship between the two."

很多困难和无助只是随机生长的一部分,只要有足够的时间和耐心,随机生长的过程最终总会和稳定的长期目标连接起来。


专业术语注释

术语 解释
XGBoost(Extreme Gradient Boosting) 本集指陈天奇主导开发的开源梯度提升树算法框架,广泛应用于结构化数据建模,GitHub星标接近7万
MXNet 由全球多个高校博士团队联合开发的深度学习开源框架,曾被亚马逊选为官方框架,多卡训练性能长期领先行业
TVM(Tensor Virtual Machine) 陈天奇主导开发的机器学习编译器框架,用于解决AI模型跨硬件部署的自动优化问题,是该领域的事实标准
MLC-LLM(Machine Learning Compilation for LLM) 陈天奇团队开发的跨平台大语言模型推理部署引擎,支持大模型在多端设备本地运行
OJ(Online Judge) 在线编程测评系统,用于算法竞赛训练,陈天奇高中时通过OJ自学编程
NOIP(National Olympiad in Informatics in Provinces) 全国青少年信息学奥林匹克联赛,国内高中阶段的顶级信息学竞赛,陈天奇高三时拿到一等奖
ACM班 上海交通大学的计算机科学试点班,以培养顶尖计算机人才为目标,余勇教授是创始人
APEX实验室 上海交通大学的人工智能实验室,陈天奇本科阶段科研的起步平台
KDD Cup 国际知识发现与数据挖掘竞赛,数据挖掘领域最具影响力的顶级赛事,陈天奇本科时曾参赛获奖
RBM(Restricted Boltzmann Machine) 受限玻尔兹曼机,早期无监督深度学习模型,陈天奇本科时曾用该模型做ImageNet分类研究
CUDA NVIDIA推出的并行计算平台和编程模型,用于GPU上的通用计算,是AI开发的核心基础工具
SVM(Support Vector Machine) 支持向量机,经典监督学习分类算法,是陈天奇早期科研中的性能基线
PyTorch Meta开源的深度学习框架,目前是工业界和学术界的主流选择
TensorFlow Google开源的深度学习框架,早期广泛应用于工业界
VTA(Versatile Tensor Accelerator) TVM项目中设计的开源通用张量加速器架构,探索软硬件协同的AI部署方案
OctoML 陈天奇等人基于TVM项目创立的AI部署优化公司,2024年被NVIDIA收购
MLPerf 国际权威的AI性能基准测试,用于衡量不同硬件和软件框架的AI计算效率

延伸思考

  1. AI系统领域未来如何平衡大厂商主导的集中式技术路线与开源社区的分布式创新,保障中小开发者的创造力?
  2. 大模型时代下,机器学习编译技术如何进一步降低AI部署门槛,推动端侧AI的大规模落地,实现AI技术的普惠?
  3. 学术科研资源与工业界算力差距持续扩大的背景下,高校的AI系统研究如何找到独特的价值定位,培养顶尖的技术人才?
  4. 开源项目的商业化路径仍在持续探索,如何在保证社区活力的同时实现可持续的商业收益,是开源领域长期需要解决的核心问题。
  5. 未来硬件和模型的协同演进会成为AI发展的核心趋势,如何打破硬件厂商的技术壁垒,实现不同硬件平台的通用性,是AI系统领域的长期挑战。

原文发表:Sep 12, 2025  ·  纪要生成:2026-03-18