▶ 原文链接

陈天奇20年机器学习生涯:从竞赛少年到AI系统开源领袖

来源: Youtube | 陈天奇 | 2025年9月12日 分类: 其他 原文发表: Sep 12, 2025 纪要生成: 2026-03-18


全集重点


嘉宾/话题简介

陈天奇是卡内基梅隆大学助理教授,AI系统领域顶级科学家,主导开发了XGBoostMXNetTVMMLC-LLM等多个全球广泛使用的机器学习开源框架,对AI工程化落地做出了里程碑式贡献。本集播客中,陈天奇回顾了自己近20年的机器学习从业经历,从县城少年接触编程、ACM班系统训练,到博士期间主导多个开源项目,再到创业后被NVIDIA收购的完整历程。他还分享了对科研、开源、创业、教育的底层思考,以及对AI系统未来发展方向的判断。


分节详述

00:00 开场与嘉宾介绍

本节重点 - 主持人介绍陈天奇是XGBoost、MXNet等多个核心AI开源项目的背后主导者,影响了全球数百万机器学习从业者 - 本期播客将覆盖陈天奇20年机器学习生涯的个人成长、项目历程与底层价值观 - 陈天奇开场分享早期MXNet项目的经验,认为接受失败、保持务实是非常重要的收获

详细精要 - 开场背景铺垫:陈天奇过去15年的工作把复杂的机器学习技术梳理成了清晰的落地路径,不仅是AI领域的顶尖领袖,也影响了主持人对机器学习和科研的认知 - 2019年陈天奇发布的《机器学习10年回顾》文章获得了数万点赞,截至2025年已经过去了6年 - 陈天奇从事机器学习相关研究接近20年,经历了从大数据、深度学习到大模型的完整技术周期 - 本期内容预告:本次对谈将拆解陈天奇主导的每一个核心项目,深入他的个人成长经历 - 包括高中接触编程、ACM班竞赛训练、美国读博的突破,以及同时走科研、创业、教学三条路径的选择 - 还会探讨他的底层价值观:如何坚持长期主义、如何在不确定性中接受失败、如何平衡科研、创业和教学的关系,以及未来的技术规划

💬 精华片段(中文)

"I think this experience will make me more realistic. I will know how to achieve better through realistic ways. Failure is not so terrible. And then you have to accept that you can fail."

我认为这段经历让我变得更务实,我懂得了如何通过更现实的方式把事情做得更好。失败并没有那么可怕,你必须要接受自己有可能会失败。


02:07 早年成长:从县城少年到ACM班成员

本节重点 - 陈天奇在浙江小县城读高中时,靠互联网资源自学编程,从零基础拿到NOIP一等奖 - 主动毛遂自荐进入上海交大ACM班,余勇老师“低调做人、高调做事”的理念影响了他的做事风格 - ACM班的训练培养了他的表达能力和从底层搭建系统的能力,这套训练体系即使放在北美顶尖高校也属于顶尖水平

详细精要 - 高中编程入门经历:2003年左右陈天奇在浙江小县城读高一,母亲是当地高中老师,最初想学习做网站、开发游戏,找学校计算机何老师请教,反而拿到了C语言教材开始自学 - 当时县城学校没有信息学竞赛资源,全靠互联网上的OJ(在线测评系统)和“大龙树”论坛自学算法 - 高二第一次参加NOIP(全国青少年信息学奥林匹克联赛)只拿到二等奖,高三拿到一等奖,全部靠自学完成 - 最初学习编程的动机是想自己做游戏,这个目标虽然没有实现,但让他对编程产生了浓厚兴趣 - 早期项目经验积累:高中时期就自己开发了Pascal到C语言的转译器,花了一整个暑假从底层设计所有模块,逐行实现 - 当时主流竞赛用的编程语言是Pascal,只有他自学了C语言,属于“野路子”入门 - 这段经历让他养成了“不怕从零开始做事情”的习惯,对后续的科研和开源项目影响很大 - 加入上海交大ACM班的历程:2006年陈天奇高中毕业后,主动找ACM班创始人余勇教授毛遂自荐,精心准备了简历和个人陈述,最终获得了进入ACM班的机会 - 余勇老师强调的“低调做人,高调做事”的理念,对他的性格和做事风格影响很大,他也认同做事要有野心,但为人要谦虚,懂得团队协作的重要性 - ACM班的训练包括每周的分享汇报,培养了他的公开表达能力,后续读博时主动报名成为课程的第一发言人,完全不怯场 - ACM班的课程设计由学长学姐代代传承,从底层实现编译器的训练,即使放到北美顶尖高校的标准下也属于顶尖水平

💬 精华片段(中文)

"I think that at that time, I felt that because there was Internet, it could allow us to freely contact with these information, so that I could be like a player, and I could slowly enter this field. I think that's really amazing."

我当时觉得,因为有互联网,它可以允许我们自由接触这些信息,让我像一个玩家一样慢慢进入这个领域,我觉得这真的很神奇。


12:05 早期科研:从迷茫到找到方向

本节重点 - 陈天奇本科加入上海交大APEX实验室,最初做深度学习研究走了2年弯路,选对了问题但用错了方法 - 早期科研失败的经历让他学会接受风险和失败,后续做科研和项目时更敢于放开手脚 - 香港访学期间受李航老师启发,意识到除了死磕一个方向之外,还有更广阔的问题可以解决,完成了科研认知的升级

详细精要 - 初期科研的迷茫:刚加入APEX实验室时,陈天奇和同学一起尝试用受限玻尔兹曼机(RBM)做ImageNet分类任务,前后花了2年时间没有取得突破 - 当时实验室没有导师带,全靠自己摸索,为了跑深度学习实验,自己买了GTX 380 GPU,因为机箱电源不够,只能把电源和主板放在机箱外面裸跑 - 当时已经有部分研究提到GPU可以加速深度学习,也有Alex Krizhevsky开发的CUDA ConvNet工具,但他们选择了用受限玻尔兹曼机的技术路线,最终效果始终打不过SVM基线 - 这段经历相当于在正确的问题(ImageNet分类)上坚持了2年,但用了错误的方法(受限玻尔兹曼机),最终没有产出科研成果 - 失败经验的价值:这段看似失败的科研经历,让陈天奇学会接受风险和失败,后续做项目时更敢于放开手脚 - 他认为做科研本来就要探索未知领域,迷茫是非常正常的,哪怕做了很久的方向,也可能随时遇到不确定性 - 早期参加竞赛、做项目的多次失败经历,让他意识到“哪怕失败了也没什么大不了,生活还能继续”,这种心态支撑他后续挑战更高风险的项目 - 科研认知的升级:本科期间参加KDD Cup数据挖掘竞赛获奖,后来去香港访学受李航老师的报告启发,完成了科研认知的升级 - 之前他一直死磕ImageNet分类这一个问题,没有意识到还有其他大量有价值的问题可以解决,李航的报告让他突然打开了思路 - 这次认知升级让他从“只会解决给定的问题”,转变为“主动选择值得解决的问题”,这是科研路上最重要的转折点之一 - 研究风格的形成:陈天奇明确自己的研究风格是“问题导向”,而不是“方法导向”,核心目标是创造有用的东西,而不是把单一方法套用到所有场景 - 他很早就意识到AI系统的瓶颈不仅是算法,还有系统本身的效率,因此开始主动学习系统相关的知识,为后续XGBoost等项目打下了基础

💬 精华片段(中文)

"At that time, we basically just persisted for two years on the right question and the wrong method. Almost like this."

当时我们基本上就是在正确的问题上坚持了两年,但用了错误的方法,差不多就是这样。


35:20 XGBoost的诞生与成功逻辑

本节重点 - XGBoost是陈天奇为了验证“树模型也能通过扩容实现媲美神经网络的效果”的假设开发的,目前GitHub星标已经接近7万 - XGBoost成功的三大核心原因:性能领先、算法功能创新、社区贡献支持、项目高度聚焦 - 导师Carlos“要么写最好的论文,要么写最差的论文”的理念,影响了他做项目的高标准要求

详细精要 - XGBoost的诞生背景:博士期间陈天奇和导师Carlos争论,导师认为核方法更有潜力,陈天奇认为树模型的可扩展性更强,为了验证自己的假设,他开始开发XGBoost - 此前他参加KDD Cup时就发现树模型在结构化数据场景下有非常强的性能,因此坚定了树模型的技术路线 - 他选择去华盛顿大学读博而不是CMU,核心原因是想跟着Carlos做研究,Carlos的风格是鼓励学生做开拓性的、能开辟新领域的研究 - XGBoost成功的核心原因 - 性能领先:发布时是全球最快的梯度提升树实现,充分发挥了硬件的计算效率 - 算法功能创新:内置了缺失值自动处理功能,用户不需要提前清洗数据填充缺失值,模型会自动根据历史数据的缺失模式判断分类逻辑,极大降低了使用门槛 - 社区贡献支持:项目发布后吸引了全球大量开发者贡献,包括法国律师Michael贡献了文本欺诈检测相关功能,还有社区开发者贡献了R语言包、可视化工具等,现在项目的维护工作已经完全交给社区 - 项目高度聚焦:和此前他开发的SVD Feature工具(有20-30个配置项,功能大而全)不同,XGBoost只聚焦梯度提升树这一个算法,把它做到极致,更容易被用户接受 - 导师的影响:Carlos对学生要求非常高,提出“要么写最好的论文,要么写最差的论文”,不鼓励做平庸的研究 - Carlos还非常重视表达能力,要求学生做汇报时不能用LaTeX Beamer,必须用可视化的方式让观众快速理解内容,这种训练让陈天奇后续做开源项目时非常重视易用性和用户体验 - Carlos的研究风格是鼓励开拓新领域,同期实验室还诞生了可解释AI领域的开山之作LIME,影响了整个领域的发展

💬 精华片段(中文)

"You have to be able to know that we have the ability to know how the algorithm itself can go forward and how the system can do it. This is one reason."

你不能只懂算法或者只懂系统就能做出成功的产品,你必须同时理解算法本身如何演进,以及系统如何实现,这是成功的原因之一。


49:34 MXNet的兴衰与经验总结

本节重点 - MXNet是全球多个高校的博士团队联合开发的深度学习框架,是最早主打Python优先、自动微分、原生分布式的框架之一 - MXNet的多卡性能长期领先行业,被亚马逊选为官方深度学习框架,Mu Ge为了推动MXNet发展,毕业后加入亚马逊负责相关业务 - MXNet最终退出历史舞台的核心原因是用户体验优先级低于性能,社区生态建设落后于PyTorch,给后续TVM的诞生埋下了种子

详细精要 - MXNet的诞生背景:在MXNet之前,陈天奇团队已经开发了CXXNet深度学习框架,用表达式模板技术实现了计算图的自动优化 - 当时全球多个团队都在开发深度学习框架,包括Minerva、Purine、Mocha等,后来大家决定合并各自的优势,联合开发一个新的框架,就是MXNet(名字来自Minerva和CXXNet的混合) - MXNet的核心设计理念包括三个:Python优先的用户接口、自动微分、原生支持分布式训练,这些设计在当时都非常超前 - 开发团队基本都是全球顶尖高校的在读博士生,包括CMU的Mu Ge、MIT的张弛原、NYU的 Minjie等,大家纯粹出于兴趣合作,没有商业化的压力 - MXNet的巅峰时期:MXNet的多卡训练性能长期领先行业,很长一段时间内NVIDIA跑MLPerf基准测试都会用MXNet才能拿到最好的成绩 - 亚马逊选择MXNet作为官方深度学习框架,Mu Ge毕业后加入亚马逊,主导MXNet的推广和落地,是MXNet社区的核心支柱 - NVIDIA也长期为MXNet贡献代码,优化硬件适配 - MXNet衰落的核心教训:MXNet最终退出历史舞台,最核心的原因是用户体验的优先级低于性能,同时社区生态建设落后于PyTorch - 最初团队认为性能和用户体验可以兼顾,但实际开发中发现资源有限,两者不可兼得时团队选择了优先保证性能,导致用户体验落后于PyTorch - 尽管后期MXNet 2.0也转向了动态图模式,但PyTorch的社区生态已经形成,MXNet错过了最佳的发展窗口 - 这段经历让陈天奇意识到,用户体验是开源框架成功的第一优先级,甚至比性能更重要,也直接催生了后续TVM项目的研发

💬 精华片段(中文)

"At that time, we were choosing the user experience and performance. At first, we thought we all wanted it. But the user experience should be chosen first. Right?"

当时我们在用户体验和性能之间做选择的时候,最初以为两者都能兼顾,但最后发现用户体验应该是优先级更高的选择,对吧?


01:07:26 TVM的诞生与发展现状

本节重点 - TVM是为了解决深度学习框架需要投入大量人力适配不同硬件、手写内核成本极高的问题开发的机器学习编译器,受图像领域的Halide项目启发 - TVM从0到1开发花了11个月时间,陈天奇完全没有考虑风险,纯粹觉得问题有价值就投入开发 - TVM目前已经成为机器学习编译领域的事实标准,未来会进一步和PyTorch等生态融合,解决AI模型跨硬件部署的核心痛点

详细精要 - TVM的诞生背景:MXNet开发过程中,陈天奇发现需要投入大量人力手写不同硬件的内核,适配不同的数据布局和硬件特性,效率极低,因此想通过编译技术解决这个问题 - 当时图像领域的Halide项目已经通过编译技术实现了图像处理算法的自动优化,TVM的早期设计借鉴了Halide的思路 - 核心要解决的问题是:不同硬件有不同的指令集、数据布局,手写内核的成本极高,无法覆盖所有场景,需要通过编译器自动生成优化后的内核 - 开发TVM的同时,陈天奇团队还自研了VTA(通用张量加速器),从硬件和软件协同的角度探索AI部署的最优方案 - TVM的开发过程:从2017年4月正式启动开发,到2018年3月第一个可运行版本发布,前后花了11个月时间,全部核心代码从零手写 - 陈天奇完全没有考虑项目失败的风险,只是觉得问题有价值,且有清晰的技术路线,之前的项目经验也让他有信心能做成 - 设计VTA的时候,团队完全从第一性原理出发,没有参考TPU的设计,最终提出的硬件队列、超线程流水等设计,后来被很多商用NPU采用 - TVM的发展现状与未来:目前TVM已经成为机器学习编译领域的事实标准,被全球大量企业和研究机构采用 - 现在PyTorch推出了Torch Compiler、Google有XLA、OpenAI有Triton,说明行业已经形成共识:机器学习编译是AI部署的核心技术 - 未来TVM会继续和PyTorch、JAX等生态深度融合,同时探索如何快速生成特定领域的编译器,降低AI在端侧、车端、边缘设备的部署门槛 - 陈天奇认为AI模型跨硬件部署的痛点还没有完全解决,尤其是大模型时代硬件迭代速度快,不同厂商的硬件差异大,编译技术仍然有非常大的发展空间

💬 精华片段(中文)

"Once you try to do something that you are not so comfortable with, once you try to do something new, there will be a challenge. It must be uncomfortable. And now I think it's annoying to say, with the growth of time, experience is the best. That's true. But a lot of times, the courage to do things, I think it's still the first time."

一旦你尝试做你不那么舒服的新事情,就一定会有挑战,一定会不舒服。现在我觉得随着时间增长,经验会变多,但做事的勇气仍然是第一位的。


01:30:22 AI系统领域的发展历史与未来方向

本节重点 - AI系统发展经历了三个阶段:大数据时代、深度学习时代、大模型时代,每一次技术突破都离不开系统层的支撑 - 大模型时代AI系统的核心挑战包括大模型优化、软硬件协同设计、AI驱动的系统工程自动化 - 陈天奇团队最新开发的MLC-LLM可以实现大模型跨平台部署,已经支持iPhone、Android、AMD显卡、MacBook等多端运行 - 未来AI部署会是云侧和端侧并存的格局,隐私、低延迟需求会推动端侧AI的发展,硬件和模型的协同演进会成为核心趋势

详细精要 - AI系统发展的三个阶段 - 大数据时代(2000年代-2010年代初):核心需求是处理大规模推荐系统数据,诞生了Apache Spark、XGBoost等工具,把机器学习从课本带到了工业界落地 - 深度学习时代(2010年代中-2020年代初):AlexNet的突破带动了深度学习框架的发展,从Caffe到MXNet、PyTorch、TensorFlow,把开发一个深度学习模型的成本从6个月写2万行CUDA代码,降低到几分钟写几行代码就能实现 - 大模型时代(2020年代至今):大模型的参数量和算力需求爆发,系统层需要解决分布式训练、高效推理、跨硬件部署等新的核心问题 - MLC-LLM项目的定位:MLC-LLM是陈天奇团队基于TVM技术开发的大语言模型跨平台部署引擎,目标是用编译技术实现大模型在不同硬件上的高效运行 - 目前已经可以实现Llama 2等模型在iPhone、Android、AMD显卡、MacBook等多端的本地运行,不需要依赖云服务 - 核心解决的是大模型部署碎片化的问题,不需要为每一个硬件平台单独手写优化代码,通过编译技术自动适配 - 未来AI部署的格局:陈天奇认为未来会是云侧和端侧AI并存的格局,不会完全被云厂商垄断 - 端侧AI的核心驱动力包括:隐私需求(敏感数据不需要上传云端)、低延迟需求(机器人、自动驾驶等场景需要毫秒级响应)、成本需求(端侧推理成本低于云侧) - 这个趋势类似当年大型机向个人电脑的演进,虽然云侧大模型能力更强,但端侧模型在特定场景下的体验会更好 - AI系统领域的未来挑战 - 大模型的训练和推理优化仍然有很大的提升空间,软硬件协同设计会成为核心方向 - 学术机构的算力和工业界差距越来越大,但资源约束反而会推动更有创造性的研究,比如通过编译技术降低算力需求 - AI系统本身的开发也可以用AI来优化,实现系统工程的自动化

💬 精华片段(中文)

"At the beginning I started doing deep learning project we do a model to spend six months write maybe 20,000 rows Kuda can only do one model to the depth of the study frame you can almost in a few minutes write a few lines you can do the same thing this is a very big this technology in this place."

我刚开始做深度学习项目的时候,做一个模型要花6个月写2万行CUDA代码,只能支持一个模型;现在有了深度学习框架,你几乎花几分钟写几行代码就能实现同样的功能,这就是AI系统技术带来的巨大变革。


01:45:45 开源理念与成功经验

本节重点 - 陈天奇是坚定的开源 believer,所有核心项目全部开源,认为开源是分享技术、获得反馈、培养学生的最好方式 - 成功的开源项目需要三个核心要素:技术本身有价值、社区信任、持续的维护投入 - 开源不是免费的,需要投入大量时间处理用户反馈、修复Bug,不适合所有人,但对学生来说是非常好的锻炼机会

详细精要 - 开源的核心价值:陈天奇认为开源是非常有价值的事情,一方面可以把自己的技术分享给更多人,获得用户的真实反馈,另一方面也可以让学生获得从零搭建大型项目的机会 - 普通学生进入公司一般只能参与大型项目的一个小模块,很难获得从零主导一个大型项目的机会,开源项目提供了这样的平台 - 开源社区的反馈是非常宝贵的,可以帮助项目快速迭代,避免闭门造车 - 开源项目成功的核心要素 - 技术本身有价值:这是基础,必须解决用户的真实痛点,有足够的差异化优势 - 建立社区信任:项目需要持续维护,保持稳定的迭代,让用户相信项目不会随意中断,后续的项目也更容易获得社区的支持 - 持续的维护投入:开源不是一劳永逸的,需要投入大量时间处理用户的Issue、修复Bug、迭代功能,不是所有人都适合走开源路线 - 开源与商业化的关系:开源和商业化不是对立的,也不是必然冲突的,不同的项目有不同的平衡方式 - 开源是项目的起点,但不一定是公司业务的终点,比如Databricks最初基于Spark开源项目,现在核心业务已经不只是Spark了 - 关键是要找到开源社区和商业业务的协同点,既保证社区的活力,也能实现商业的可持续发展

💬 精华片段(中文)

"The issue and feedback are very precious because your project is a software successful software it is good because software is to be maintained so at this time the issue and feedback are very precious."

用户的Issue和反馈是非常宝贵的,因为软件的成功依赖于持续的维护,这些反馈能帮助项目变得更好。


01:53:31 OctoML创业与被NVIDIA收购的历程

本节重点 - OctoML是陈天奇和团队基于TVM项目创立的AI部署优化公司,最初的目标是把TVM技术商业化,服务企业客户 - 创业过程中业务经历了多次转型,从最初的硬件厂商优化服务,转向大模型推理服务,2024年被NVIDIA收购 - 创业最大的教训是人的因素比技术更重要,领导力、沟通能力、快速转型能力是创业成功的关键,技术优势是核心差异化竞争力

详细精要 - 创业的背景:博士毕业后,陈天奇和团队的几个学生、老师觉得TVM技术有商业化的潜力,很自然地就决定创立OctoML - 陈天奇最初在公司全职工作了一年,之后转为兼职,主要负责技术方向,日常运营由联合创始人负责 - 最初的业务模式是为硬件厂商和科技公司提供AI模型的跨硬件优化服务,降低客户的部署成本 - 业务转型的过程:大模型爆发后,OctoML的业务逐渐转向大模型推理服务,直接为客户提供优化后的Llama等大模型的API端点 - 陈天奇创业前就已经有预期:公司最初的业务和最终的业务大概率会不一样,因此转型是非常正常的事情 - 创业过程中最大的挑战不是技术,而是人的因素:如何沟通、如何发挥领导力、如何带领团队快速转型,这些是此前做科研和开源项目没有遇到过的问题 - 被NVIDIA收购的后续:2024年OctoML被NVIDIA收购,陈天奇现在负责NVIDIA的AI编译器技术方向 - 他仍然有足够的技术自由度,可以继续推动AI模型跨云、跨端的通用部署技术发展 - 这次收购为TVM技术的发展提供了更多的资源和场景,可以更快地推动技术落地 - 创业的经验总结 - 长期坚持技术路线是对的,但不能闭门造车,要平衡技术理想和市场需求,保持务实 - 技术突破始终是公司的核心差异化竞争力,必须持续投入,不能为了短期市场需求放弃长期技术积累 - 不要害怕失败,创业过程中的所有经历都是成长的一部分

💬 精华片段(中文)

"As a startup I think the biggest lesson is that it is not only technical human factor it is very important how to communicate how in this team can can not say management but how to perform a leadership role I think this point will be very important then there is how to quickly do technical transformation because everything you have to reinvent yourself smoothly see the new generation can go to go to do this is very important."

作为创业者,我认为最大的教训是,除了技术之外,人的因素非常重要:如何沟通、如何发挥领导力、如何快速完成技术转型,这些都非常关键,因为你必须不断重塑自己,跟上新一代技术的发展。


02:10:05 教授生涯、人生思考与未来展望

本节重点 - 陈天奇博士毕业时就决定走学术路线,喜欢做研究和带学生,CMU的工作让他可以兼顾科研和工业界的技术落地 - 他的指导风格受导师Carlos影响,鼓励学生做深入、有影响力的工作,重视表达能力和团队协作,认为学术界最大的优势是自由度高、容错性强 - 他的人生选择逻辑是:问自己如果不做这件事会不会后悔,选择自己真正热爱的方向,不要在意短期的得失 - 长期主义的核心是接受失败,保持初心,未来希望推动AI技术更加普惠,让每个人都能创造自己想要的AI系统

详细精要 - 教授生涯的选择:博士毕业时陈天奇就决定走学术路线,原因有三个:喜欢做前沿研究、喜欢和学生一起解决新问题、喜欢教学,把知识分享给更多人 - 他现在仍然坚持写代码,参与一线的技术开发,认为只有在一线才能发现真实的问题,AI工具的发展也让资深开发者的效率大大提升 - 他的时间管理秘诀是聚焦,不追求多产出论文,而是集中精力做少数真正有价值的深度项目 - 他鼓励学生不要盲目追求快节奏的论文产出,而是要深耕一个方向,积累足够的势能,机会来的时候才能抓住 - 对学生的建议:现在学生做AI研究,虽然算力和工业界有差距,但仍然有很多机会,核心是找到真正有价值的痛点问题,从第一性原理出发解决问题 - 学术界的最大优势是自由度高、容错性强,可以做长期高风险的研究,不需要为短期KPI放弃有价值的方向 - 开源是学生锻炼能力的最好方式之一,可以获得从零搭建大型项目的经验,比单纯发表论文更有长期价值 - 人生选择的逻辑:陈天奇做选择的核心逻辑是:问自己如果不做这件事,老了会不会后悔,优先选择自己真正热爱的方向 - 他认为成功没有统一的定义,不需要用财富或者影响力来衡量,能做自己认为有价值的事情就是成功 - 他现在最大的挑战是保持初心和勇气,随着资源变多、责任变大,很容易变得害怕失败,需要时刻提醒自己保持最初的心态,不要害怕试错 - 未来的展望:陈天奇对AI的定义非常务实,只要能提升生产效率就是有价值的,不需要纠结于通用人工智能的定义 - 他希望未来AI技术能更加普惠,每个人都能创造自己想要的AI系统,而不是被少数大公司垄断 - 他会继续在AI系统领域深耕,解决跨硬件部署的核心痛点,推动端侧AI的大规模落地

💬 精华片段(中文)

"Many difficulties and helplessness are just part of the random growth. As long as there is enough time and patience, the process of random growth will always be connected with the stable relationship between the two."

很多困难和无助只是随机生长的一部分,只要有足够的时间和耐心,随机生长的过程最终总会和稳定的长期目标连接起来。


专业术语注释

术语 解释
XGBoost(Extreme Gradient Boosting) 本集指陈天奇主导开发的开源梯度提升树算法框架,广泛应用于结构化数据建模,GitHub星标接近7万
MXNet 由全球多个高校博士团队联合开发的深度学习开源框架,曾被亚马逊选为官方框架,多卡训练性能长期领先行业
TVM(Tensor Virtual Machine) 陈天奇主导开发的机器学习编译器框架,用于解决AI模型跨硬件部署的自动优化问题,是该领域的事实标准
MLC-LLM(Machine Learning Compilation for LLM) 陈天奇团队开发的跨平台大语言模型推理部署引擎,支持大模型在多端设备本地运行
OJ(Online Judge) 在线编程测评系统,用于算法竞赛训练,陈天奇高中时通过OJ自学编程
NOIP(National Olympiad in Informatics in Provinces) 全国青少年信息学奥林匹克联赛,国内高中阶段的顶级信息学竞赛,陈天奇高三时拿到一等奖
ACM班 上海交通大学的计算机科学试点班,以培养顶尖计算机人才为目标,余勇教授是创始人
APEX实验室 上海交通大学的人工智能实验室,陈天奇本科阶段科研的起步平台
KDD Cup 国际知识发现与数据挖掘竞赛,数据挖掘领域最具影响力的顶级赛事,陈天奇本科时曾参赛获奖
RBM(Restricted Boltzmann Machine) 受限玻尔兹曼机,早期无监督深度学习模型,陈天奇本科时曾用该模型做ImageNet分类研究
CUDA NVIDIA推出的并行计算平台和编程模型,用于GPU上的通用计算,是AI开发的核心基础工具
SVM(Support Vector Machine) 支持向量机,经典监督学习分类算法,是陈天奇早期科研中的性能基线
PyTorch Meta开源的深度学习框架,目前是工业界和学术界的主流选择
TensorFlow Google开源的深度学习框架,早期广泛应用于工业界
VTA(Versatile Tensor Accelerator) TVM项目中设计的开源通用张量加速器架构,探索软硬件协同的AI部署方案
OctoML 陈天奇等人基于TVM项目创立的AI部署优化公司,2024年被NVIDIA收购
MLPerf 国际权威的AI性能基准测试,用于衡量不同硬件和软件框架的AI计算效率

延伸思考

  1. AI系统领域未来如何平衡大厂商主导的集中式技术路线与开源社区的分布式创新,保障中小开发者的创造力?
  2. 大模型时代下,机器学习编译技术如何进一步降低AI部署门槛,推动端侧AI的大规模落地,实现AI技术的普惠?
  3. 学术科研资源与工业界算力差距持续扩大的背景下,高校的AI系统研究如何找到独特的价值定位,培养顶尖的技术人才?
  4. 开源项目的商业化路径仍在持续探索,如何在保证社区活力的同时实现可持续的商业收益,是开源领域长期需要解决的核心问题。
  5. 未来硬件和模型的协同演进会成为AI发展的核心趋势,如何打破硬件厂商的技术壁垒,实现不同硬件平台的通用性,是AI系统领域的长期挑战。

原文发表:Sep 12, 2025  ·  纪要生成:2026-03-18