来源: YouTube | Thomas Ahle | Jun 28, 2026 分类: 其他 原文发表: Jun 28, 2026 纪要生成: 2026-06-29
Thomas Ahle,一位横跨概率机器学习、形式化验证和芯片设计的“全才型”研究者,现任 Normal Computing 核心成员。他曾在牛津学习语言学,拥有理论计算机科学背景,专注高维数据算法。在本次对话中,他深入探讨了团队如何运用多智能体协作,在短短43天内生成超过50万行代码,自主构建了一个模拟复杂芯片设计的系统。同时,他详细阐述了 Normal Computing 推出的革命性热力学计算芯片 CN101,该芯片不依赖传统晶体管的0/1逻辑,而是直接利用电路的物理噪声来求解随机微分方程,为大规模矩阵求逆或贝叶斯推理开辟了全新的硬件路径。
本节重点
详细精要
该过程强调将复杂的物理制造流程,彻底抽象为自顶向下的代码工程。
芯片设计的根本性转变:“代码即芯片”:
这种高度并行的编程语言能够完美映射到硬件逻辑,但其代码必须经过严格的仿真和形式化验证,因为在硅片流片后,任何潜藏的Bug都可能导致灾难性后果。
“代码生成”的双刃剑:理解债务的隐忧:
💬 精华片段(中文)
“这些日子,一颗芯片并不一定始于工厂,它可以从代码开始。”(These days, a chip doesn't necessarily start in a factory. It can start as code.)
本节重点
详细精要
这与Python、JavaScript等软件生态的开源繁荣形成了“白天与黑夜”般的巨大反差,直接阻碍了通用AI在底层硬件设计的普及。
持久运行的AI代理集群实践:
这与Anthropic利用大量代理根据功能规格重写C编译器的思路遥相呼应,证明了依据现有自动化测试进行递归、多智能体生成是可行的。
基准测试的“烟雾弹”与真实性陷阱:
💬 精华片段(中文)
“它确实在测试中达到了80%的正确率……但我和制作基准的人聊过,问题是:它真的正确解决了任何一个问题吗?”(it got like 80% tests correct. And it's like, yeah, but I talked with the people who made the benchmark and like, yeah, but did it get any of them actually right)
本节重点
详细精要
这表明无论是人还是AI,在面对完全黑盒时,都是一个不断利用已有工具集,一步步试探,通过可视化输出和先验直觉来不断爬山逼近真相的过程。
生成与验证的不对称性及抽象提炼:
💬 精华片段(中文)
“我们无法生成,但我们可以很好地辨别。我们迈出这些步伐,当我们到达时,我们把它折叠成一个模型,那就是智力的产物。”(We can discriminate well, but we can't generate yet. But we take these steps, and then when we get there, we now kind of collapse that into a model, and then that's the artifact of the intelligence.)
本节重点
详细精要
然而,当LLM以代理形态实时运行时,它极其不擅长将推理过程中新创造出来的临时逻辑,主动识别并固化为新的永久性抽象。这限制了它处理超长周期、动态积累知识的复杂任务的能力。
持续学习的安全博弈与商业壁垒:
Thinking Machines 等公司提出的“共享基座模型+私有LoRA轻量级适配”或许是一种折中,但仍面临复杂的维护和状态管理挑战。
物理硬件中的自适应本质:
💬 精华片段(中文)
“在我看来,所有关于智能的词语中,适应性是排名第一的关键词。”(out of all of the words we can use to analogize intelligence, adaptivity is the number 1.)
本节重点
详细精要
在未来,如果用户想出了一个绝妙的新算法,也许只需要用AI生成一段针对该算法的专用电路设计,就能高效地运行它。
递归式自我改进的正反馈闭环:
💬 精华片段(中文)
“也许很快,当我们想设计CUDA内核时,我们不会再去写代码了,而是直接为每一件特定的事情,生成专门的定制化电路。”(maybe now people are thinking about like making their cooler kernels... instead of CUDA kernels, we'll just like make some custom circuits for every single thing we want.)
本节重点
详细精要
真正的瓶颈在于自动形式化。芯片规格书动辄数千页,任何一两个单词、一组数字的翻译错误,都会导致整个证明变得毫无实际意义。而人类语言中的模糊性(如“非负数”在Lean中的表达歧义),更是加剧了这种一对多映射的复杂性。
硬件领域的“正交隔离”信任机制:
💬 精华片段(中文)
“你只要哪怕有几处词语或者几个数字搞错了,那么你证明的东西就不再是重要或相关的了。”(if you got just a couple of words wrong somewhere or a couple of numbers, then it doesn't work. Like then what you prove is not important or is not relevant.)
本节重点
详细精要
他们通过控制电容与可编程电阻构成的网络,利用源源不断注入的噪声,让整个芯片的宏观状态自发地遵循一套随机微分方程。
物理世界中涌现的线性代数求逆:
这一发现为那些受限于矩阵求逆计算效率的算法(如高斯过程回归、马尔可夫链蒙特卡洛的核心采样步骤等)提供了一个颠覆性的物理捷径。过去需要庞大算力的数值运算,现在可以通过等待物理系统的自然弛豫来完成。
多模态推理时代的概率实用性迷思:
💬 精华片段(中文)
“芯片制造商花了那么多时间和金钱把每一丁点噪声都清除掉。而我们拿到芯片之后,又拼命地往里加随机数。” (they spend so much time like getting out every single little piece of noise out of their systems ... And then what do we do with them? We just like add randomness everywhere.)
本节重点
详细精要
因此,最理想的架构是将LLM作为一种直觉发射器,而将最终的编译、优化与验证,交还给由高速搜索算法构成的传统软件层。
国际象棋AI的混合架构启示:
对于芯片综合与程序合成,很可能会诞生类似的范式:当一个由AI生成的设计面临巨大的搜索树和状态爆炸时,就必须无缝切换到更快上千万倍的传统算法,而不是继续让LLM慢悠悠地生成Token。
系统架构中的抽象“锚点”:
💬 精华片段(中文)
“你总是希望在某些时候切换到更经典的算法上去。”(at some point there's also just a hard commutation problem where you just want to brute force some stuff. And at that point, you want to be able to switch to more classical algorithm.)
本节重点
详细精要
Karpathy式的体感学习法——即拒绝复制粘贴,强迫自己手动输入每一行代码——虽然表面看起来机械缓慢,却是一种捍卫生物神经网络自主演化的最后防线。
协作性制度与社会契约的崩解:
解决这种社会层面的污染,业界开始诉诸某种类似GitHub信用评分/业力系统。低信用用户的自动机产出将被无视,但这又不可避免地产生了对新生代和圈外人士的排挤效应,构成了一种两难的社会悖论。
绩效重于好奇:资本闭环中的智力固化:
💬 精华片段(中文)
“不仅仅是AI在变得越来越聪明,同样重要的是,人类在变得越来越愚蠢。我们不再了解事物的原理,我们对事物变得懒惰。”(...it's not just that it's getting smarter, it's also that humans are getting dumber, like we no longer like know and like we get get lazy in terms of understanding stuff.)
| 术语 | 解释 |
|---|---|
| Verilog(硬件描述语言) | 一种用于描述电子电路结构和行为的超级并行编程语言。在播客中,它被看作是芯片设计的“编程语言”,工程师用文本形式编写逻辑,最终再烧录为刻死的实体硅片。 |
| RTL (Register-Transfer Level) | 寄存器传输级,是数字系统设计中面对时钟周期的行为抽象层级,通常直接用Verilog描述该级别的电路行为。 |
| EDA工具 (Electronic Design Automation) | 电子设计自动化工具。在播客中泛指昂贵的商业套件,用于逻辑仿真、综合、版图布局等,被视为芯片界的“重型工业软件”。 |
| Netlist(网表) | 将硬件描述语言编译后得到的,描述逻辑门之间具体连接关系的文件,是设计交由晶圆厂前后的核心枢纽。 |
| Fab(晶圆制造厂) | 指实际制造实体硅片的高精密工厂。播客中多次强调流片的极高成本,一次失败可能导致数亿至数十亿美元的损失。 |
| 形式化验证 (Formal Verification) | 使用数学的方法证明系统设计满足某种绝对规格,不同于普通的仿真,它追求100%无遗漏的正确性,在硬件和数学中应用广泛。 |
| 自动形式化 (Autoformalization) | 核心难题:将人类自然语言或文本规格书自动翻译为机器可以理解的数学定理。当前RL在证明阶段强,而在规格翻译阶段弱的关键根源。 |
| Lean(证明助手) | 一种基于依赖类型理论的形式化证明语言和验证器,也是AlphaProof用于证明国际数学奥林匹克题目的核心工具。 |
| 局部敏感哈希 (Locality Sensitive Hashing) | 一种用于在大规模高维数据中进行快速相似度搜索的算法技术,是Thomas早期的研究专长。 |
| 马尔可夫链蒙特卡洛 (MCMC) | 一类从复杂概率分布中采样的算法。播出中提到,在贝叶斯方法中,这在GPUs中因其固有的重复性和随机性约束而运行较慢。 |
| 随机微分方程 (Stochastic Differential Equations) | 描述被随机噪声干扰的动态系统。在播出语境里用以形容热力学芯片的宏观状态,每一个微观粒子的无规热运动在电路宏观属性上整合成了方程。 |
| 适应性/持续学习 (Adaptivity / Continual Learning) | 既有争议又关键的名词:描述一个不停止训练,一直吸收新数据并对架构导致参数变动的活体系统,而非冻结的静态模型。 |
| SVA (SystemVerilog Assertions) | 用于检查RTL级别电路信号在一个或多个周期中是否符合某些断言验证的工业主流语言。 |
| TLA+ (Temporal Logic of Actions) | 勒芒·兰伯特开发的用以严格描述并发系统,避免死锁、活锁等协议级层面抽象的形式化语言。 |
| 时间佩特里网 (Timed Petri Nets) | 处理含有严格时间同步关系的普高并行状态变迁的形式化系统。播客中以其为例解释了常规DRAM在不同bank之间的复杂接口防死锁设计。 |
| LoRA (Low-Rank Adaptation) | 一种在预训练基座模型上插入并仅更新极小部分参数的低秩微调方法,用于在商业中变通实现“既可共用大模型,又能留存个人学习的记忆”。 |
混合智能架构的工程路径:未来十年,一个稳定且可验证的“混合理智”软硬件栈,是否将完全由“LLM生产胶水代码和直觉提案”而“经典确定论逻辑处理搜索与验证”所构成?这是否会让所有的全栈AI至下而上的方式沦为低效的摆设?
物理与数字世界的接口:热力学芯片将计算结果编码于物理实体的弛豫态中,这种先天的模糊性与采样误差,是否会因为随着数字监督体系(如基准测试审查)的严格化,而在工业级部署中被拒之门外,还是说我们需要重新定义机器输出“对与错”的物理界碑?
群体智力与熵减:“所有代理达成共识即为准确”的逻辑,是否最终会陷入同质化底模的“回声壁效应”?长此以往,由高度同质化数据迭代生成的系统,是否会因为丧失了外部知识输入而导致整个生态进入一种静态的、无法创新的“太一”状态?
人的退化与职场的重塑:当管理者甚至鼓励用“每人自己复制一份AI代码”的方式取代协作,我们是否正在用工程效率革了人类组织社会性复杂技能的命?一种不以“代码产出量”而以“抽象骨架与因果发现的洞察力”作为考核的逆向指标体系,是否会在企业生长出来?
贝叶斯概率的不落地争议:端到端的序列生成(链式思维)已经用海量浮点消除了中途统计的不确定性,物理学上的阵列概率加速器,是否还有机会在硅基大脑的逻辑层面,取代大模型生成过程中隐含的“人为干预式得分门控”?还是说物理概率只能作为深层机制解释的工具而存在?