COVER · quantum1944 年,约翰·冯·诺依曼在那份著名的《EDVAC 报告初稿》里把"存储"与"运算"分成两个器官,用一条总线把它们连起来。八十年过去,这条总线成了整个数字文明的主动脉,也成了它最深的伤口——我们称之为"冯·诺依曼瓶颈":处理器的算力每两年翻一番,而把数据从内存搬到运算单元的速度却几乎停滞。今天一颗高端 GPU 在训练大模型时,超过六成的能量不是花在乘加运算上,而是花在搬运比特上。我们造了越来越快的大脑,却被一根越来越细的脖子卡住。
探针实验室对这件事的提问方式不太一样。我们不问"如何把总线做得更宽",而是问一个更根本的问题: 计算这件事,是否必须由"取指—译码—执行—写回"这套串行流程来承担? 自然界给出了一个反例。一个受精卵分裂成数十万亿个细胞、长成一个人,期间没有任何一条中央总线在调度,没有任何一个 CPU 在取指令。它靠的是一种极其朴素、却被严重低估的机制—— 碱基互补配对 。本文要论证的是:A-T、C-G 的配对法则,本身就是一个完备的计算基元;以它为基础,可以构造一种从原理上绕开冯·诺依曼架构的计算机。这正是探针计算机(PROBE Computer)的第一性出发点。
要理解碱基配对为什么是"计算",先要把"计算"这个词从硅基的语境里解放出来。在图灵和冯·诺依曼的框架里,计算是一个"状态—转移"过程:有一个明确的当前状态,有一张规则表,每一步读入符号、查表、改写状态、移动读写头。它的本质是 串行的、定域的、被时钟驱动的 。时钟是这套体系的心脏,没有时钟,整个机器就是一堆静止的电荷。
碱基配对描述的是另一种计算。把一段单链 DNA 投入一锅含有各种互补片段的溶液,配对反应会 同时、自发地 在所有匹配位点发生。这里没有读写头,没有"下一条指令",没有中央时钟。规则(A 只配 T,C 只配 G)不是写在某张表里再由控制器去查询的——规则就 物化在分子的几何与氢键能量里 。换句话说,在硅基计算机中"程序"与"数据"是被存储在内存里、需要被搬运到 ALU 才能生效的客体;而在碱基计算中,规则是介质本身的物理性质,数据一旦进入介质,运算就已经在发生。 存储即计算,介质即处理器。 冯·诺依曼那道把内存和运算劈开的刀,在这里根本无从落下。
这是一个存在论层面的差异,不是工程层面的优化。当我们说 GPU 是"并行"的,指的是几万个核同时执行,但它们仍然各自取指、各自被时钟节拍约束,并行度受限于核数与带宽。而一锅配对溶液的"并行度"等于溶液中分子的数量——以阿伏伽德罗常数(6×10²³)为标尺。一毫升溶液里能同时进行的配对判断,在数量级上超过人类至今造出的全部晶体管之和。这就是探针实验室常说的"光速合成、高度并行"背后真正的物理含义: 并行不是被设计出来的,而是介质天然就是这样存在的。
怀疑是合理的:一个只会"判断两条链是否互补"的反应,凭什么能算任意问题?这正是 1994 年 Leonard Adleman 那个里程碑实验回答的问题。他用 DNA 配对解了一个七节点的哈密顿路径问题(一个 NP 完全问题):把每个城市编码成一段独特的寡核苷酸,把每条路径编码成互补的连接片段,倒进试管,配对反应在几秒内"枚举"了所有可能路径,再用分子生物学手段筛出符合条件的解。关键洞察在于: 一次配对反应,等价于对解空间里所有候选解同时做了一次"是否合法"的判定。 指数级的搜索空间,被一次反应"摊平"成常数时间——代价是消耗指数级数量的分子。
从可计算性理论看,这并不神秘。要构造一台图灵完备的机器,你只需要两样东西:一个能表达任意状态的符号系统,和一套能实现条件分支与状态转移的规则。碱基的四字母表 {A,T,C,G} 给了符号系统——每两个碱基可编码 4 比特,密度远超二进制。而配对法则给了转移规则:互补即"匹配/激活",非互补即"拒绝/抑制"。把"匹配"作为基本逻辑门,配合连接(ligation)、切割(restriction)、聚合酶链反应(PCR)这些操作,可以搭出 AND、OR、NOT,乃至更高阶的查找与递归结构。 互补配对本质上是一个内容寻址(content-addressable)的"匹配门" ——而内容寻址恰恰是硅基冯·诺依曼架构最不擅长、要靠巨大缓存层级去模拟的能力。在配对介质里,它是免费的。
这就把探针计算机的处理器设计逻辑串起来了。CubeTrain™ 把碱基编码放进一个 43×43×43 的三维元胞自动机:每个格点存一个碱基状态,邻域取最近的六个格点(前后左右上下,r=1),而每个格点的更新规则,正是 碱基互补配对函数 。这是一个深刻的设计选择——它把"配对"这个化学事件,抽象成了元胞自动机的局部转移规则。元胞自动机早已被证明可达图灵完备(Conway 的生命游戏、Rule 110 都是例证),而当它的转移规则由分子配对在物理上直接执行、且每个格点同时更新时,你得到的就是一台"规则物化在介质中、状态全局并行演化"的机器。冯·诺依曼瓶颈在这里不存在,因为根本没有那条要被瓶颈卡住的总线。
承诺要诚实。下面三笔账,第一笔是物理上已被实验证实的量级,后两笔是基于物理常数的理论上限估计, 不是探针计算机当前已实现的实测值 ——它们标记的是这条路线的"天花板在哪里",而非"我们已经站在哪里"。
把账算清楚,反方观点才站得住。碱基计算最尖锐的质疑有三条,每一条都值得正视。
其一,速度的悖论。 配对反应在"并行枚举"上快得惊人,但单次反应的"时钟周期"——从投料到配对完成——是以秒甚至分钟计的化学时间,远慢于硅基的纳秒。这意味着碱基计算并非通用加速器:对串行依赖强、解空间小的任务(比如跑一个普通的 for 循环),它毫无优势甚至远逊于 CPU。它的主场是 解空间巨大、可高度并行展开的问题 ——组合优化、复杂巨系统仿真、密码搜索、分子动力学。探针实验室把目标锁定在"个人医疗、灾害预警、金融风控、宇宙仿真"这类复杂巨系统,正是因为这些问题的结构与配对计算的物理优势天然契合,而不是要去取代你手机里的处理器。这是定位的诚实。
其二,错误率与可控性。 分子反应有噪声:错配、非特异结合、降解。生命用了几十亿年演化出 DNA 聚合酶的校对机制才把错误率压到 10⁻⁹。人造的配对计算机要在毫秒尺度上做可靠寻址与纠错,需要一整套配套系统。这正是为什么探针计算机不是一个孤立的处理器,而是一个系统工程:MARJAR™ 微流控血管负责把试剂精确送达、用电润湿做液滴级寻址;ARS™ 光刻系统负责把反应位点刻到纳米精度;KiloWorld™ 用忆阻器与载流子寻址做读出与重构。 把一锅随机的汤,驯化成一台可寻址、可读取、可重构的机器,难点全在"控制"二字上。 这是整条路线最硬的骨头,也是它仍处于原型阶段的根本原因。
其三,可编程性。 硅基计算机最大的资产不是速度,是六十年累积的编程范式、编译器、操作系统、工具链。碱基计算机要"编程",意味着要把一个问题翻译成寡核苷酸序列的设计,再翻译成流体与反应的调度——这套抽象层目前几乎是空白。这不是缺陷,是机会的另一面:谁能为这种介质建立起"高级语言到分子操作"的编译栈,谁就握住了下一代计算的入口。
我们的判断是清醒的。碱基互补配对不会、也不需要取代冯·诺依曼架构去跑你的浏览器。它要做的是补全计算版图上长期缺失的另一半—— 那一类被串行架构在物理上判了死刑的问题 。冯·诺依曼把世界建模成"状态机+总线",这套模型在过去八十年统治了一切,但它从一开始就是对"计算"的一种特殊化,而非全部。生命用配对、自组装、并行演化的方式计算了三十八亿年,从未用过一条总线、一个时钟。
探针计算机的赌注,是把这套生命的计算范式工程化。它今天仍是原型,CubeTrain™、MARJAR™、ARS™、KiloWorld™ 这些子系统更多还是在"理论自洽—工程在建"的状态,距离亿级探针阵列的可制造性还有一条要用十年去走的路。但第一性原理是坚实的:当一个问题的解空间大到任何串行机器都要算到宇宙热寂,而它又恰好能被映射成一锅分子的同时配对时,碱基计算就不是慢,而是 唯一可行的快 。这才是对冯·诺依曼架构真正的第一性挑战——不是把脖子做粗,而是证明:有些大脑,根本不需要脖子。