智能 - Lumina

有些问题不是在你脑子里解决的，而是在别人脑子里解决的，你只是在看着或读着他们的解法时，才把它看明白。你可能在真正理解之前就先感觉到了。一次轻微的校准。一声安静的“哦！”

你未必总能判断是什么让他们做到这一步。也许他们把自己的经验更高效地提炼成了理解，胜过了你；也许他们只是想起了上周二的答案。这两种解释都能说明结果。很多时候，两者都部分为真。你不可能用任何干净的方法把它们区分开来。最好的研究者所能做的，也就是设计那些不太可能被见过的问题，衡量结果，然后争论分数到底意味着什么。

我们对智能一直就是这样：一个黑箱。没有分解。我们看着结果——解答、发明、偶尔的灵光乍现——并把它归因于记忆、回忆、推理，以及某种叫作智能的无法解释之物的组合。整套东西同时被激活。我们在理解止步之处划下一条界线，把另一边称作“智能”。 每一项 IQ 测试、每一场 SAT、每一个世纪的心理测量学争论，都是对此的漫长纪念碑。整个学科都建立在这样的推断之上：从大脑唯一会释放的数据——输出——去反推某种东西。

这套组合本身还带着自己的内置障碍。进化先验、情景记忆、习得程序、语言能力、社会直觉、具身技能，全都运行在同一底层之上，存在于同一个有机体内，每当系统做出任何有意思的事情时，它们就一起被激活。根本没有办法把它拆开。真的没有。至少以前没有。直到现在。

能力

当你评估一个人在某项任务上的表现时，你实际上在测试什么？第一层面上，你看到的是能力——把给定任务做好这件事的能力。比如他们能不能写出证明、诊断病人、交付代码，等等。能力是可观察的。公司和机构为此付费。资质认证就是用来证明这一点的。

要进入智能层面，你得往更底下一层看。也就是说，要推断他们是如何获得这种能力的。他们之所以能写出证明，是因为之前背过吗？还是他们真的当场从一般原理推导出来的？是凭模式匹配本能反应出来的？还是纯粹天赋？是从去年一个类似问题中学来的？这就是你在追问更难问题的层次，也是你无法直接观察到的层次。所以，人们设计出一些测试，试图排除掉关于能力的无聊解释：全新且未见过的问题、新颖的模式、受限的情境，借此看看智能到底长什么样。关于智能测试的整篇科学文献，都是在通过控制第一层来尽量干净地读取第二层的一场漫长努力。

大语言模型同样有能力

大语言模型的能力惊人。围绕它们到底是否真的智能的噪音常常掩盖这一点，但在第一层面上，答案并不存在严重争议。它们会写作、总结、翻译、编程、推理法律文书、在专家考试中拿到高分，而且每个月在更多领域里都能和熟练的人类打平甚至超过。能力本身没有疑问。

问题在于，这种能力是由什么产生的。而有意思的地方不在于我们已经回答了这个问题，而在于，我们知道它们训练数据里装了什么。我们知道它们是如何走到今天这种能力水平的。

大语言模型是历史上第一类让我们能够在更深一层问出正确问题的系统。

我稍后会回到大语言模型，但先让我说明一下，所谓组合的分解可能是什么样子。

引擎与底层基质

区分这两者，最清晰的术语来自 François Chollet。他多年来一直在主张，智能不等于技能。技能是把一项任务做好的能力。智能则是在极少经验下高效获得新技能的能力。这个框架把引擎和底层基质区分开来：引擎是把经验转化为可泛化能力的那部分，而底层基质则是其他一切——数据、工具、累积知识、搜索、已有技能的可组合性。高转化率的引擎能从更少的输入中提炼出更多结构。低转化率的引擎则需要更多底层基质才能到达同样的地方，而且常常根本到不了。转化率才是关键。其他一切都是燃料。

先在“引擎与底层基质”的框架里待一会儿，因为它比初看起来承担了更多工作。

人类大脑的解剖结构大约一万年来一直相当稳定。文明显然在进步，而且这种加速度本身还在加速。人类能力的绝大部分原始增长都发生在过去六百年里，而这也正是印刷术让存储知识变得廉价、并且能大规模组合起来的时期 1。可以说，引擎没变，底层基质变了。书写增加了底层基质。数学增加了底层基质 2。复式记账、同行评审期刊、制度、标准化测量、互联网——这一切都增加了底层基质。还是同一个引擎，在越来越丰富、越来越可组合的燃料上运转。

然后我们有了大语言模型。当一个大语言模型在某项任务上表现不佳时，修正办法通常是更多数据、更好的后训练、更丰富的环境、更多工具使用、更多测试时搜索、更多脚手架、更好的奖励塑形。通常这都有效。过去五年里，模型家族的能力大幅提升，而其中绝大多数增益都可以追溯到数据混合 3、训练配方，以及周边装置的变化。我们在更擅长喂养这个转换器。我们并没有明显更擅长制造这个转换器（至少不是那种跃迁式的提升；缩放定律仍然存在）。就现有迹象看，大语言模型并不会随着时间推移而更擅长从少量数据中提炼结构，而这才是引擎改进该有的样子 4。

ARC-AGI，这个专门用来测试引擎而非底层基质的基准，足足稳了五年。等模型最终开始在上面拿到更高分时，大量提升来自更重的搜索、更具代表性的训练环境，以及更多测试时计算。这恰好把要点缩小成了一个微缩版。

较弱的引擎可以用更丰富的搜索策略来补偿。你可以用蛮力替代智能。但两者并不相同。

人类也能看到这一点。把人训练到一套会消除临场调整的工作流程里，他们会把事情做得很好。人们可以从书籍和课程中学到海量内容，而自己的底层转化率并不会发生戏剧性变化。即便引擎保持不变，能力仍会随着底层基质扩张而增长。

底层基质包括什么？

在这个框架里，底层基质不只是原始数据。它还包括记住的技能、学会的程序，以及——至关重要的——把它们组合起来的能力。写作是可组合的文本。代码是模块化指令。更强的底层基质既更大，也更可重新组合。这解释了为什么能力能在引擎不变的情况下陡增。只要你给它的材料越来越模块化，就能从一个稳定的转换器里榨取出惊人的表现。

难点在于，从外部看，组合本身很像智能。但如果组成这些组合的片段在它之前就已经存在 5，那么组合仍然属于底层基质。引擎改进则意味着能更好地创造新片段，也就是从少量经验中产生新的结构。

能力是渐近的

但能力的问题在于，它是渐近的。总会有下一个缺口要补，下一个边缘情形要覆盖，下一个领域要触及。你永远不会完成，只会越来越接近完整覆盖。这正是我们所观察到的。模型不会 X，拿 X 去训练它，模型在 X 上就变好了。然后是 Y。然后是 Z。这个循环永远不会终止，因为能力本质上没有最终状态，只有离完整覆盖越来越近的距离。

这里有一个显而易见的反对意见。也许进化先验起的作用比“脑子并没有改变”这句话承认的更多。但一个简单观察就能说明，这一说法站不住脚。人类会迅速学会那些进化不可能编码过什么的新技能和新技术，而且学习得和古老技能一样熟练。今天的孩子用智能手机的轻松程度，和一万年前的孩子学会使用挖掘棒时的轻松程度，是同一种类型的轻松 6。无论引擎在做什么，它都不是靠自然选择预先烘焙的特定任务先验在运行。它也许是在运行某种非常一般性的先验，一种足够灵活的抽象学习算法，能够处理任何到来的东西。它强大到可以在极小的底层基质上工作——一个人一生里获得的那点本地经验涓流——却依然产生可泛化、可适应的能力。这是很高的转化率。大语言模型似乎没有这种东西。

那么，引擎内部是什么？

到目前为止，我们一直是在外部看这个系统。看能力。分离引擎与底层基质。更丰富的数据、更好的工具、更多搜索、更多脚手架——这一切都能提升能力，而不一定改善转换器本身。但这就留下了更难的问题：当转换器真正工作时，它到底在做什么？

在大语言模型的世界里，我们能拿出的最好答案来自 ▶ Ilya Sutskever：

预测就是压缩。

在他看来：要把下一个词元预测好，模型就必须压缩数据，捕捉产生这些数据的规律。这些是人类生成的文本，而人类是在世界之中写作的。所以文本带着世界的形状。因此，要把它压缩得足够好，模型就必须内化关于世界本身的结构——而不仅仅是关于世界如何被描述的结构。把压缩推得足够远，在他的观点里，理解就必须出现，因为预测文本的最短路径，就是去建模生成这些文本的世界。

我认为这大体上是准确的。智能确实涉及压缩。抽象就是压缩。提出理论就是压缩。但关于这一点，我们必须小心：压缩有不同类型。

一种是档案式压缩：压缩关于现实的文本。你压缩得足够好，就能得到接近今天大语言模型的东西。另一种是对现实本身的压缩。发现其下更深的结构，让许多事实都坍缩为某个尚无人写下的基本原理的后果。 $E=mc^2$ 就是一种压缩。但它不是对先前物理学文本的压缩。它是对现实的压缩，而先前物理学并没有做到这一点。达尔文的自然选择是对生物学的压缩，而此前的自然学家虽然把标本都看在眼里，却没有写下这个原理。数据是 موجود 的，任何想看的人都能看见，但真正推动飞跃的，是对现实的压缩。

Ilya 的赌注是，把第一层（档案式）压缩推得足够远，就会逼近第二种压缩。文本被编码得足够密集时，对文本的深层压缩开始越来越像现实本身 7。这或许是可能的。99°C 和 101°C 的水是两种不同现象——相变会发生——这里也可能发生类似的事情。

但历史记录告诉我们，情况并非如此。哥白尼的理论，在当时的观测数据上，本地表现比托勒密更差。几百年来围绕观测调试的本轮和本轮体系，哥白尼不得不自己再加进去一些，才能保住他的圆周。按当时任何活着的人都能算出来的指标，错的理论赢了。

一个追求紧密拟合的系统，不会翻转框架。它会继续站在托勒密那边，并加上下一个本轮。对档案式数据的压缩压力 8 不会浮现出一个在短期内更不擅长预测这些数据的理论。

机制

如果压缩是引擎，那么下一个问题就是：到底是哪一种过程在执行第二种压缩，也就是那种会翻转框架而不是把它收得更紧的过程？这正是大语言模型故事与早期关于洞见、发现和智能的文献分叉的地方。

Hadamard 在 20 世纪 40 年代调查了数学家——包括爱因斯坦——关于他们究竟如何思考。他发现，持续的孕育期——让一个问题在不中断的情况下保持活性——对发现至关重要。打断链条，洞见就丢了。早在 1908 年，庞加莱就描述过同样的事情：突破只会在长时间投入之后到来，那时各种想法会“勾连起来”。后来卡尼曼把话说得更直白 later：中断不会暂停一条费力的思维链，而是会摧毁它。Gruber 研究达尔文的笔记本时，也在数月跨度里发现了同样的模式：一个他不断维持、不断注入新观察、却从未完全写下来的心智模型。

Byers 在《数学家如何思考》中主张，洞见依赖于把含混与矛盾长时间地保持在 ذهن中，直到解决方案自然浮现。太早卸载，太快定论，都会把它杀死。Klein 在高压环境下的专家身上——消防员、军事指挥官、重症监护室护士——也看到了同样的事情：他们抗拒把决策卸载给工具。内部模拟比任何外化表征都更丰富，而过早外化会让它坍塌。Papert 从数学课堂出发指出：在脑子里做算术的价值不在答案，而在答案尚未确定时你所建构出的认知结构。用计算器能得到答案，却跳过了结构建构。

▶ Simonton 研究创造性科学家时发现，当许多想法同时处于活跃状态时，新的发现就会出现。你同时持有的元素越多，发生有生产力的碰撞的概率就越高。Koestler 把这称作 “bisociation”——两个彼此独立的参照框架发生碰撞。只有在两条链同时被维持时，它们的交集才存在。Baddeley 和 Engle 从实证上证明了其下的容量基础。工作记忆，即维持并操作一串活动表征的能力，能够预测流体智力。

研究者不同，领域不同，人群不同——但现象却是同一个。认知有一种模式，其输出之所以产生，正是因为过程本身的连续性，而不是连续性的副作用。同时维持多个表征，让它们碰撞并重构，新的压缩就会出现。 一旦打断链条，或者把集合弄薄，这种事情就不会发生。

这就是支撑转化率的认知科学主张：

你无法在单位输入中提取比你同时能保持激活、并且足够长时间让元素发生碰撞的结构更多的结构。

在大语言模型中，每次推理都是无状态的 9。思维链（chain-of-thought）在单次前向过程中是顺序展开的，但不是持续数分钟乃至更久、接收新输入的活态参与。一个“思考更久”的推理模型，只是在一次会话里搜索一棵树。达尔文那种连续的模型——在数月中不断被每一个新标本喂养——并没有对应物 10。

时间结构完全不同。大语言模型的“思考”在时间上又宽又浅。上面所述的认知模式在时间上又窄又深。这暗示，深度正是新压缩发生的地方。长时间维持多个框架，正是它们得以碰撞并重构成新事物的条件。

预测与压缩之间的联系非常深，但压缩的类型才是关键。文本的档案式压缩能让系统具备能力。现实的压缩才会带来飞跃。 如果飞跃依赖于持续激活的表征、未决的含混、内部模拟，以及长时间上的连续性，那么大语言模型可能缺少某些重要的东西。即便它们是极其卓越的压缩器。

动物智能

还有一块证据并不容易归到任何地方，这也是 Rich Sutton 总把它拿出来的原因。一只乌鸦能解决一个新颖的多步骤问题，而它的大脑只有核桃那么大，也没有任何文本语料库。一只章鱼能打开一个罐子。和大语言模型语料库的规模相比，人类幼儿只用极其微小、本地化、具身化的经验流，就能完成泛化。无论这些系统在做什么，都不是档案压缩，因为不存在文明档案。它们能接触到的数据，只是一小股本地、具身经验的涓流，而正是从中涌现出有智能的行为。

生物认知中的某种东西，能够在没有任何档案承担重活的情况下，产生丰富、可泛化、可适应的能力。无论那是什么，它都比当前 AI 所展现的任何东西更接近 Chollet 所说的转化率。也正是 Rich Sutton 一直在强调的：我们想要构建的智能，已经在生物界里有一个现成的参照类。那个参照类所运行的预算，是我们远远无法匹配的。

基础认知

Michael Levin 关于 ▶ 基础认知的工作把这一点推得更远。智能并非大脑的专属。它是一种基础性的生物问题解决机制。Levin 证明，即使是细胞和涡虫也表现出智能。它们会在解剖空间中导航以自我修复、优化生存，并适应新的形态挑战。没有大脑。没有档案。没有训练语料。但系统里仍然有某种东西在解决问题并完成泛化。

如果 Levin 对自己主张的哪怕一个较温和版本是对的，智能就不仅仅是不依赖档案的，甚至也并不专属于神经系统。

如果智能与底层基质无关，那么它在生物界中的多个独立实例——脊椎动物大脑、章鱼的分布式认知、没有大脑的涡虫、黏菌寻路、Levin 生物电工作中的单细胞决策——就是我们拥有的最有价值的证据。它们是唯一非工程化的例子。它们告诉你哪些特征是趋同的、可能是必要的，哪些只是偶然的，只是哺乳动物恰好这样实现了而已。

把大语言模型放到这张图景中，问题就更清晰了。它们拥有大量偶然特征——符号操作、离散类别、中央表征的表象。它们是否拥有那种趋同的核心，还是只拥有这个核心在哺乳动物形态上的输出，仍是一个未决问题 11。动物证据并不能给出最终答案。它的作用只是确立这个问题是成立的：

这里有一个组合，它是底层基质可塑的，我们要做的是搞清楚大语言模型是实现了它，还是只是看起来像它。

优化压力

Karpathy 则从另一个问题切入。可能的智能空间很大，而动物智能只是其中一个点，它被一种非常特殊的优化压力塑造出来——在多智能体对抗环境中经历了数十亿年的生存，再叠加稳态、自我修复、社会性、地位、好奇与繁殖等驱动力。大语言模型没有经历过这些。塑造它们的压力，是人类文本的统计结构、问题分布上的强化学习，以及某种近似于面向日活用户的 A/B 测试。这些压力会产生不同形状的能力，而且理应如此。

其中最重要的不对称是：动物是在“任何一项任务失败都意味着死亡”的环境中被 min-max 优化出来的。这样的压力会产生一种普适性的底线。大语言模型没有这样的底线。数错 strawberry 里有几个 r，不会对系统造成后果。于是最终形成的能力表面也相应地崎岖不平。优化推动到哪儿，就在哪儿强；没推动到的地方，就缺失。解释为什么 大语言模型能做一些动物做不了的事 的那个同一观察，也解释了为什么它们会在任何动物都能处理的任务上绊倒。

这也让 Karpathy 更强的主张站得住脚。大语言模型是人类与非动物智能的第一次接触。我们总是把它们和我们唯一认识的那种智能混为一谈。正如 Karpathy 所说：“不管它们是什么，它们都不是松鼠。”

一种罗生门式处境

动物证据说明智能并不需要档案。Levin 说它不需要大脑。Karpathy 说它根本不必是生物性的 12。我们还没有统一理论。我们手上只有一组部分视角——Chollet 的转化率、Sutskever 的压缩、认知科学传统中的持续参与图景、Sutton 的尺度与搜索、Karpathy 的优化压力框架、LeCun 的世界模型、Levin 的基础认知——每一个都从不同角度照亮了某些真实东西，却没有一个把全貌补齐。问题不在于这些观点彼此矛盾；它们中的大多数其实是兼容的。

问题在于，我们仍然在看组合物和混成物，看那些用我们同样无法定义的其他东西来描述的东西。我们还没有在看一个原始量。

我们以前也经历过这种情况。在热力学把能量分解之前，能量曾只是热、功、运动以及其他几种概念的混杂集合。原子两千年来一直只是哲学上的猜想，直到仪器真正让它们被看见。生命在生物化学深入内部之前，一直是活力论加神秘主义。在每一种情况下，这个概念之所以看上去统一，只是因为还没人能把它拆开。一旦分解真的到来，它往往来得很快。热力学在大约一个世纪内统一了能量图景，现代原子理论也在差不多的时间跨度里从猜想走向了实验基础。分解并没有摧毁这个概念。它只是给了我们一个真实的概念，去替换那个民间概念。

智能现在正处于分解前阶段。民间概念之所以还能运作得不错，是因为唯一表现出智能的系统把所有部分都绑在了同一个有机体里。如今出现了第二类系统，它也表现出类似智能的行为，而且它的各个部分第一次可以被分别看见。我们可以读训练数据。我们可以记录运行。我们可以探测激活。我们可以识别底层基质并刻画失败模式。所有这些都并不能解决问题。它们只意味着：这个问题第一次有了一个仪器未来有可能适配的形状。

如果智能真的是一个真实的原始量，而不是一个民间拼装包，那么这个原始量就必须解释所有已知实例。生物的，机器的。无论每一种是被何种压力塑造出来的。它得足够一般，能容纳涡虫、乌鸦、儿童，也许还有机器。也得足够具体，能把恒温器排除在外。

单位

智能的原子问题，是某个系统能从多少经验中提取出多少新的结构。

问一个模型是否智能，问错了。我们真正需要开始问的是：它的转化率是多少？

这个重新框定，会改变你测量什么、构建什么、以及什么才算进步。一个高转化率系统——无论它由什么构成——应当做四件事。拿到在某个从未见过的领域里的少量经验。从中提炼出可复用结构。把这些结构迁移到新情境中。并且在未来每一项任务中，不需要更多数据、更多搜索或更多脚手架也能保留下来。这就是操作性的形状。没有哪一项已经被解决。我们甚至还无法干净地测量它。但这才是正确的问题形状，而一旦它摆在你面前，研究方向就会豁然清晰。记忆、规划、推理、世界模型，都是对转换器在某个特定状态下如何表达自己的复合性描述。孤立研究其中任何一个，研究的都是运作的副产物，而不是运作本身。智能研究在某种等价的分解前状态里已经停滞了大约一个世纪，一直在研究能力的聚合物，却把它们称作智能。

更难的问题是，你该如何测量这一切。我们今天使用的仪器，测的是别的东西。

基准测试

基准测试可以显示系统在某个框架内是否占优。它可以显示它对某个领域的掌控、对任务格式的熟练、强搜索、强综合、以及在评分约束下的可靠表现。但它无法告诉你，这个系统是抵达了某种原始量，还是吸收了另一层复合的能力。

如果把基准测试当作第一层的测量，它们是有信息量的。如果把它们当作第二层——系统里究竟是什么在产出能力——的测量，它们就是沉默的。它们从来就不是为那个层级设计的，可公共讨论却一直在逼它们回答这个层级的问题。

社会反应中的对应错误，就是每个月都把新的能力膨胀成通用智能，或者把它贬低成自动补全。两种做法都很廉价。这个任务仍然可以是困难的、有用的、在经济上极其巨大的。即便如此，它也仍可能比双方愿意承认的都更远离智能核心。

我们真正知道什么

我们并不知道 Sutskever 是否正确：预测一旦被推到足够远，就会变成理解。我们并不知道我们是已经造出了智能，还是造出了历史上最壮观的依赖底层基质杠杆的系统。我们并不知道认知文献反复描述的那种持续参与模式，对大语言模型来说是不是本质上缺失，而不仅仅是程度不足。我们并不知道 Sutton 和 Levin 指向的——没有档案的智能——是否是我们还远未开始接近的深层结构特征。

但我们确实拥有了一件前所未有的东西：一个真正版本的问题。历史上大多数时候，智能都作为一个包裹，出现在单一有机体内部。现在有了一个候选系统，我们原则上可以把这个包裹拆开。智能由什么构成，这个问题第一次呈现出一个科学问题而不是哲学问题的形状。

AI 也许并没有解决智能。它也许只是给了我们第一个足够精确的问题表述，让我们终有一天能弄清楚——我们造出的东西，究竟能否压缩现实，还是只能压缩现实的人类档案。

智能

内容

能力