帕金森定律指出,工作会不断扩展以填满可用的时间。在人工智能时代,工作者如今拥有了一种工具,这种工具可以扩展至大型语言模型所能生成的任何内容——也就是说,没有限制。
过去两年里,我亲眼目睹了自己所在行业发生的变化,至今仍难以准确描述。大约一年前,我第一次察觉到不对劲:我注意到一位同事用AI回复我的消息。他的回复明显是由Claude生成的——标点符号出卖了它:没人会手动输入长破折号,那种节奏感,那种对某些技术的自信把握,而据我所知,他根本不懂这些技术。我盯着那条消息看了很久,犹豫是否要和一个明显在逐字复制模型输出的人争论。那个频道是公开的,我花了比应该花的时间多得多的时间来纠正一些基础错误。最终我放弃了。从任何有意义的层面上说,他都不再是对话的另一方。
生成式AI可以产出看起来专业但实际上并不专业的工作,而这种失败会以两种形式出现。第一种是:某个领域的初学者能够以比其判断力更快的速度或更高的水平,产出与资深人士相似的工作。第二种是:人们在从未接受过训练的学科中生成成果。这两种失败从远处看很相似,实则不同。目前的研究大多只测量了第一种。而第二种正是研究中被忽略的部分,根据我的经验,它比第一种风险更大。
不会写代码的人正在构建软件。从未设计过数据系统的人正在设计数据系统。其中大部分并未上线;它们被构建出来,往往耗费数小时,可能在内部被热情展示,悄悄使用,偶尔不声不响地交付给客户。工作者可能对某个想法着迷,加班加点工作数小时。有少数从业者能够正确使用当前的智能体工具来完成复杂任务,但他们寥寥无几,而且据我发现,通常仅限于代码生成领域。尽管AI在个体层面具备强大能力,但在我的工作场所中,它并未实现真正的规模化。
我有一位同事,他从事的不是工程类工作,但为人谨慎且聪明。今年早些时候,他花了两个月时间构建一个本应由接受过数据架构正式培训的人设计的系统。按照目前衡量工具使用的标准,他使用工具的方式无可挑剔。他产出了大量代码、大量文档,以及大量看起来像是进展的成果——只要观察者不知道该关注什么,就会认为一切正常。但当被问及这些成果的实际运作原理时,他却无法解释。这项工作从第一天起就是错的。其数据模式和更重要的目标设定,都存在明显错误,任何在该领域有两年经验的人都能一眼看出。我们中有几个人确实看出来了。即使有人的意见已经上达到副总裁级别,他仍然据理力争。会议室的氛围被安排得让人难以提出质疑;他的管理者们太过于沉迷于“进展”的表象,不愿让这种表象被打破。这项工作很可能会继续下去,直到它被展示给某个利益相关者,而对方决定不再投资。
这正是我觉得最难描述的现象。这个工具并没有让他成为一个更糟糕的同事。相反,它让他能够在长达数月的时间里,冒充一个他从未接受过训练的学科的专业人士,而这种冒充足够逼真,以至于整个机构的激励机制都倾向于让他继续下去。也许这是管理上的失败,但我发现,管理层对AI的拥抱热情高涨,以至于他们愿意承担这种风险。
如果这个工具能诚实地评估它所产出的内容,或许还能容忍。今年春天,斯坦福大学Cheng等人发表在《科学》杂志上的研究[1]证实了每个常规用户早已知道的事实:领先模型比人类受访者“顺从”约50%,即使在没有理由的情况下也会肯定用户。伯克利CMR的元分析[4]发现,懂AI的用户常常高估自己的表现,尤其是在工作者偏离其专业训练领域时尤为明显。美国国家经济研究局(NBER)对客服代理的研究[2]发现,生成式AI能将新手的生产力提升约三分之一,而对专家的帮助微乎其微。哈佛商学院的研究人员在咨询工作中也发现了同样的模式[3]。因此,你面对的是:一群过度自信的初学者,他们能够在自己无法判断正确性的专业领域中提升个人生产力。这还能不出问题吗?
越来越多的研究将这种现象称为“输出能力脱钩”[5]。在以往任何时代,一件工作的质量都是其制作者能力或多或少可靠的信号。初学者的文章读起来就是初学者的文章;初学者的代码会以初学者的方式崩溃。而AI切断了这种联系。现在,初学者产出的作品不再暴露其新手身份,因为作品所体现的能力根本不是初学者的能力,而是系统的能力。在交易过程中,人变成了一种传导者,能够将输出传递给接收者,却无法在传递过程中对其进行评估。
产出工作和评判工作的技能原本是刻意区分的,但完成工作本身的过程曾教会人们如何评判。如今,第一种技能在很大程度上已属于机器。第二种技能仍属于人类,但越来越少的人愿意去获取或运用它。
过去,来自那些被教导过、或曾亲手构建并破坏过三个类似系统的人的建筑性批评,如今却来自一个没有任何构建或破坏经验的模型。那种缓慢并非对真正工作的征税;那种缓慢本身就是真正的工作。正是这种缓慢让工作变得优质,让从事工作的人变得优秀,也让以该工作名义对外承诺的公司能够向客户保证,他们购买的是某种特定类型的东西,而非通用产品。
当前这一代智能体系统建立在这样一个前提之上:人类是瓶颈——如果去掉人类阅读即将发生的事情并决定是否应该发生的尴尬延迟,循环会运行得更快、更干净。但在绝大多数情况下,这完全搞反了。循环中的人类并非早期时代的残留物;人类才是循环中唯一有切身利益的一方。从“人在循环中”(HITL)中移除“人”,并不是一种效率提升。而是放弃了系统自我纠错的唯一机制。
曾经一页的需求文档,现在变成了十二页。曾经三句话的状态更新,现在变成了要点总结的要点总结。回顾笔记、事故后报告、设计备忘录、启动会议材料:所有可以被拉长的文档,都被那些不读自己所写内容的人拉长,供那些不读所收内容的人阅读。制作文档的成本已降至几乎为零;而阅读文档的成本并未下降,实际上还在上升,因为读者现在必须从合成的上下文中筛选出文档原本要表达的内容。每一个拉长的个体决策似乎都是理性的,且每个决策都会独立获得奖励——读者对更长的AI生成解释更有信心,无论这些解释是否正确[5]。其集体效应是:在任何给定工作场所中,信号比以往任何时候都更难被发现。检查点已被隐藏,淹没在它们自己的文书工作中,即使那些淹没它们的人 genuinely 试图“简洁”。
这是一种新型的“垃圾”,它比公开的“垃圾”更昂贵,因为产出它的人正在领取薪水来做这件事。未来专家的输送管道正在两端变窄。过去用来教授判断力的工作,现在由工具完成;而曾经用于教学的入门级岗位,正基于“工具可以完成工作”的理论被裁减。这导致的结果是,包括我所在办公室在内的许多办公室,出现了大量的“动作”,却很少产生过去那种“动作”所创造的价值。
下游成本正在迅速累积。目前关于“AI垃圾”的公共讨论,大多集中在涌入公开市场的内容洪流上——佛罗里达大学的营销研究[6]是其中较为直接的分析之一。较少被提及的是,同样的动态正在组织内部上演:在不需要AI的任务上浪费时间,产出没人会读的成果,构建只因为工具让构建变得廉价而存在的流程。在那些原本甚至不需要说明或已被默认的幻灯片上,事无巨细地罗列内容。
在这种环境下,“专业”看起来几乎令人尴尬地过时,对大多数人来说可能显而易见,直到你真正尝试避免它。在你能精确验证工具产出内容的地方使用它。永远不要向模型寻求确认;工具会同意所有人,而一个无需付出任何代价的同意一文不值。
生成式AI擅长反馈迅速、大致正确就足够、且人类仍是最终裁决者的任务。例如:起草备忘录、生成示例、总结读者愿意核实的材料。伊利诺伊大学关于生成式AI的指南[7]以及PLOS计算生物学期刊发表的《AI在科研中的十条简单规则》[8]等较为谨慎的文献,都明确列出了这些用途:头脑风暴、校对、重新表述自己的想法、在已理解的数据中检测模式。
在每一个推荐用途中,人类提供判断力,工具提供吞吐量。这是一种比“人在循环中”更强的立场。工具位于工作之外,只在被邀请时贡献,否则保持沉默——这与大多数智能体系统目前的构建方式完全相反。
对于企业而言,那些其工作值得信赖的企业的竞争优势并未消失;恰恰相反,它可能已经升值,因为许多竞争对手正在悄悄地将自己转变为内容生成管道,并寄希望于客户不会注意到。
这已经到了一个临界点。德勤已经因一份AI幻觉的政府报告退还了44万美元费用的一部分。这可能是一个基于幻觉规范构建的生产系统,也可能是一位高级工程师意识到,过去一年他名义上在审查的工作,实际上他已无法胜任审查。这场清算不会悄无声息。那些仍在正确地完成工作的企业,将处于能够为此收费的地位。而那些已经掏空自己的企业,将会发现,他们掏空的东西,正是客户付费购买的东西。
职场中对AI的误解和误用比比皆是。在我现在所处的许多会议室里,专业知识被要求视而不见:交付更快、产出更多、更深度地集成工具、为那些“正在做事”的同事让路。成果在不断累积;真正的工作却没有。而在所有这些产出的另一端,某个客户正在打开一份交付物,阅读一份总结列表,他们可能直接选择即可手动审查它。
免责声明:这是一篇个人随笔,而非学术论文,作者是一位在工程领域工作超过二十年的从业者。这些是我的个人经历,发生在我所在的工作场所,并引用了我认为相关的资料。如果你只能记住一件事,请记住:人是易受影响的生物。本文在写作过程中使用了AI,方式正如文章本身所推荐的:用于头脑风暴、起草和修订我手动验证过的材料,绝不用来提供我缺乏的判断力。另外,那些声称这篇文章讽刺性地成为了其自身抱怨的受害者的人,100%正确——就像AI一样,我也有点啰嗦和重复。