测量AI完成长期软件任务的能力,由数十位来自模型评估与安全研究组织(METR)的作者共同撰写。他们提出了“时间跨度”(time horizon)这一指标,并指出大型语言模型(LLM)的时间跨度正以每七个月翻一倍的速度增长,且近期可能已加速。
(另见穆拉特的总结。)
AI代理的“时间跨度”是指:在给定成功率下,人类专家完成任务所需的时间长度。例如,一位人类专家完成一项特定优化任务——为Python程序添加GPU加速——大约需要8小时。去年最强模型的平均成功率约为50%,因此其50%成功率的“时间跨度”即为8小时。(此处简化处理。实际上,人类任务耗时和LLM的成功概率均为统计估计值,详见原文。)
METR团队对170项任务进行了计时测试,任务时长从几秒到八小时不等。参与者为熟练工人,他们因速度或成功率获得额外奖励。若放弃、提交错误答案或在八小时后超时,则视为失败。METR将成功完成任务的耗时取几何平均值作为该任务的标准时长。
随后,他们将相同任务交由2019至2025年间发布的十二款LLM执行。这些模型无时间限制,令牌配额也较为宽裕,仅当输出错误答案时才判定为失败。

核心发现是:50%成功率的“时间跨度”大致每七个月翻一番。GPT-2的时间跨度仅为两秒;Claude 3.7 Sonnet达到50分钟;而o3接近两小时。在最新测试中,Opus 4.6的50%时间跨度已达约12小时。按此趋势推算,到2027至2031年间,前沿AI将在无人监督的情况下,以50%的概率完成那些原本需人类专家耗时一个月才能完成的任务。

附录占据了论文的大部分篇幅,也是最具价值的部分。请务必阅读!附录H定义了任务的“混乱度”(messiness),包含16个影响AI表现的因素:如不可逆的错误、每次尝试消耗有限资源、无法判断结果是否由自身行为引起、难以明确衡量成功与否等。混乱度对AI的阻碍大于人类。但有趣的是,AI在混乱任务与整洁任务上的改进速率相当。
作者坦承,此类基准存在诸多质疑理由。这些任务未必代表真实世界的软件开发工作;人类基线数据来自不熟悉特定代码库的专家。例如在GPU加速任务中,熟悉代码库的人可能更快,而不了解GPU加速原理的人则会更慢。

如果你给一个LLM分配一项原本需要人类耗时一个月的任务,最关键的问题是:你是否有可靠的测试预言机(test oracle)?如果有,那么不出五年,很可能就会出现能在50%情况下成功完成的LLM。我们或许不需要更大的模型,只需改进提示工程与系统架构。但现实中的软件开发充满混乱:正确性模糊不清,没有裁判来评判你的成果,有时你的错误会带来严重后果。整洁的基准测试与现实世界之间的鸿沟依然巨大,作者对此心知肚明。
METR自己也发布过一份警示性后续报告,指出约一半SWE-bench中通过自动化测试的拉取请求(PR),会被人类仓库维护者拒绝——原因包括违反编码规范、破坏无关代码,或未能真正修复问题。这并不意味着模型能力不足;它们可能需要与维护者反复沟通调整,就像人类贡献者一样。(有多少次你的PR是一次性通过的?)但这确实说明:“SWE-bench上60%的得分”并不等于“在实际工作中可接受的60%成功率”。自动化测试永远无法覆盖一切,而人类共享着许多不成文的好代码准则,目前尚无法被基准测试捕捉。

METR对人类与AI的测试方式存在差异。人类有八小时时限,且样本存在偏差——只有坚持并成功完成的人才被计入统计。而AI无时间限制,仅考察其成功率。我不清楚METR为何如此设计竞赛规则,但无论如何,时间跨度得分远比“约翰·亨利与蒸汽机赛跑”复杂得多。

西弗吉尼亚州塔尔科特市的约翰·亨利纪念碑。
由于作者任职于AI安全研究机构,我猜想他们最终想问的是:“当模型变得足够聪明,足以突破控制并接管世界时,会是哪一刻?”在Moltbook上,智能体每天都在策划世界征服,却始终无法专注到做出实际进展。那么,“统治世界”这项任务的时间跨度有多长?何时会出现能一次性成功的LLM?它们甚至不需要50%的成功率,一次就够了。
在附录E深处,有这样一段令人震惊的文字:
AGI将拥有“无限”时间跨度。无限时间跨度并不意味着任意强大的AI,而是指能够完成任何需要人类耗时极长之任务的能力。如果一个通用人工智能(AGI)能以至少X%的成功率完成所有专家级人类可解的任务,那么它的X%时间跨度必然是无限的。因此,一旦开发出此类系统,时间跨度的长期趋势将超越指数增长,其渐近线即为AGI部署之日。
我与MongoDB的一些同事一起研读这篇论文时,其中一人问道:如果AI的时间跨度持续增长,软件架构会如何演变?我认为,微服务、模块化设计和关注点分离,某种程度上是为了适应我们渺小的人类心智。但如果超级智能能一次性掌握整个系统,也许就不再需要分解;自然也不需要可维护性了。我们正在告别手工锻造的软件时代——精雕细琢、经久耐用、修改代价高昂——迈入注塑成型的塑料软件时代——成本低廉到可以一夜之间重做抛弃。

图片来源: