综述：评估人工智能完成长周期软件任务的能力

测量AI完成长期软件任务的能力，由数十位来自模型评估与安全研究组织（METR）的作者共同撰写。他们提出了“时间跨度”（time horizon）这一指标，并指出大型语言模型（LLM）的时间跨度正以每七个月翻一倍的速度增长，且近期可能已加速。

（另见穆拉特的总结。）

摘要

AI代理的“时间跨度”是指：在给定成功率下，人类专家完成任务所需的时间长度。例如，一位人类专家完成一项特定优化任务——为Python程序添加GPU加速——大约需要8小时。去年最强模型的平均成功率约为50%，因此其50%成功率的“时间跨度”即为8小时。（此处简化处理。实际上，人类任务耗时和LLM的成功概率均为统计估计值，详见原文。）

METR团队对170项任务进行了计时测试，任务时长从几秒到八小时不等。参与者为熟练工人，他们因速度或成功率获得额外奖励。若放弃、提交错误答案或在八小时后超时，则视为失败。METR将成功完成任务的耗时取几何平均值作为该任务的标准时长。

随后，他们将相同任务交由2019至2025年间发布的十二款LLM执行。这些模型无时间限制，令牌配额也较为宽裕，仅当输出错误答案时才判定为失败。

核心发现是：50%成功率的“时间跨度”大致每七个月翻一番。GPT-2的时间跨度仅为两秒；Claude 3.7 Sonnet达到50分钟；而o3接近两小时。在最新测试中，Opus 4.6的50%时间跨度已达约12小时。按此趋势推算，到2027至2031年间，前沿AI将在无人监督的情况下，以50%的概率完成那些原本需人类专家耗时一个月才能完成的任务。

附录占据了论文的大部分篇幅，也是最具价值的部分。请务必阅读！附录H定义了任务的“混乱度”（messiness），包含16个影响AI表现的因素：如不可逆的错误、每次尝试消耗有限资源、无法判断结果是否由自身行为引起、难以明确衡量成功与否等。混乱度对AI的阻碍大于人类。但有趣的是，AI在混乱任务与整洁任务上的改进速率相当。

作者坦承，此类基准存在诸多质疑理由。这些任务未必代表真实世界的软件开发工作；人类基线数据来自不熟悉特定代码库的专家。例如在GPU加速任务中，熟悉代码库的人可能更快，而不了解GPU加速原理的人则会更慢。

我的思考

如果你给一个LLM分配一项原本需要人类耗时一个月的任务，最关键的问题是：你是否有可靠的测试预言机（test oracle）？如果有，那么不出五年，很可能就会出现能在50%情况下成功完成的LLM。我们或许不需要更大的模型，只需改进提示工程与系统架构。但现实中的软件开发充满混乱：正确性模糊不清，没有裁判来评判你的成果，有时你的错误会带来严重后果。整洁的基准测试与现实世界之间的鸿沟依然巨大，作者对此心知肚明。

METR自己也发布过一份警示性后续报告，指出约一半SWE-bench中通过自动化测试的拉取请求（PR），会被人类仓库维护者拒绝——原因包括违反编码规范、破坏无关代码，或未能真正修复问题。这并不意味着模型能力不足；它们可能需要与维护者反复沟通调整，就像人类贡献者一样。（有多少次你的PR是一次性通过的？）但这确实说明：“SWE-bench上60%的得分”并不等于“在实际工作中可接受的60%成功率”。自动化测试永远无法覆盖一切，而人类共享着许多不成文的好代码准则，目前尚无法被基准测试捕捉。

METR对人类与AI的测试方式存在差异。人类有八小时时限，且样本存在偏差——只有坚持并成功完成的人才被计入统计。而AI无时间限制，仅考察其成功率。我不清楚METR为何如此设计竞赛规则，但无论如何，时间跨度得分远比“约翰·亨利与蒸汽机赛跑”复杂得多。

西弗吉尼亚州塔尔科特市的约翰·亨利纪念碑。

由于作者任职于AI安全研究机构，我猜想他们最终想问的是：“当模型变得足够聪明，足以突破控制并接管世界时，会是哪一刻？”在Moltbook上，智能体每天都在策划世界征服，却始终无法专注到做出实际进展。那么，“统治世界”这项任务的时间跨度有多长？何时会出现能一次性成功的LLM？它们甚至不需要50%的成功率，一次就够了。

在附录E深处，有这样一段令人震惊的文字：

AGI将拥有“无限”时间跨度。无限时间跨度并不意味着任意强大的AI，而是指能够完成任何需要人类耗时极长之任务的能力。如果一个通用人工智能（AGI）能以至少X%的成功率完成所有专家级人类可解的任务，那么它的X%时间跨度必然是无限的。因此，一旦开发出此类系统，时间跨度的长期趋势将超越指数增长，其渐近线即为AGI部署之日。

我与MongoDB的一些同事一起研读这篇论文时，其中一人问道：如果AI的时间跨度持续增长，软件架构会如何演变？我认为，微服务、模块化设计和关注点分离，某种程度上是为了适应我们渺小的人类心智。但如果超级智能能一次性掌握整个系统，也许就不再需要分解；自然也不需要可维护性了。我们正在告别手工锻造的软件时代——精雕细琢、经久耐用、修改代价高昂——迈入注塑成型的塑料软件时代——成本低廉到可以一夜之间重做抛弃。

图片来源：

综述：评估人工智能完成长周期软件任务的能力

内容

摘要

我的思考

评论

摘要