METR提出“时间跨度”指标衡量AI独立完成长软件任务的能力，基于170项任务测试发现，大模型可胜任任务对应的人类工作时长约每7个月翻倍，已从秒级提升到数小时至约12小时，按趋势未来数年或可处理相当于专家数周的任务；但真实软件工作更混乱，自动化基准与现实可用性存在明显差距，现有结论应谨慎外推。

Review: Measuring AI Ability to Complete Long Software Tasks

综述：评估人工智能完成长周期软件任务的能力

高质量文章分享，包括深度思考、方法论、认知提升、人生哲学或优质写作内容，不限技术领域，强调内容价值与启发性。

佳文共赏

与编程开发、系统架构、算法、AI 工程、运维实践等相关的技术文章，包含实操经验、教程、问题解决方案。

技术博客

以介绍、推荐、整理或分析单个或多个开源项目为核心主体的内容。

开源项目

可直接使用、收藏或参考的工具、网站、模板、插件、资料库等实用资源为主的内容。

资源推荐

用于系统学习或深入理解某个主题的教程、课程、文档、手册、学习路线等内容。

学习资料

AI编程

智能体

代码审查

多智能体

AI代理

编码代理

MCP服务

上下文管理

人机协作

多代理

Claude

代码代理

代码评审

大模型

工具调用

生成式AI

Agent架构

Claude插件

Cloudflare

Codex

Docker部署

MCP集成

上下文工程

代码质量

子代理

工具编排

技术债务

数据中心

智能体框架

智能体编排

知识图谱

知识库

编程代理

记忆系统

AI写作

AI创业

AI编码

AI裁员

CI/CD

ClaudeCode

Codex插件

Cursor

Electron

Git工作树

Harness工程

LangGraph

MCP协议

MCP工具

Obsidian

TypeScript

上下文

代码审计

代码理解

代码行数

代码重构

会话日志

供应链攻

可观测性

团队协作

工作流

工具设计

技术批判

技能复用

持久执行

推理成本

智能体搜索

智能体评测

本地优先

氛围编程

沙箱执行

深度研究

混合搜索

状态管理

理解债务

生产力指标

编码智能体

翻译API

英伟达

认知投降

认知负荷

设计系统

语音识别

软件交付

软件工程

软件维护

长期记忆

2D资产

AAAK压缩

AEO优化

AGENTS.md

AGPLv3

AI 算力瓶颈

AI世界

AI代理架构

AI优先

AI伦理

AI依赖效应

AI倦怠

AI像素

AI助教

A. Jesse Jiryu Davis 作者

综述：评估人工智能完成长周期软件任务的能力