英文4
综述:评估人工智能完成长周期软件任务的能力
佳文共赏
AI代理SWE-bench+3
作者: A. Jesse Jiryu Davis
发表时间:
METR提出“时间跨度”指标衡量AI独立完成长软件任务的能力,基于170项任务测试发现,大模型可胜任任务对应的人类工作时长约每7个月翻倍,已从秒级提升到数小时至约12小时,按趋势未来数年或可处理相当于专家数周的任务;但真实软件工作更混乱,自动化基准与现实可用性存在明显差距,现有结论应谨慎外推。
浏览作者 A. Jesse Jiryu Davis 的公开文章、摘要与延伸阅读。肖恩子的知识花园
英文METR提出“时间跨度”指标衡量AI独立完成长软件任务的能力,基于170项任务测试发现,大模型可胜任任务对应的人类工作时长约每7个月翻倍,已从秒级提升到数小时至约12小时,按趋势未来数年或可处理相当于专家数周的任务;但真实软件工作更混乱,自动化基准与现实可用性存在明显差距,现有结论应谨慎外推。