分类:佳文共赏作者:A. Jesse Jiryu Davis排序:发表时间倒序

佳文共赏 全部文章

浏览 佳文共赏 分类下的公开文章、摘要与延伸阅读。肖恩子的知识花园

分类:佳文共赏作者:A. Jesse Jiryu Davis排序:发表时间倒序
综述:评估人工智能完成长周期软件任务的能力英文
1

综述:评估人工智能完成长周期软件任务的能力

佳文共赏
AI代理SWE-bench+3
作者: A. Jesse Jiryu Davis
发表时间

METR提出“时间跨度”指标衡量AI独立完成长软件任务的能力,基于170项任务测试发现,大模型可胜任任务对应的人类工作时长约每7个月翻倍,已从秒级提升到数小时至约12小时,按趋势未来数年或可处理相当于专家数周的任务;但真实软件工作更混乱,自动化基准与现实可用性存在明显差距,现有结论应谨慎外推。

每页显示 1
上一页 1 / 1 下一页