SWE-rebench排行榜

分类资源推荐
作者SWE-rebench
来源跳转
发表时间

内容

SWE-rebench排行榜,一个为软件工程语言模型(LLMs)设计的持续进化和去污染的基准测试。排行榜展示了不同模型在解决软件工程问题上的性能表现。

研究背景与目的

SWE-rebench旨在提供一个公平、动态更新的基准测试平台,用于评估和比较不同语言模型在软件工程任务中的表现。该平台通过定期更新问题集和模型列表,确保测试结果的时效性和准确性。

排行榜概览

排行榜列出了截至2026年1月2日的模型性能数据,包括以下几个关键指标:

  • Resolved Rate (%):模型解决任务的成功率。
  • Resolved Rate SEM (±):成功率的标准误差。
  • Pass@5 (%):模型在前5个回答中至少有一个正确答案的比例。
  • Cost per Problem ($):解决每个问题的平均成本。
  • Tokens per Problem:每个问题平均使用的token数量。
  • Cached Tokens (%):缓存token的使用比例。

模型表现

排行榜上的模型按照Resolved Rate从高到低排序。表现最好的模型是Claude Code,其Resolved Rate为52.9%,Pass@5为70.8%,Cost per Problem为$3.50。其他表现较好的模型包括Claude Opus 4.6、gpt-5.2-2025-12-11-xhigh等。

数据与方法

  • 数据来源:排行榜的数据来源于43个仓库中选出的48个问题,这些问题在当前时间窗口内被用来评估模型。
  • 时间窗口调整:用户可以调整时间窗口,修改问题的发布起始和结束日期,以观察不同时间段内模型的表现。
  • 污染检测:排行榜中用红色标记的评估可能受到污染,即包含在模型发布日期之前创建的任务。橙色标记的评估则是外部系统的参考评估。

关键结论

  • 模型性能差异:不同模型在解决软件工程问题上的表现存在显著差异,一些模型如Claude Code和Claude Opus 4.6表现突出,而其他模型如Qwen3-30B-A3B-Thinking-2507等则表现较差。
  • 成本与效率:一些模型虽然成功率高,但成本也相对较高,如Claude Code。而一些模型虽然成本较低,但成功率也较低,如DeepSeek-R1-0528。
  • 缓存token的使用:大多数模型都使用了缓存token,这有助于提高模型的效率和性能。

评论

(0)
未配置登录方式
暂无评论