SWE-rebench排行榜,一个为软件工程语言模型(LLMs)设计的持续进化和去污染的基准测试。排行榜展示了不同模型在解决软件工程问题上的性能表现。
研究背景与目的
SWE-rebench旨在提供一个公平、动态更新的基准测试平台,用于评估和比较不同语言模型在软件工程任务中的表现。该平台通过定期更新问题集和模型列表,确保测试结果的时效性和准确性。
排行榜概览
排行榜列出了截至2026年1月2日的模型性能数据,包括以下几个关键指标:
- Resolved Rate (%):模型解决任务的成功率。
- Resolved Rate SEM (±):成功率的标准误差。
- Pass@5 (%):模型在前5个回答中至少有一个正确答案的比例。
- Cost per Problem ($):解决每个问题的平均成本。
- Tokens per Problem:每个问题平均使用的token数量。
- Cached Tokens (%):缓存token的使用比例。
模型表现
排行榜上的模型按照Resolved Rate从高到低排序。表现最好的模型是Claude Code,其Resolved Rate为52.9%,Pass@5为70.8%,Cost per Problem为$3.50。其他表现较好的模型包括Claude Opus 4.6、gpt-5.2-2025-12-11-xhigh等。
数据与方法
- 数据来源:排行榜的数据来源于43个仓库中选出的48个问题,这些问题在当前时间窗口内被用来评估模型。
- 时间窗口调整:用户可以调整时间窗口,修改问题的发布起始和结束日期,以观察不同时间段内模型的表现。
- 污染检测:排行榜中用红色标记的评估可能受到污染,即包含在模型发布日期之前创建的任务。橙色标记的评估则是外部系统的参考评估。
关键结论
- 模型性能差异:不同模型在解决软件工程问题上的表现存在显著差异,一些模型如Claude Code和Claude Opus 4.6表现突出,而其他模型如Qwen3-30B-A3B-Thinking-2507等则表现较差。
- 成本与效率:一些模型虽然成功率高,但成本也相对较高,如Claude Code。而一些模型虽然成本较低,但成功率也较低,如DeepSeek-R1-0528。
- 缓存token的使用:大多数模型都使用了缓存token,这有助于提高模型的效率和性能。