SWE-rebench排行榜

SWE-rebench排行榜，一个为软件工程语言模型（LLMs）设计的持续进化和去污染的基准测试。排行榜展示了不同模型在解决软件工程问题上的性能表现。

研究背景与目的

SWE-rebench旨在提供一个公平、动态更新的基准测试平台，用于评估和比较不同语言模型在软件工程任务中的表现。该平台通过定期更新问题集和模型列表，确保测试结果的时效性和准确性。

排行榜概览

排行榜列出了截至2026年1月2日的模型性能数据，包括以下几个关键指标：

Resolved Rate (%)：模型解决任务的成功率。
Resolved Rate SEM (±)：成功率的标准误差。
Pass@5 (%)：模型在前5个回答中至少有一个正确答案的比例。
Cost per Problem ($)：解决每个问题的平均成本。
Tokens per Problem：每个问题平均使用的token数量。
Cached Tokens (%)：缓存token的使用比例。

模型表现

排行榜上的模型按照Resolved Rate从高到低排序。表现最好的模型是Claude Code，其Resolved Rate为52.9%，Pass@5为70.8%，Cost per Problem为$3.50。其他表现较好的模型包括Claude Opus 4.6、gpt-5.2-2025-12-11-xhigh等。

数据与方法

数据来源：排行榜的数据来源于43个仓库中选出的48个问题，这些问题在当前时间窗口内被用来评估模型。
时间窗口调整：用户可以调整时间窗口，修改问题的发布起始和结束日期，以观察不同时间段内模型的表现。
污染检测：排行榜中用红色标记的评估可能受到污染，即包含在模型发布日期之前创建的任务。橙色标记的评估则是外部系统的参考评估。

关键结论

模型性能差异：不同模型在解决软件工程问题上的表现存在显著差异，一些模型如Claude Code和Claude Opus 4.6表现突出，而其他模型如Qwen3-30B-A3B-Thinking-2507等则表现较差。
成本与效率：一些模型虽然成功率高，但成本也相对较高，如Claude Code。而一些模型虽然成本较低，但成功率也较低，如DeepSeek-R1-0528。
缓存token的使用：大多数模型都使用了缓存token，这有助于提高模型的效率和性能。