中文SWE-rebench排行榜
资源推荐
作者: SWE-rebench
发表时间:
SWE-rebench是面向软件工程LLM的持续更新去污染基准与排行榜,按Resolved Rate、Pass@5、单题成本与token等指标评估模型,数据取自43个仓库48题并可调时间窗,提供污染标记;截至2026-01-02 Claude Code以52.9%解决率、70.8% Pass@5居首且单题$3.50,结论是模型差异显著且成功率与成本效率存在权衡。
浏览作者 SWE-rebench 的公开文章、摘要与延伸阅读。肖恩子的知识花园
中文SWE-rebench是面向软件工程LLM的持续更新去污染基准与排行榜,按Resolved Rate、Pass@5、单题成本与token等指标评估模型,数据取自43个仓库48题并可调时间窗,提供污染标记;截至2026-01-02 Claude Code以52.9%解决率、70.8% Pass@5居首且单题$3.50,结论是模型差异显著且成功率与成本效率存在权衡。