SWE-rebench 作者

浏览作者 SWE-rebench 的公开文章、摘要与延伸阅读。肖恩子的知识花园

作者:SWE-rebench排序:发表时间倒序
SWE-rebench排行榜中文

SWE-rebench排行榜

资源推荐
作者: SWE-rebench
发表时间

SWE-rebench是面向软件工程LLM的持续更新去污染基准与排行榜,按Resolved Rate、Pass@5、单题成本与token等指标评估模型,数据取自43个仓库48题并可调时间窗,提供污染标记;截至2026-01-02 Claude Code以52.9%解决率、70.8% Pass@5居首且单题$3.50,结论是模型差异显著且成功率与成本效率存在权衡。

每页显示 1
上一页 1 / 1 下一页