通过评估 AI 代理在区块链环境中检测、修复和利用漏洞的能力,使智能合约更加安全。
智能合约通常保护着超过 1000 亿美元的开源加密资产。随着 AI 代理在读取、编写和执行代码方面的能力不断提高,在经济环境中衡量其能力变得越来越重要,并鼓励在防御性使用 AI 系统来审计和加强已部署的合约。
我们与 Paradigm 合作,推出了 EVMbench,这是一个评估 AI 代理检测、修复和利用高风险智能合约漏洞的能力的基准。EVMbench 基于 40 次审计中精选的 120 个漏洞,其中大部分来自开源代码审计竞赛。EVMbench 还包括从 Tempo 区块链的安全审计过程中得出的几个漏洞场景,Tempo 是一种专门设计的 L1,旨在通过稳定币实现高吞吐量、低成本的支付。这些场景将基准扩展到面向支付的智能合约代码,我们期望在这些领域中代理稳定币支付会增长,并有助于将其建立在新兴的实际重要性领域中。
为了创建我们的任务环境,我们在现有的概念验证利用测试和部署脚本存在时对其进行了调整,否则我们会手动编写它们。对于补丁模式,我们确保漏洞可被利用,并且可以在不引入编译中断的情况下得到缓解,这可能会损害我们的设置。对于利用模式,我们编写了自定义评分器,并对环境进行了红队演练,试图找到并修复代理可能作弊的方法。除了 Paradigm 提供的领域专业知识对任务质量的控制外,我们还使用了自动任务审计代理来帮助提高环境的安全性。
EVMbench 评估三种能力模式:
为了支持客观和可复制的评估,我们开发了一个基于 Rust 的框架,部署合约,确定性地重放代理交易,并限制不安全的 RPC 方法。利用任务在隔离的本地 Anvil 环境中运行,而不是在实时网络上,漏洞是历史性的和公开记录的。
我们在所有三种模式中评估前沿代理。在 “利用” 模式中,通过 Codex CLI 运行的 GPT-5.3-Codex 取得了 72.2% 的分数。这比之前的模型(如 GPT-5)有了显著提高,后者在六个月前发布时得分为 31.9%。检测召回率和补丁成功率仍然低于全面覆盖,因为大部分漏洞仍然难以被代理发现和修复。
EVMbench 还揭示了模型在不同任务中的有趣差异。代理在利用环境中表现最佳,在这种情况下,目标是明确的:继续迭代直到资金被耗尽。相比之下,在检测和修复任务中,性能较弱。在 “检测” 中,代理有时在识别单个问题后停止,而不是详尽地审计代码库。在 “修复” 中,在删除微妙漏洞的同时保持完整的功能仍然具有挑战性。
EVMbench 并不代表现实世界中智能合约安全的全部困难。所包含的漏洞来自 Code4rena 审计竞赛。虽然这些漏洞是现实的和高风险的,但许多已部署和广泛使用的加密合约会受到更严格的审查,可能更难被利用。
我们的评分系统是稳健但不完美的。在 “检测” 模式中,我们检查代理是否发现了与人类审计人员相同的漏洞。如果代理识别出其他问题,我们目前没有可靠的方法来确定这些问题是人类忽略的真正漏洞还是误报。
在 “利用” 设置中也存在结构上的限制。交易在评分容器中按顺序重放,因此依赖于精确时序机制的行为超出了我们的范围。链状态是一个干净的本地 Anvil 实例,而不是主网的分叉,目前我们只支持单链环境。在某些情况下,这需要模拟合约而不是主网部署。
智能合约保护着数十亿美元的资产,AI 代理可能会对攻击者和防御者都产生变革性的影响。在这个领域衡量模型能力有助于跟踪新兴的网络风险,并强调在防御性使用 AI 系统来审计和加强已部署合约的重要性。
EVMbench 既是一种衡量工具,也是一种行动呼吁。随着代理的改进,开发人员和安全研究人员将 AI 辅助审计纳入其工作流程变得越来越重要。
在最近的几个月中,我们在网络安全任务上看到了模型性能的显著提高,这对开发人员和安全专业人员都有益。与此同时,我们一直在准备加强网络安全防护措施,以支持防御性使用和更广泛的生态系统弹性。
由于网络安全本质上是双刃剑,我们正在采取基于证据的迭代方法,加速防御者发现和修复漏洞的能力,同时减缓滥用。我们采取的缓解措施包括安全训练、自动监控、受信任的访问 获取高级功能,以及包括威胁情报在内的强制管道。
我们正在投资于生态系统防护措施,例如扩大我们的安全研究代理 Aardvark 的私有测试版,并与开源维护者合作,为广泛使用的项目提供免费的代码库扫描。
在 2023 年启动的网络安全资助计划的基础上,我们还承诺提供 1000 万美元的 API 积分,以加速使用我们最强大的模型进行网络防御,特别是在开源软件和关键基础设施系统方面。从事良好意愿的安全研究的组织可以通过我们的 网络安全资助计划 申请 API 积分和支持。
我们发布 EVMbench 的任务、工具和评估框架,以支持继续研究衡量和管理新兴 AI 网络能力。