
OpenAI 联手 Paradigm 推出 EVMbench,实测 AI 代理在 EVM 合约攻防能力,揭示攻强守弱隐忧。
聚焦经济环境实测,OpenAI 联手 Paradigm 强化链上安全评级
人工智能龙头 OpenAI 宣布与知名加密货币风险投资公司 Paradigm 以及安全公司 OtterSec 合作,推出专为评估 AI 代理(AI Agents)在以太坊虚拟机(EVM)智能合约安全性表现的基准测试工具 EVMbench。
随着 AI 与加密技术的深度汇流,智能合约已成为管理超过 1,000 亿开源加密资产的核心基础设施。这项工具的问世,象征着产业界开始正视 AI 在“具备经济意义环境”中的实战能力。
OpenAI 团队指出,随着 AI 代理在代码撰写与规划能力上的飞跃,未来这些模型将在区块链的攻击与防御两端扮演转型角色,因此建立一套标准化的评测架构对于监测 AI 进展至关重要。
三大模式深度测试,120 个真实审计漏洞成为 AI 试金石
EVMbench 的核心设计围绕着 120 个从 40 项专业审计报告中提取的高风险漏洞,数据来源包含 Code4rena 等知名的公开审计竞赛,确保测试场景贴近真实世界的复杂性。该基准测试将 AI 代理置于三种不同的工作模式中进行评估:

图源:OpenAI EVMbench 的核心设计是将 AI 代理置于三种不同的工作模式中进行评估
- 第一是“检测模式(Detect)”,要求 AI 审计合约代码库并识别已知的漏洞,根据其找出的問題严重程度给予评分;
- 第二是“修补模式(Patch)”,挑战 AI 在维持原有功能不变的前提下,移除可利用的漏洞并修复代码;
- 最后则是极具争议的“利用模式(Exploit)”,AI 必须在沙盒化的区块链环境中执行端对端的资金盗取攻击。
为了确保测试的严谨性与可重复性,团队开发了基于 Rust 语言的测试架构,通过确定性的交易回放技术来验证 AI 的攻击或修补是否成功。
攻强守弱趋势显著,GPT-5.3-Codex 展现惊人攻击成长率
在首波释出的测试结果中,AI 在不同任务间展现出明显的能力落差。最新一代的 GPT-5.3-Codex 在利用模式(Exploit Mode)中表现优异,得分高达 72.2%,相较于仅仅六个月前发布的 GPT-5 模型(得分 31.9%),展现出极为惊人的能力成长。

图源:OpenAI 各种 AI 模型在三种模式下的分数概况
这显示出当目标明确为“排空资金”时,AI 具备强大的迭代规划与执行能力。然而,在防御端的表现则相对疲软,AI 在检测模式下经常在发现单一错误后便停止搜索,且在修补复杂逻辑时,往往难以在不影响合约正常运行的情况下完美修复漏洞。安全专家对此表达关注,认为 AI 可能会大幅压缩从发现漏洞到开发出攻击手段的时间,这对去中心化金融(DeFi)项目的防御速度提出了更高要求。
人才引进与防御补助,OpenAI 布局 AI 代理生态系统安全性
除了工具的开发,OpenAI 在人才布局与生态防御上也动作频频,近期聘请了开源 AI 代理项目 OpenClaw 的创始人 Peter Steinberger,主导下一代个性化代理的开发,并将该项目转化为 OpenAI 支持的基金会模式。
为了应对 AI 可能带来的网络安全风险,OpenAI 承诺将通过其网络安全补助计划,拨款 1000 万的 API 额度,用于支持开源防御工具与关键基础设施的研究。这项行动在近期发生的 Moonwell 协议事件后显得尤为及时,该事件中因 AI 共著代码中的价格计算错误导致约 178 万的损失。
延伸阅读
拒绝 Meta 数十亿邀约,OpenClaw 创作者加入 OpenAI 引发人才争夺战都是 Vibe Coding 的错?Moonwell 预言机出包,178 万坏账谁来买单
未来,随着更多 AI 辅助的稳定币支付代理与自动化钱包加入生态,如何利用 EVMbench 这类工具区分仅能描述漏洞的模型与能可靠提供防御方案的模型,将成为区块链安全产业的关键转折点。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
Ostium 为机构对冲推出去中心化执行层
Gate News 消息,4 月 28 日——Ostium Labs 于周二推出其首个去中心化执行层,这是一项架构升级:它将交易者的净方向性资金流引导至一个由机构对冲合作伙伴构成的网络,其中包括在传统市场活跃的 Jump 以及主经纪商。
在新的模式下,一个独立的资本池会以程序化方式将净敞口在链下路由至机构合作伙伴,并每日结算一次;同时,缓冲层现作为日内借贷层运行,而不是对手方。该基础设施在所有步骤中都具备低于 100 毫秒的延迟。用户保留资金托管权,而链上结算仍将保持即时。Ostium 允许的未平仓头寸现已可在大多数主要资产上实现动态扩展,展期费用也会反映标的资产的持有成本。
Ostium 目标瞄准集中式 CFD 经纪商市场,该市场每月交易量约为 trillion。Ostium 在 3 月的月度交易量创下历史新高,达到 61.1 亿美元;自 2024 年上线以来,平台累计处理的交易量超过 billion。
GateNews47 分钟前
Amboss 推出 RailsX:用于自我托管比特币与稳定币交易的 Lightning 原生 P2P 平台
Gate News 消息,4 月 28 日——Amboss Technologies 推出 RailsX,这是一款原生构建于 Lightning Network 的点对点(P2P)比特币与稳定币交易平台。该平台使用户能够在保留完全自我托管的同时,将比特币与稳定币进行交易,且不设集中式订单簿,也不设“
GateNews2小时前
Over Foundation 因财务限制停止所有 Over Protocol 基础设施运营
Gate 新闻消息,4 月 28 日——Over Foundation 宣布,由于财务限制,它已停止 Over Protocol 的所有基础设施与服务运营,包括 OverWallet、OverNode、OverFlex、RPC 节点、区块浏览器以及相关 API。基金会表示,目前没有计划
GateNews3小时前
TON Tech 推出用于自主链上交易的由 AI 驱动智能体
Gate 新闻消息,4 月 28 日——TON Tech(Telegram 首选区块链 TON 的开发团队)已推出由 AI 驱动的智能体,这些智能体能够自主执行关键链上交易。用户可以为该智能体提供一个专用钱包并充值资金,然后该智能体即可进行转账、兑换、DeFi 等活动,包括在设定预算内进行自动化交易、质押以及基础的投资组合管理。
此次发布是在一家大型加密货币交易所推出“智能体化交易”之后进行的:届时,像 Claude 和 ChatGPT 这样的 AI 模型可以与交易账户连接,用于自主监测市场并执行交易。该开发反映出更广泛的趋势:所谓“智能体化 AI(agentic AI)”正在加密领域以及其之外逐渐获得关注。在这一过程中,用户越来越多地赋能 AI 机器人,让其能够访问数字服务并执行交易。TON Tech 负责人 Andrew Grekov 表示:“智能体化钱包(Agentic Wallets)让 AI 智能体从助手变为行动者。Telegram 上的智能体不仅可以沟通,还可以代表用户进行交易——完成付款并与链上服务交互,而用户无需以任何方式接触他们的密钥。”
自 2024 年下半年以来,TON 区块链上的活动已出现显著下降。此前活跃地址曾在短时间内超过 100 万用户;当前的活跃用户数量已降至 10 万以下。与此同时,本月早些时候,Telegram 创始人兼 CEO Pavel Durov 宣布,TON 已完成升级,以实现亚秒级的交易最终确认。
GateNews3小时前
BlockCoop SACCO 推出肯尼亚首个基于区块链的合作金融平台,并使用 BLOCKS 代币
Gate News 消息,4 月 28 日——BlockCoop SACCO 已推出肯尼亚首个基于区块链的 SACCO (储蓄和信贷合作社),推出一种以技术驱动为特点的模式,旨在实现传统合作金融的现代化。该倡议利用区块链基础设施来改善流动性,在
GateNews4小时前
Chainlink CCIP 每周交易量突破 13 亿美元,一周内增长 260%
Gate 新闻消息,4 月 28 日——截至 4 月 28 日,Chainlink CCIP 录得每周交易量 13 亿美元,较上周增长 260%。跨链通信协议正日益成为区块链基础设施的核心,使得可在多个网络之间进行安全的资产转移
GateNews4小时前