✍️ Gate 广场「创作者认证激励计划」进行中!
我们欢迎优质创作者积极创作,申请认证
赢取豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000+ 丰厚奖励!
立即报名 👉 https://www.gate.com/questionnaire/7159
📕 认证申请步骤:
1️⃣ App 首页底部进入【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】进入认证页面,等待审核
让优质内容被更多人看到,一起共建创作者社区!
活动详情:https://www.gate.com/announcements/article/47889
🔥研究员:主流AI基准测试存在系统性漏洞,排行榜数据或严重失真
4月10日,AI研究员Hao Wang发布研究披露,包括SWE-bench Verified和Terminal-Bench在内的多个业内权威AI基准测试,均存在可被系统性利用的漏洞——其团队构建的Agent在未解决任何实际任务的情况下,在两项基准上均取得了满分100%。
典型案例如下:SWE-bench Verified中,在代码仓库植入10行的pytest hook,测试运行前自动将所有结果篡改为“通过”,评分系统对此毫无察觉,500道题全部满分;Terminal-Bench虽对测试…