2026-04-10 01:21:31

🔥研究员：主流AI基准测试存在系统性漏洞，排行榜数据或严重失真

4月10日，AI研究员Hao Wang发布研究披露，包括SWE-bench Verified和Terminal-Bench在内的多个业内权威AI基准测试，均存在可被系统性利用的漏洞——其团队构建的Agent在未解决任何实际任务的情况下，在两项基准上均取得了满分100%。
典型案例如下：SWE-bench Verified中，在代码仓库植入10行的pytest hook，测试运行前自动将所有结果篡改为“通过”，评分系统对此毫无察觉，500道题全部满分；Terminal-Bench虽对测试…

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

1人点赞了这条动态

赞赏
1
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate上线Pre-IPOs
19.62万热度
#
加密市场回升
4.86万热度
#
原油小幅上涨
116.98万热度
#
美伊停火协议谈判再生变故
56.12万热度
#
大摩比特币现货ETF上市
44.37万热度

热门 Gate Fun
查看更多

1
DGR
打工人
市值:$2265.02持有人数:2
0.00%
2
CTCUM
Cryptocium
市值:$2244.82持有人数:1
0.00%
3
MRT
Memorial Token
市值:$2353.13持有人数:4
0.59%
4
T.T
无限充值的忏悔
市值:$2255.17持有人数:1
0.00%
5
人民币
人民币
市值:$2891.3持有人数:2
4.35%

🔥研究员：主流AI基准测试存在系统性漏洞，排行榜数据或严重失真

热门话题

Gate上线Pre-IPOs

加密市场回升

原油小幅上涨

美伊停火协议谈判再生变故

大摩比特币现货ETF上市

热门 Gate Fun

DGR

打工人

CTCUM

Cryptocium

MRT

Memorial Token

T.T

无限充值的忏悔

人民币

人民币

置顶