广场
最新
热门
资讯
我的主页
发布
MilesDeutscher
2026-06-23 02:24:30
关注
GLM-5.2 是基准之王。
它是第一个在多个类别中夺冠的开源模型(并且在各方面都超越了前沿模型)。
#1 胜利:
→ 设计竞技场:约1360 Elo,首个夺冠的开源模型,胜过 Fable 5 约10 Elo
→ Terminal-Bench 2.1:81.0%(最佳表现82.7%),首个突破80%的开源模型
→ 人工分析智能指数 v4.1:顶级开源模型,得分51
→ GDPval-AA v2:领先的开源模型,与 GPT-5.5 竞争或超越
→ LiveBench 代理编码:整体排名第1–2
前列排名:
→ FrontierSWE(统治力):第3名,74.4%(接近 Opus 4.8 的75.1%,超越 GPT-5.5)
→ SWE-bench Pro:开源模型中第1,62.1%(超越 GPT-5.5 的58.6%)
→ MCP-Atlas(工具使用):约77.0,接近/位于前3
→ Humanity's Last Exam(带工具):约54.7,超越 GPT-5.5
→ BenchLM 排行榜:124个模型中的第3–4名
→ Code/Agent Arena(前端):#2 overall, behind only Fable →PostTrainBench: #整体第2,落后于 Opus 4.8,超越 GPT-5.5
令人震惊的履历。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
0成本拿2股SK海力士
23.2万 热度
#
Gate完成141只股票股息派发
395.14万 热度
#
预测世界杯法国VS瑞典
52.48万 热度
#
Solana生态ANSEM暴涨
2202.96万 热度
#
Strategy拟回购股票涨超12%
874.07万 热度
置顶
网站地图
GLM-5.2 是基准之王。
它是第一个在多个类别中夺冠的开源模型(并且在各方面都超越了前沿模型)。
#1 胜利:
→ 设计竞技场:约1360 Elo,首个夺冠的开源模型,胜过 Fable 5 约10 Elo
→ Terminal-Bench 2.1:81.0%(最佳表现82.7%),首个突破80%的开源模型
→ 人工分析智能指数 v4.1:顶级开源模型,得分51
→ GDPval-AA v2:领先的开源模型,与 GPT-5.5 竞争或超越
→ LiveBench 代理编码:整体排名第1–2
前列排名:
→ FrontierSWE(统治力):第3名,74.4%(接近 Opus 4.8 的75.1%,超越 GPT-5.5)
→ SWE-bench Pro:开源模型中第1,62.1%(超越 GPT-5.5 的58.6%)
→ MCP-Atlas(工具使用):约77.0,接近/位于前3
→ Humanity's Last Exam(带工具):约54.7,超越 GPT-5.5
→ BenchLM 排行榜:124个模型中的第3–4名
→ Code/Agent Arena(前端):#2 overall, behind only Fable →PostTrainBench: #整体第2,落后于 Opus 4.8,超越 GPT-5.5
令人震惊的履历。