AI 仍然无法击败值班工程师:原因在这里

###简要概述

* ARFBench 是第一个完全由真实生产事件构建的 AI 基准测试。
* GPT-5 在准确率上领先所有现有 AI 模型,达62.7%,但仍不及领域专家的72.7%。
* 一个理论模型-专家预言机——结合 AI 和人类判断——达到87.2%的准确率,设定了合作 AI-人类团队可能达到的上限。

AI 公司不断推销自主站点可靠性工程师代理——由 AI 代替人类调查生产事件的 AI。Datadog 在真实故障上进行了实际基准测试,最好的 AI 模型尚不能超越它们试图取代的工程师。
该基准测试是 ARFBench(异常推理框架基准),由 Datadog 和卡内基梅隆大学联合开发。由63个真实生产事件构成,摘自工程师在紧急情况下的 Slack 线程——750个多项选择题,涵盖142个监控指标和538万数据点,每个问题都由人工验证。没有合成数据,没有教科书场景。
“每年因系统故障造成的损失达数万亿美元,”研究人员写道。“该基准测试旨在检验 AI 是否真的能帮助改变这一现状。”

“尽管在事件响应中以问题驱动的分析占据核心地位,但目前尚不清楚现代基础模型是否能可靠地回答工程师在实践中提出的时间序列问题,”论文中写道。

问题分为三个层级。第一层:这个图表中是否存在异常?第二层:何时开始,严重程度如何,属于哪一类型?
第三层——最难——需要跨指标推理:这个图表是否引发了另一个图表中的问题?这也是 AI 崩溃的地方。GPT-5 在第三层问题上的F1得分仅为47.5%,这是一个惩罚模型通过选择最常见类别来“游戏”答案的指标。

“尽管在事件响应中以问题驱动的分析占据核心地位,但目前尚不清楚现代基础模型是否能可靠地回答工程师在实践中提出的时间序列问题,”研究人员写道。
每个模型的表现如何
GPT-5 在准确率上领先所有现有模型,达62.7%——在随机猜测为24.5%的测试中。Gemini 3 Pro 得分58.1%。Claude Opus 4.6:54.8%。Claude Sonnet 4.5:47.2%。
领域专家的准确率为72.7%。非领域专家——Datadog的时间序列研究员,没有丰富的可观察性经验——仍达到了69.7%。
没有任何 AI 模型超越任何人类基线。


由 Decrypt 根据 ARFBench 排行榜 CSV 构建的图片

实际上登顶整个排行榜的模型是 Datadog 自家的混合模型:Toto——他们内部的时间序列预测模型——结合 Qwen3-VL 32B。Toto-1.0-QA-Experimental 的准确率为63.9%,略超 GPT-5,同时参数只有其一部分。在异常识别方面,它在 F1 上比其他所有模型至少高出8.8个百分点。
一个专为此任务训练的领域模型,基于可观察性数据,优于在此特定任务中的前沿通用系统,这是预期之中的结果。这也是重点。
最有价值的发现不是哪个模型得分最高。
“我们观察到领先模型与人类专家之间的误差特征明显不同,表明它们的优势是互补的,”研究人员写道。模型会出现幻觉,遗漏元数据,失去领域上下文。人类则误读精确时间戳,有时在复杂指令上失败。错误几乎不重叠。

构建一个理论上的“模型-专家预言机”——一个总是能在 AI 和人类之间选择正确答案的完美裁判——你会得到87.2%的准确率和82.8%的F1。这远远高于任何单独的模型。
这不是一个产品,而是一个有据可查的目标——由真实紧急情况构建,而非策划数据集——准确量化了人类与 AI 协作能达到的潜力。排行榜在 Hugging Face 上实时更新。GPT-5 的得分为62.7%。上限为87.2%。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论