协变量的隐形力量:如何克服A/B测试中的选择偏差

这个没人愿意看到的问题

想象一下:一家大型电子商务公司推出了一个新的设计横幅,并测量了平均会话时长。第一次查看数据时,前景看好——每次会话增加了0.56分钟(大约33秒)。听起来很有希望,对吧?但这只是统计深度分析冒险的开始。

困境:我们能多大程度上确定横幅确实是改善的原因?如果老用户、技术娴熟的用户系统性地比新用户更频繁地看到新横幅怎么办?答案引导我们进入经验研究的经典问题——选择偏差

T检验 vs. 线性回归:错误的对决

经典的T检验可以快速给出答案。控制组和处理组之间的差异正好是0.56分钟——就这样。但一个常见的错误是:许多分析师认为线性回归只适用于更复杂的场景。这是错误的。

如果我们用线性回归,以横幅状态(1=可见,0=不可见)作为自变量,会议时长作为输出,会发生什么?令人惊讶的是,我们得到的治疗系数也是0.56分钟。这并非巧合——在这些条件下,两者的检验在数学上是等价的,因为它们检验的是相同的零假设。

但R平方揭示了一个问题:只有0.008,我们解释的方差不到1%。模型忽略了许多实际影响用户停留时间的其他因素。

改变游戏规则的关键:加入协变量

这时,线性回归的真正优势展现出来。如果我们引入一个额外变量——比如实验前用户的平均会话时长——一切都发生了戏剧性的变化。

模型立即改善:R平方升至0.86,我们现在解释了86%的方差。更重要的是:治疗效果降至0.47分钟。为什么?之前的协变量揭示了一个“滚雪球效应”——那些已经有较长会话的用户表现出类似滚雪球的行为模式,小的初始差异会累积成巨大的效果。

这个发现至关重要:最初的0.56效果部分被选择偏差夸大了。自然会话时间较长的用户没有随机分配到各组——他们更集中在处理组。

数学真相:ATE、ATT 和 SB

用数学表达:

  • ATE (平均处理效果):我们希望估算的平均治疗效果
  • ATT (处理组平均效果):对实际接受治疗用户的效果——也称为ACE (平均因果效应)
  • SB (选择偏差):扭曲真实效果的选择偏差

组间平均值的简单差异混淆了这些量:

简单估算 = ATE + SB

引入协变量后,我们可以减弱偏差,更接近真实效果。

通过模拟验证

在一个已知真实效果为(0.5分钟)的受控实验中,结果显示:

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)