Gate 广场创作者新春激励正式开启,发帖解锁 $60,000 豪华奖池
如何参与:
报名活动表单:https://www.gate.com/questionnaire/7315
使用广场任意发帖小工具,搭配文字发布内容即可
丰厚奖励一览:
发帖即可可瓜分 $25,000 奖池
10 位幸运用户:获得 1 GT + Gate 鸭舌帽
Top 发帖奖励:发帖与互动越多,排名越高,赢取 Gate 新年周边、Gate 双肩包等好礼
新手专属福利:首帖即得 $50 奖励,继续发帖还能瓜分 $10,000 新手奖池
活动时间:2026 年 1 月 8 日 16:00 – 1 月 26 日 24:00(UTC+8)
详情:https://www.gate.com/announcements/article/49112
协变量的隐形力量:如何克服A/B测试中的选择偏差
这个没人愿意看到的问题
想象一下:一家大型电子商务公司推出了一个新的设计横幅,并测量了平均会话时长。第一次查看数据时,前景看好——每次会话增加了0.56分钟(大约33秒)。听起来很有希望,对吧?但这只是统计深度分析冒险的开始。
困境:我们能多大程度上确定横幅确实是改善的原因?如果老用户、技术娴熟的用户系统性地比新用户更频繁地看到新横幅怎么办?答案引导我们进入经验研究的经典问题——选择偏差。
T检验 vs. 线性回归:错误的对决
经典的T检验可以快速给出答案。控制组和处理组之间的差异正好是0.56分钟——就这样。但一个常见的错误是:许多分析师认为线性回归只适用于更复杂的场景。这是错误的。
如果我们用线性回归,以横幅状态(1=可见,0=不可见)作为自变量,会议时长作为输出,会发生什么?令人惊讶的是,我们得到的治疗系数也是0.56分钟。这并非巧合——在这些条件下,两者的检验在数学上是等价的,因为它们检验的是相同的零假设。
但R平方揭示了一个问题:只有0.008,我们解释的方差不到1%。模型忽略了许多实际影响用户停留时间的其他因素。
改变游戏规则的关键:加入协变量
这时,线性回归的真正优势展现出来。如果我们引入一个额外变量——比如实验前用户的平均会话时长——一切都发生了戏剧性的变化。
模型立即改善:R平方升至0.86,我们现在解释了86%的方差。更重要的是:治疗效果降至0.47分钟。为什么?之前的协变量揭示了一个“滚雪球效应”——那些已经有较长会话的用户表现出类似滚雪球的行为模式,小的初始差异会累积成巨大的效果。
这个发现至关重要:最初的0.56效果部分被选择偏差夸大了。自然会话时间较长的用户没有随机分配到各组——他们更集中在处理组。
数学真相:ATE、ATT 和 SB
用数学表达:
组间平均值的简单差异混淆了这些量:
简单估算 = ATE + SB
引入协变量后,我们可以减弱偏差,更接近真实效果。
通过模拟验证
在一个已知真实效果为(0.5分钟)的受控实验中,结果显示: