Уявіть собі: велика компанія електронної комерції запускає новий дизайн-банер і вимірює середню тривалість сесії. Перше враження від даних багатообіцяюче — зростання на 0,56 хвилин (близько 33 секунд за сесію). Звучить багатообіцяюче, чи не так? Але тут починається пригода з глибинним статистичним аналізом.
Дилема: наскільки ми можемо бути впевненими, що саме банер є справжньою причиною цього покращення? Що, якщо більш досвідчені користувачі старих технологій систематично бачать новий банер частіше, ніж новачки? Відповідь веде нас до класичної проблеми емпіричних досліджень — відбіркової упередженості.
T-тест проти лінійної регресії: неправильна дуель
Класичний T-тест швидко дає відповідь. Різниця між контрольною та експериментальною групою становить точно 0,56 хвилин — готово. Але поширена помилка: багато аналітиків вважають, що лінійна регресія потрібна лише для складніших сценаріїв. Це неправильно.
Що станеться, якщо замість цього застосувати лінійну регресію з статусом банеру (1 = видно, 0 = не видно) як незалежною змінною і тривалістю сесії як вихідною? На диво, ми отримаємо той самий коефіцієнт обробки: 0,56 хвилин. Це не випадковість — математично обидва тесту є еквівалентними за цих умов, оскільки вони тестують одну й ту саму нульову гіпотезу.
Однак R-квадрат виявляє проблему: з показником 0,008 ми пояснюємо менше ніж 1% варіації. Модель ігнорує багато інших факторів, які справді впливають на тривалість перебування користувачів на сайті.
Зміна гри: додавання ковариатів
Тут проявляється справжня сила лінійної регресії. Якщо додати ще одну змінну — наприклад, середню тривалість сесії до експерименту — все змінюється кардинально.
Модель раптово покращується: R-квадрат зростає до 0,86, тепер ми пояснюємо 86% варіації. Що важливіше: ефект обробки зменшується до 0,47 хвилин. Чому? Попередня ковариата виявляє “ефект сніжної кулі” — користувачі, які вже мали довгі сесії, демонструють схоже поведінкове зразок, при якому невеликі початкові відмінності накопичуються у значущі ефекти.
Це відкриття є вирішальним: початковий ефект у 0,56 був частково завищений через відбіркову упередженість. Користувачі з природно довшими сесіями не були випадково розподілені між групами — вони більш концентровано зосереджувалися у групі обробки.
Математична істина: ATE, ATT і SB
Щоб формалізувати:
ATE (Середній ефект обробки): середній ефект обробки, який ми прагнемо оцінити
ATT (Середній ефект обробки у оброблених): ефект саме для тих користувачів, що отримали обробку — також ACE (Середній причинний ефект)
SB (Відбіркова упередженість): упередженість відбору, що спотворює справжній ефект
Наївна різниця між середніми значеннями груп змішує ці величини:
Наївна оцінка = ATE + SB
З додаванням ковариатів ми можемо зменшити цю упередженість і наблизитися до справжнього ефекту.
Валідація за допомогою симуляції
У контрольованому експерименті, де справжній ефект відомий (0,5 хвилин), показано:
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Невидима сила ковариат: як подолати упередженість вибору у A/B-тестах
Проблема, яку ніхто не хоче бачити
Уявіть собі: велика компанія електронної комерції запускає новий дизайн-банер і вимірює середню тривалість сесії. Перше враження від даних багатообіцяюче — зростання на 0,56 хвилин (близько 33 секунд за сесію). Звучить багатообіцяюче, чи не так? Але тут починається пригода з глибинним статистичним аналізом.
Дилема: наскільки ми можемо бути впевненими, що саме банер є справжньою причиною цього покращення? Що, якщо більш досвідчені користувачі старих технологій систематично бачать новий банер частіше, ніж новачки? Відповідь веде нас до класичної проблеми емпіричних досліджень — відбіркової упередженості.
T-тест проти лінійної регресії: неправильна дуель
Класичний T-тест швидко дає відповідь. Різниця між контрольною та експериментальною групою становить точно 0,56 хвилин — готово. Але поширена помилка: багато аналітиків вважають, що лінійна регресія потрібна лише для складніших сценаріїв. Це неправильно.
Що станеться, якщо замість цього застосувати лінійну регресію з статусом банеру (1 = видно, 0 = не видно) як незалежною змінною і тривалістю сесії як вихідною? На диво, ми отримаємо той самий коефіцієнт обробки: 0,56 хвилин. Це не випадковість — математично обидва тесту є еквівалентними за цих умов, оскільки вони тестують одну й ту саму нульову гіпотезу.
Однак R-квадрат виявляє проблему: з показником 0,008 ми пояснюємо менше ніж 1% варіації. Модель ігнорує багато інших факторів, які справді впливають на тривалість перебування користувачів на сайті.
Зміна гри: додавання ковариатів
Тут проявляється справжня сила лінійної регресії. Якщо додати ще одну змінну — наприклад, середню тривалість сесії до експерименту — все змінюється кардинально.
Модель раптово покращується: R-квадрат зростає до 0,86, тепер ми пояснюємо 86% варіації. Що важливіше: ефект обробки зменшується до 0,47 хвилин. Чому? Попередня ковариата виявляє “ефект сніжної кулі” — користувачі, які вже мали довгі сесії, демонструють схоже поведінкове зразок, при якому невеликі початкові відмінності накопичуються у значущі ефекти.
Це відкриття є вирішальним: початковий ефект у 0,56 був частково завищений через відбіркову упередженість. Користувачі з природно довшими сесіями не були випадково розподілені між групами — вони більш концентровано зосереджувалися у групі обробки.
Математична істина: ATE, ATT і SB
Щоб формалізувати:
Наївна різниця між середніми значеннями груп змішує ці величини:
Наївна оцінка = ATE + SB
З додаванням ковариатів ми можемо зменшити цю упередженість і наблизитися до справжнього ефекту.
Валідація за допомогою симуляції
У контрольованому експерименті, де справжній ефект відомий (0,5 хвилин), показано: