Карта методов экспериментирования

Выбрать метод

Подобрать под мою задачу 16 из 16 — ответьте на любое подмножество вопросов, список сузится

Зачем измеряем?

Возможна ли рандомизация?

Объём выборки?

Как связаны наблюдения?

01Метод

Классический A/B-тест внутр.·внешн.

Назначение Средний эффект воздействия (ATE — Average Treatment Effect) от внедрения варианта B по сравнению с вариантом A для заранее выбранной метрики.

Когда применять Полная рандомизация по пользователям; достаточный объём выборки (обычно — тысячи участников на группу, но зависит от дисперсии и минимально обнаруживаемого эффекта, MDE); отсутствие перетекания эффекта между тестовой и контрольной группами.

Единицы анализа Воздействие, рандомизация и анализ должны проводиться на одном уровне. Если анализ выполняется на более низком уровне — требуются кластерные поправки.

Главный риск Недостаточная мощность теста или высокая шумность метрики — из-за этого незначимый результат могут ошибочно принять за отсутствие эффекта.

Как избежать CUPED, стратификация, последовательное тестирование, проверка соотношения групп (SRM), защитные метрики (guardrail).

Длительность До достижения необходимой мощности и покрытия недельной цикличности. Обычно — 2–4 недели; для оценки удержания — 6–12 недель.

Примеры Google Поиск, Booking.com, Netflix (UI), Microsoft Office, Яндекс.

Не применять: если невозможно обеспечить рандомизацию без перетекания эффектов; если MDE при доступной выборке превышает бизнес-значимый эффект; для оценки долгосрочных метрик при коротком периоде наблюдения.

Как объяснить

Готовая формулировка«Это золотой стандарт причинного вывода в продукте: полная рандомизация по пользователям, ATE как оценщик, проверки SRM и баланса до интерпретации. Главный риск — не сам метод, а недостаточная мощность; поэтому до запуска фиксируем MDE и считаем выборку».

Острые вопросы«Что если SRM провалился?» / «Чем CUPED отличается от стратификации?» / «Как оценить долгосрочный эффект коротким A/B?» / «Почему незначимый результат ≠ нет эффекта?» / «Что делает p-value 0,049 после 10 проверок?»

Ключевые источникиKohavi, Tang, Xu (2020) «Trustworthy Online Controlled Experiments» — синтез Microsoft, Google, LinkedIn (20 000+ тестов в год). Deng, Xu, Kohavi, Walker (Microsoft, 2013) — CUPED.

02Метод

A/B-тест на уровне запросов для компонентов

Назначение Средний эффект на уровне отдельного запроса. Подходит для компонентных метрик (латентность, релевантность, точность ранжирования), но не для оценки сквозного пользовательского опыта.

Когда применять Большое количество запросов; изменения скрыты от сквозного UX; рандомизация по пользователям или по сессиям, анализ на уровне запросов с обязательной кластерной поправкой стандартных ошибок по пользователю.

Главный риск Псевдорепликация — запросы от одного пользователя коррелируют между собой; без кластерной поправки это создаёт иллюзию большой выборки и приводит к ложно значимым p-value.

Как избежать Кластерные стандартные ошибки с группировкой по пользователю; стратификация по типу запроса и интенсивности использования; при малом числе кластеров — wild cluster bootstrap.

Примеры Google Поиск, Bing, кредитный скоринг, внутренние компоненты поиска в Copilot.

Не применять: если запросы связаны в рамках одного диалога (выбор — карточка 3); для оценки пользовательского опыта; без кластерной поправки при неравномерной активности пользователей.

Как объяснить

Готовая формулировка«Запросный A/B даёт огромную статистическую мощность для компонентных метрик, но запросы внутри пользователя коррелированы — без кластерных SE по пользователю получаем псевдорепликацию и ложные позитивы. Анализ ниже уровня рандомизации — только с кластерной поправкой».

Острые вопросы«Почему нельзя считать каждый запрос независимым?» / «Что такое ICC и как он влияет на мощность?» / «Когда выбор перейти на уровень диалога?» / «Что если кластеров меньше 30?»

Ключевые источникиCameron & Miller (2015) — практический обзор кластерных SE. Roodman et al. (2019) — wild cluster bootstrap для малого числа кластеров.

03Метод

A/B-тест на уровне диалогов / сессий

Назначение Средний эффект на уровне изолированного диалога или сессии.

Когда применять Запросы зависят друг от друга в рамках одного диалога, но диалоги одного пользователя относительно независимы; есть чёткие границы диалога; метрика естественно агрегируется по диалогу.

Главный риск Различная длина или плотность диалогов между группами; перенос опыта между диалогами одного пользователя (learning effect).

Как избежать Дельта-метод для ratio-метрик (например, «успешные диалоги / все диалоги»); стратификация по типу задачи; кластеризация по пользователю при большом числе диалогов на одного человека.

Примеры Copilot для SQL, диалоговые помощники, чат-боты поддержки.

Не применять: если границы диалога размыты; если навыки или опыт необратимо переносятся между диалогами (валиден кластерный РКИ или DiD).

Как объяснить

Готовая формулировка«Когда запросы внутри диалога зависимы, но сами диалоги достаточно независимы, единица анализа — диалог. Для ratio-метрик типа „успешные диалоги / все“ нужен дельта-метод, иначе обычный CLT даёт смещённые доверительные интервалы».

Острые вопросы«Чем дельта-метод отличается от бутстрепа?» / «Что если диалоги разной длины?» / «Когда учитывать обучение пользователя как смешивающий фактор?»

Ключевая ссылкаDeng et al. (2017) — дельта-метод для ratio-метрик в онлайн-экспериментах (Microsoft).

04Метод

Лабораторный РКИ внутр.·внешн.

Назначение Эффект в контролируемых условиях. Обеспечивает высокую внутреннюю валидность причинного вывода, но результаты могут плохо переноситься на реальную среду использования.

Когда применять 20–100 участников; задачи сопоставимы по сложности; контролируемая среда проведения.

Варианты Межсубъектный: разные участники — разные условия. Внутрисубъектный: каждый участник проходит через оба условия. Важно: «лабораторный РКИ» — это условие проведения; «внутрисубъектный» — это схема распределения условий. Понятия независимы.

Главный риск Слабая внешняя применимость; эффект наблюдения (эффект Хоторна); для внутрисубъектного дизайна — необратимый эффект обучения (learning effect), особенно при ИИ-инструментах.

Как избежать Контрбалансирование порядка (ABBA / BAAB); период очистки между условиями, если эффект обратим; слепая оценка результата; пилотное тестирование на понятность задач; контрольная задача.

Примеры Peng et al. (2023): GitHub Copilot, сокращение времени выполнения задачи примерно на 55 % (точечная оценка; 95 % ДИ примерно от 21 % до 89 %). Dell'Acqua et al. BCG (2023). Noy & Zhang MIT (2023). При защите вывода всегда упоминать диапазон доверительного интервала, а не только точечную оценку.

Не применять в одиночку: для принятия решений о масштабном запуске; при наличии необратимого обучающего эффекта внутрисубъектный дизайн невалиден — используйте межсубъектный или комбинируйте с долгим A/B.

Как объяснить

Готовая формулировка«Лаба даёт максимальную внутреннюю валидность при малой выборке, но слабую внешнюю. Цифру „+55 %“ из Peng et al. всегда даю с доверительным интервалом 21–89 % — точечная оценка без него вводит в заблуждение. Для решения о раскате одной лабы недостаточно: нужна триангуляция с продакшен-данными».

Острые вопросы«Почему ваши участники не репрезентативны?» / «Что с эффектом наблюдения?» / «Можно ли использовать внутрисубъектный дизайн для ИИ-помощника?» (нет — learning effect необратим) / «Почему вы поверили Peng et al., если выборка 95 человек?»

Ключевые источникиPeng et al. (2023) — GitHub Copilot RCT. Dell'Acqua et al. (2023) — BCG. Cui et al. (2024) — 4000+ разработчиков в полевом эксперименте.

05Метод

Кластерный эксперимент

Назначение Средний эффект воздействия (ATE) при рандомизации на уровне кластеров — команд, городов, регионов.

Когда применять Наличие локального спилловера внутри групп; для надёжной классической оценки желательно 40+ кластеров; при 10–40 — со специальными поправками (wild cluster bootstrap); ниже 10 кластеров метод теряет мощность критически.

Главный риск Катастрофическая потеря мощности из-за внутрикластерной корреляции (ICC). Эффективный размер выборки определяется числом кластеров, а не количеством людей внутри них.

Как избежать Стратификация кластеров по размеру и характеристикам при рандомизации; смешанные модели с случайными эффектами кластера; кластерные стандартные ошибки; wild cluster bootstrap при малом числе кластеров.

Примеры Гео-эксперименты DoorDash и Uber; внедрение Copilot по командам разработки; A/B-тесты по магазинам у ритейлеров.

Не применять: если число кластеров менее 10 (тест теряет мощность; альтернатива — синтетический контроль); без стратификации при сильно разнородных группах.

Как объяснить

Готовая формулировка«Когда внутри группы есть спилловер, рандомизировать ниже уровня группы нельзя. Эффективная выборка — число кластеров, а не пользователей. При 40+ кластерах работают классические кластерные SE; при 10–40 — wild bootstrap; ниже 10 — лучше синтетический контроль».

Острые вопросы«Что такое ICC и как он влияет на расчёт мощности?» / «Почему 1000 пользователей в 10 кластерах ≠ 1000 пользователей в 1000 кластерах?» / «Чем wild bootstrap лучше обычного при малом числе кластеров?»

Ключевые источникиCameron, Gelbach, Miller (2008) — bootstrap для кластерных данных. Athey & Imbens (2017) — обзор гео-экспериментов.

06Метод

Свитчбэк-эксперимент (временно́е переключение)

Назначение Средний эффект воздействия (ATE) при глобальном перетекании, когда в каждый момент времени вся система работает в одном условии (A или B).

Когда применять Глобальное перетекание эффектов (общий кэш, пул ресурсов, маркетплейс, динамическое ценообразование); 20+ переключений для минимальной мощности, 50+ — для надёжных оценок; длительность одного окна больше времени затухания carryover-эффекта.

Главный риск Carryover-эффект — влияние условий периода T на период T+1; систематические эффекты времени суток и дня недели, маскирующие сигнал.

Как избежать Увеличение длины окна наблюдения до времени затухания carryover; введение «промывочных» периодов (wash-out); случайный порядок переключений; блокировка по часу / дню; учёт календарных эффектов в модели.

Примеры Логистика DoorDash, ценообразование Uber, ИИ-системы с общим кэшем.

Не применять: при долгом или необратимом carryover-эффекте; при слишком малом числе переключений (< 20); при сильной нестационарности системы.

Как объяснить

Готовая формулировка«Когда A/B-группы не изолированы (маркетплейс, общий кэш, ценообразование), классический A/B даёт смещённую оценку — обе группы влияют друг на друга через систему. Свитчбэк делает условием весь рынок целиком в каждый момент времени; главный враг — carryover, поэтому окна должны быть длиннее периода затухания эффекта».

Острые вопросы«Как выбрать длину окна?» / «Что делать с сезонностью в часе и дне?» / «Какая минимальная мощность при 20 переключениях?» / «Чем свитчбэк отличается от ITS?»

Ключевые источникиBojinov, Simchi-Levi, Zhao (2020) — анализ свитчбэк-экспериментов. Кейсы DoorDash и Uber Engineering blogs.

07Метод

Перемежение (interleaving) для ранжировщиков

Назначение Относительное предпочтение одного ранжировщика над другим в рамках единой выдачи (доля побед). Не измеряет абсолютный эффект на бизнес-метрики.

Когда применять Задача — ранжирование (поиск, рекомендации); результаты двух алгоритмов перемешиваются в единую выдачу; есть надёжный сигнал кликов или взаимодействия.

Варианты Team-draft: алгоритмы «выбирают» результаты по очереди, метим, чей вклад выше. Balanced: сравнение долей побед при балансировке позиций.

Главный риск Смещение по позиции (position bias) — пользователи чаще кликают на верхние результаты; выигрыш по кликам не означает выигрыш по выручке или удержанию.

Примеры Netflix, Bing, Яндекс Поиск, Spotify.

Не применять: для задач вне ранжирования; для абсолютной оценки влияния на бизнес-метрики (всегда сочетать с классическим A/B на ключевой метрике).

Как объяснить

Готовая формулировка«Перемежение быстрее и чувствительнее, чем A/B, для сравнения ранжировщиков: пользователь сам „голосует“ кликом в общей выдаче. Но это только доля побед — для решения о раскате нужен A/B на бизнес-метрике, потому что выигрыш по кликам не равен росту удержания или выручки».

Острые вопросы«Чем team-draft отличается от balanced?» / «Как боретесь с position bias?» / «Почему алгоритм выиграл interleaving, но проиграл A/B?»

Ключевые источникиChapelle et al. (2012) — обзор методов перемежения. Радлинский и Крафт — теоретическая база метода.

08Метод

Многорукий бандит оптимизация·— не оценивает размер эффекта

Назначение Это метод адаптивной оптимизации, а не метод оценки размера эффекта. Минимизирует упущенную выгоду (regret), направляя трафик к лучшему варианту по мере набора данных.

Когда применять Три и более вариантов; быстрый и надёжный отклик; цель — выбрать лучший вариант в реальном времени; нет требования к строгой оценке размера эффекта.

Главный риск Смещённые оценки нелидирующих вариантов — трафик уходит к победителю, проигравшие варианты не получают достаточной оценки. Для статистического вывода после адаптивного распределения требуются специальные методы (off-policy evaluation, doubly robust).

Как избежать Гибридный дизайн: фиксированная доля трафика на классический A/B + бандит на остальном; off-policy evaluation для пост-анализа; ограничение скорости адаптации.

Примеры Рекомендательные системы, персонализация заголовков, выбор баннера; Pinterest, Spotify.

Не применять: когда нужна точная оценка эффекта; при отложенном отклике (delayed feedback); для принятия решения «запускаем ли в полный раскат» — дополнять классическим A/B на фиксированной доле трафика.

Как объяснить

Готовая формулировка«Бандит — это про оптимизацию во время эксперимента, а не про оценку эффекта после. Если задача — найти лучший вариант из десяти заголовков с быстрым откликом, бандит идеален; если нужно сказать, насколько B лучше A, — нужен A/B. Часто комбинируют: фиксированная доля на classic A/B + бандит на остальном».

Острые вопросы«Чем Thompson Sampling отличается от UCB?» / «Что делает бандит при отложенном отклике?» / «Как оценить ATE после адаптивного распределения?» / «Почему нельзя „бандитом всё“?»

Ключевые источникиThompson (1933) — оригинальная работа. Lattimore & Szepesvári (2020) — современный учебник. Bietti, Agarwal, Langford (2018) — практика contextual bandits.

09Метод

Метод «разность разностей» (Difference-in-Differences, DiD)

Назначение Средний эффект для группы, получившей воздействие (ATT — Average Treatment Effect on the Treated): сравнение изменения метрики «до → после» в группе с вмешательством и в контрольной группе.

Когда применять Рандомизация невозможна; одна группа получила изменение, похожая — нет; доэкспериментальная история не менее 8 точек для проверки трендов (12+ — для надёжной оценки); состав групп стабилен в течение периода наблюдения.

Главный риск Нарушение допущения о параллельности доэкспериментальных трендов; одновременные шоки в момент вмешательства; упреждающие эффекты (anticipation); перетекание между группами.

Как избежать Визуальная и статистическая проверка трендов; плацебо-тесты на доэкспериментальном периоде; построение event-study графика (событийный анализ); включение ковариат при подозрении на дисбаланс по характеристикам.

Примеры Card & Krueger (1994) — эффект минимальной зарплаты в Нью-Джерси относительно Пенсильвании. Запуск UberX в одном городе vs соседний без сервиса. Внедрение Copilot в одном подразделении компании vs аналогичное без внедрения.

Не применять: если доэкспериментальные тренды непараллельны (нужны DML/синтетический контроль); при крупных одновременных событиях, затрагивающих только одну из групп; при сильном перетекании между группами.

Как объяснить

Готовая формулировка«DiD — квазиэксперимент, когда рандомизация невозможна и есть похожая контрольная группа. Главное допущение — параллельные доэкспериментальные тренды; проверяем его на event-study графике и плацебо-тестами. Оцениваемая величина — ATT, эффект для тех, кто получил воздействие, а не общий ATE».

Острые вопросы«А если тренды непараллельны?» / «А если воздействие изменило сам состав группы?» / «Чем DiD отличается от простой регрессии с дамми?» / «Почему ATT, а не ATE?» / «Что делать при одновременном шоке только в treated-группе?»

Ключевые источникиCard & Krueger (1994) — каноническая работа. Roth, Sant'Anna, Bilinski, Poe (2023) — современный обзор: где DiD ломается и как это лечить.

10Метод

Поэтапное внедрение (Staggered DiD)

Назначение Средний эффект по когортам внедрения с учётом гетерогенности эффекта во времени и между когортами.

Когда применять Инструмент или функция внедряется по группам в плановой последовательности. Порядок внедрения должен быть либо случайным, либо явно учитываться как источник смещения; для каждой когорты есть период «до» и «после».

Главный риск Парадокс отрицательных весов в стандартной TWFE-регрессии: «ранние» когорты используются как контроль для «поздних», что усредняет эффекты с неверными весами и иногда меняет знак итоговой оценки.

Как избежать Современные оценщики: Каллауэй–Сант'Анна (2021), де Шазмартен–Д'Олтфёй (2020), Сан–Абрахам (2021); event-study график для проверки доэкспериментальных трендов и динамики эффекта по когортам; декомпозиция Гудмана-Бэйкона для диагностики «больных» сравнений.

Примеры Расширение продукта по странам (запуск Uber по городам); поэтапное внедрение Copilot по отделам крупной компании; раскат фичи по регионам с разными датами начала.

Не использовать стандартную TWFE-регрессию при гетерогенных эффектах — только современные оценщики (Callaway–Sant'Anna и аналоги). Это та ошибка, на которой ловят 90 % аналитиков, не знакомых с обновлениями 2020–2021 гг.

Как объяснить

Готовая формулировка«Когда раскат идёт волнами, стандартный TWFE даёт смещённую оценку — это известный с 2020 года парадокс отрицательных весов. Использую современные оценщики типа Callaway–Sant'Anna, которые корректно строят группы сравнения по когортам и моментам времени, и проверяю динамику через event-study».

Острые вопросы«Что такое парадокс отрицательных весов?» / «Чем Callaway–Sant'Anna отличается от Sun–Abraham?» / «Что делать, если порядок раската неслучайный?» / «Зачем декомпозиция Goodman-Bacon?»

Ключевые источникиCallaway & Sant'Anna (2021); Goodman-Bacon (2021) — декомпозиция; de Chaisemartin & D'Haultfœuille (2020); Sun & Abraham (2021).

11Метод

Метод синтетического контроля

Назначение Эффект для одной уникальной единицы (региона, страны, крупной компании) через сравнение с «синтетической копией» — взвешенной комбинацией единиц из пула аналогов, точно воспроизводящей доэкспериментальную динамику целевой единицы.

Когда применять Одна единица получила изменение; пул из 5+ аналогов (20+ — для надёжной оценки), не затронутых вмешательством; доэкспериментальная история не менее 12 точек данных; известные характеристики единиц для подбора весов.

Суть метода Строится взвешенная комбинация единиц пула, которая воспроизводит предысторию целевой единицы. В отличие от DiD, метод не предполагает строго параллельные тренды, но требует хорошего качества доэкспериментальной подгонки (pre-fit) — это более сильное требование, а не более слабое. Плохой pre-fit делает метод неприменимым.

Главный риск Плохая доэкспериментальная подгонка (высокая MSPE) — синтетическая копия не воспроизводит реальную единицу до вмешательства, поэтому разница «после» не интерпретируется как эффект; переобучение на короткой истории; перетекание эффекта на единицы пула.

Как избежать Статистический вывод через плацебо-перестановки (permutation tests) по единицам пула; проверка отношения MSPE «после/до»; визуальная проверка качества подгонки; исключение из пула единиц со схожим вмешательством.

Примеры Abadie, Diamond & Hainmueller (2010) — антитабачный закон в Калифорнии. Запуск Uber/Lyft в новых городах. Оценка эффекта Brexit на ВВП Великобритании.

Не применять: при пуле аналогов менее 5 единиц; при плохом качестве доэкспериментальной подгонки; при перетекании эффекта на единицы пула; для краткосрочных эффектов на коротких рядах.

Как объяснить

Готовая формулировка«Когда есть всего одна единица с вмешательством и пул аналогов, синтетический контроль строит „синтетическую копию“ — взвешенную комбинацию аналогов, воспроизводящую предысторию. Часто думают, что метод слабее требует параллельных трендов, но это наоборот: он требует хорошей доэкспериментальной подгонки, а это более сильное условие. Статвывод — через плацебо-перестановки».

Острые вопросы«Чем синтетический контроль отличается от DiD?» / «Что такое MSPE и как её интерпретировать?» / «Что делать с короткой предысторией?» / «Как доказать значимость эффекта без классических p-value?»

Ключевые источникиAbadie, Diamond, Hainmueller (2010) — каноническая работа. Abadie (2021) — современный обзор методологии и расширений.

12Метод

Прерванный ряд (ITS / CausalImpact) простой ITS·BSTS + ковариаты

Назначение Отклонение наблюдаемого временного ряда от прогноза контрфакта после момента вмешательства. CausalImpact (Google) использует байесовскую структурную модель временного ряда (BSTS) с ковариатами.

Когда применять Изменение затрагивает одну единицу; доэкспериментальная история не менее 12 точек; желательно наличие контрольных временных рядов (ковариат), не затронутых вмешательством. Без контрольных рядов метод плохо защищён от одновременных событий.

Главный риск Смешивающие факторы в момент внедрения — их влияние приписывается эффекту вмешательства; возврат к среднему; ложная сезонность.

Как избежать Включение контрольных рядов в качестве регрессоров; проверка стабильности модели на доэкспериментальной части; плацебо-моменты вмешательства; сравнение с альтернативными моделями (с / без сезонности).

Примеры Анализ рекламных кампаний Google AdWords (CausalImpact). Оценка эффекта от ограничения курения в общественных местах. Оценка влияния маркетинговых акций на продажи бренда.

Не применять в одиночку для решений с высокой ценой ошибки; при доэкспериментальной истории менее 12 точек; без контрольных рядов вывод существенно слабее (по сути — простой ITS).

Как объяснить

Готовая формулировка«CausalImpact — это байесовский ITS с ковариатами: строит контрфакт по доэкспериментальной части ряда и контрольным рядам, оценивает разницу „факт − контрфакт“ с 95 % CI. Без контрольных рядов метод не отличает эффект от одновременных шоков; с ними — становится защитимой оценкой, особенно для маркетинговых кампаний».

Острые вопросы«Чем CausalImpact отличается от обычной ARIMA?» / «Что если контрольные ряды сами затронуты?» / «Как выбрать момент окончания эффекта?» / «Почему байесовский подход здесь удобнее?»

Ключевой источникBrodersen, Gallusser, Koehler, Remy, Scott (2015) — оригинальная работа Google по CausalImpact и BSTS.

13Метод

Метод регрессионного разрыва (RDD) у порога

Назначение Локальный средний эффект для единиц, находящихся вблизи порога (LATE — Local Average Treatment Effect). Эффект не переносится далеко от порога — это локальная оценка по построению.

Когда применять Доступ к программе или услуге определяется строго по непрерывной переменной (бегущей переменной) и жёсткому порогу; единицы вблизи порога сопоставимы между собой; нет манипуляции значениями переменной у порога.

Главный риск Манипуляция бегущей переменной — участники искусственно подгоняют значение к порогу; чувствительность оценки к выбору ширины окна; малое число наблюдений у порога.

Проверки Тест МакКрэри (McCrary density test) — отсутствие скачка плотности у порога; непрерывность ковариат у порога (плацебо-проверка); анализ чувствительности оценки к ширине окна; визуализация скачка в самой метрике.

Примеры Стипендия по баллу ЕГЭ (порог = N баллов). Кредитный скоринг (одобрение при score ≥ X). Программы лояльности с порогом по сумме покупок.

Не применять: для оценки эффекта далеко от порога; при подозрении на манипуляцию бегущей переменной; при разрывной плотности у порога; на малых данных у порога (менее 100 наблюдений в узком окне).

Как объяснить

Готовая формулировка«RDD работает, когда статус „получил/не получил“ определяется жёстким порогом по непрерывной переменной. Заёмщик со скорингом 649 почти идентичен заёмщику с 651, но их судьбы разные — это даёт квазислучайность у порога. Оцениваю LATE именно у порога, обязательно проверяю McCrary density test и чувствительность к ширине окна».

Острые вопросы«Почему эффект только локальный?» / «Что такое sharp vs fuzzy RDD?» / «Как выбрать ширину окна?» / «Что если есть манипуляция у порога?»

Ключевые источникиLee & Lemieux (2010) — каноническая работа. Cattaneo, Idrobo, Titiunik (2020) — современный стандарт практики (rdrobust в R/Python).

14Метод

Метод инструментальных переменных (IV) слабый инструмент·сильный инструмент

Назначение LATE / CACE — локальный средний эффект для комплаеров (тех, чьё поведение фактически изменил инструмент), а не общий ATE. Это разные величины: один и тот же продукт может иметь разный LATE и ATE.

Когда применять Есть инструмент, влияющий на участие в программе, но не на исход напрямую. Три ключевых допущения: связь с участием (relevance — инструмент значимо влияет на участие), условие исключения (exclusion restriction — инструмент влияет на исход только через участие), монотонность (monotonicity — инструмент не создаёт «дефаэров»).

Суть метода Случайно распределяем не само воздействие, а приглашение воспользоваться им. Применимо там, где нельзя обязать участвовать (опт-ин, рассылка, добровольная программа).

Главный риск Слабый инструмент — даёт неустойчивые оценки и смещение в сторону OLS даже при малом нарушении exclusion. Современный стандарт после Lee, McCrary, Moreira, Porter (2022): F-статистика первой ступени должна быть не ниже 104,7 для надёжного 5 %-доверительного интервала (старый порог F > 10 устарел и больше не считается достаточным).

Как избежать Проверка F-статистики первой ступени по новому стандарту; тесты на нарушение exclusion restriction; sensitivity analysis к слабому нарушению exclusion; явное обсуждение, для каких комплаеров справедлив эффект.

Примеры Случайное email-приглашение попробовать новый продукт. Расстояние до колледжа как инструмент для эффекта высшего образования на зарплату (Angrist–Krueger). Лотерея зачисления в школу как инструмент для эффекта школы.

Не применять: при F-статистике первой ступени ниже современного порога; при сомнениях в выполнении exclusion restriction; без чёткого понимания, что оценка относится только к комплаерам и не равна общему ATE.

Как объяснить

Готовая формулировка«IV — это про ситуацию „пригласить можно, обязать нельзя“. Случайно распределяем приглашение, оцениваем эффект для комплаеров. Главное — три допущения: связь с участием, условие исключения и монотонность. Современный стандарт силы инструмента — F > 104,7 после Lee et al. (2022), старый порог F > 10 уже не считается надёжным».

Острые вопросы«Чем LATE отличается от ATE?» / «Что такое exclusion restriction и как его проверить?» / «Почему слабый инструмент опасен?» / «Кто такие always-takers, never-takers, compliers?» / «Что если инструмент сам коррелирует с конфаундером?»

Ключевые источникиImbens & Angrist (1994) — определение LATE. Angrist, Imbens, Rubin (1996) — фреймворк потенциальных исходов для IV. Lee, McCrary, Moreira, Porter (2022) — современный порог F > 104,7.

15Метод

DML и мэтчинг по склонности (PSM) DML·PSM

Назначение ATE или ATT на наблюдательных данных с поправкой на наблюдаемые ковариаты. DML использует две ML-модели (одна предсказывает воздействие, другая — исход) и соотносит остатки для оценки эффекта. PSM подбирает пары «лечение–контроль» по вероятности попадания в группу.

Когда применять Имеются только наблюдательные данные (рандомизация невозможна или этически недопустима); подробные характеристики участников; добровольное участие; достаточное пересечение распределений ковариат между группами (область пересечения, common support).

Главный риск Ненаблюдаемые смешивающие факторы — оба метода контролируют только то, что измерено; никакие ML-фокусы не решают проблему ненаблюдаемого. King & Nielsen (2019) критикуют именно мэтчинг по индексу склонности (PSM) за рост дисперсии и парадоксальное усиление дисбаланса после мэтчинга — критика не относится к мэтчингу в целом (например, mahalanobis matching и coarsened exact matching этой проблемы не имеют).

Как избежать Для DML: перекрёстная подгонка (cross-fitting) для предотвращения переобучения; проверка области пересечения (common support). Для PSM: проверка баланса ковариат после мэтчинга; sensitivity-анализ. Для обоих методов: анализ чувствительности к ненаблюдаемым конфаундерам (например, Rosenbaum-bounds или E-value).

Примеры Оценка эффекта образовательных программ. Эпидемиология. Наблюдательный анализ долгосрочных эффектов фичей у Netflix. Оценка эффекта Copilot по логам без A/B.

Не применять: для решений с высокой ценой ошибки в одиночку; вместо рандомизированного эксперимента, когда он возможен. PSM — только при невозможности применения DML или других современных методов; никогда — как метод первого выбора.

Как объяснить

Готовая формулировка«DML — современный стандарт для наблюдательных данных: две ML-модели, перекрёстная подгонка, оценка чистого эффекта по остаткам. Главное ограничение — корректирует только наблюдаемые конфаундеры, поэтому всегда добавляю анализ чувствительности к ненаблюдаемым. PSM держу в уме как ограниченную альтернативу: King–Nielsen (2019) показали, что PSM может усиливать дисбаланс — это критика конкретно propensity score matching, а не идеи мэтчинга в целом».

Острые вопросы«Чем DML отличается от обычной OLS с ковариатами?» / «Что такое перекрёстная подгонка и зачем она нужна?» / «Почему PSM критикуют?» / «Как делать sensitivity к ненаблюдаемым?» / «Что такое common support?»

Ключевые источникиChernozhukov et al. (2018) — Double/Debiased ML. King & Nielsen (2019) — критика PSM. Athey & Imbens (2017) — обзор для прикладников.

16Метод

Качественные методы причинный вывод·понимание механизма

Назначение Не размер эффекта, а механизм: почему и для кого работает решение, какие есть барьеры, как меняется восприятие. Незаменимы для генерации гипотез, объяснения аномалий и интерпретации количественных результатов.

Когда применять Необходимо понять то, что плохо измеряется количественно: качество суждений, изменение восприятия, причины отказа от использования, паттерны взаимодействия с инструментом.

Главный риск Субъективное смещение исследователя и социально желательные ответы; низкая воспроизводимость; малая выборка не позволяет оценить распределение явления в популяции.

Как избежать Структурированный гайд интервью; независимое кодирование транскриптов несколькими исследователями; триангуляция с количественными данными; контрольные вопросы для выявления социально желательных ответов.

Примеры Дневниковое исследование Microsoft Copilot (более 200 инженеров) — выявило паттерны использования и барьеры. UX-тесты на этапе прототипа. Опросы разработчиков (Stack Overflow, GitHub Developer Survey).

Не применять в одиночку для обоснования размера эффекта или решений о масштабном раскате. Всегда сочетать с количественными методами в рамках триангуляции.

Как объяснить

Готовая формулировка«Качественные методы — это не „слабый эксперимент“, а другой инструмент: они отвечают на „почему и как“, а не на „насколько“. В зрелой триангуляции дневники и интервью объясняют расхождения между лабораторным и продакшен-эффектом, генерируют гипотезы для следующего A/B и помогают понять, какие сегменты теряем».

Острые вопросы«Как защищаетесь от субъективности интервью?» / «Почему 30 интервью — это не выборка?» / «Когда качественное исследование уместнее количественного?» / «Как кодировать транскрипты воспроизводимо?»

Ключевые источникиMicrosoft Developer Velocity Lab — дневниковое исследование Copilot. Braun & Clarke (2006) — thematic analysis как стандарт кодирования.

▸ Легенда звёзд — сила причинного вывода 5 уровней + важная оговорка

Звёзды отражают внутреннюю причинную силу метода при выполнении его ключевых предположений и достаточной мощности. Они не оценивают внешнюю применимость и стоимость реализации. Для лабораторного РКИ и interleaving указаны две оси отдельно.

★Слабый причинный вывод. Много допущений, плохо защищается от смешивающих факторов. Допустим как генератор гипотез или часть триангуляции, не для самостоятельных решений.

★★Слабый, но удобный для наблюдательных данных. Контролирует только наблюдаемые факторы. Требует обязательного sensitivity-анализа на ненаблюдаемые смешения.

★★★Средний. Метод корректен при выполнении нетривиальных предположений (параллельные тренды, исключения, exclusion restriction). Каждое предположение надо проверять и защищать.

★★★★Сильный при выполнении условий. Близок к экспериментальному стандарту, но требует серьёзной гигиены: проверки баланса, кластерных поправок, плацебо-тестов.

★★★★★Золотой стандарт причинного вывода: полная рандомизация на правильном уровне, достаточная мощность, пройденные проверки SRM / A/A / баланса.

Важно: ★★★★★ не означает «лучший выбор всегда». Лабораторный РКИ имеет ★★★★★ по внутренней силе, но ★★–★★★ по внешней применимости. Маленький РКИ с низким соблюдением протокола может уступать качественному квазиэксперименту на больших данных. Звёзды — ориентир, а не приговор.

Калибровка строгости

Цена ошибки в задаче определяет α-уровень, обязательные проверки и внешний контроль. Этот шаг не сужает список методов — даёт рекомендацию по строгости поверх выбранного метода.

Цена ошибки

→ Подробнее: 03 «Запустить корректно» → «Строгость по цене ошибки»

Усилить дизайн

01Техника

CUPED — снижение дисперсии через предысторию

НазначениеСнижение дисперсии метрики за счёт корреляции с предыдущим поведением участника. Эквивалентно увеличению выборки без дополнительных пользователей.

ЭффектДисперсия снижается в (1 − ρ²) раз. При ρ = 0,7 — эквивалент удвоения выборки; при ρ = 0,5 — +33 % к эффективному N; при ρ < 0,3 — выигрыш пренебрежим.

Критическое правилоКовариата строго до начала воздействия. Если ковариата захватит период эксперимента, вычтется часть самого эффекта — это смещение из-за постэкспериментальной переменной (post-treatment bias).

ПроверкаБаланс ковариаты между группами до эксперимента; стабильность ρ на A/A-данных; кросс-валидация выбора ковариаты.

Не применять: для новых пользователей без предыстории; при ρ < 0,3 — выигрыш не оправдывает усложнение; при сильных изменениях самой метрики за период «до».

02Техника

Стратификация (расслоение выборки)

НазначениеГарантированный пропорциональный баланс ключевых подгрупп между ветками; снижение дисперсии при наличии разнородных сегментов.

ВариантыДо эксперимента: рандомизация внутри каждой страты. После эксперимента (постстратификация): взвешенный анализ. До-стратификация надёжнее, постстратификация уместна при отсутствии управления назначением.

ПравилоНе более 3–5 слоёв на переменную и не более 2 переменных стратификации одновременно. Избыток страт обнуляет мощность: каждая ячейка становится слишком мелкой.

Не усложнять: без заранее обоснованных ключевых сегментов стратификация не приносит выигрыша и только усложняет анализ.

03Техника

Последовательное тестирование (sequential testing)

ПроблемаКлассическое подглядывание при ежедневной проверке раздувает уровень ошибки I рода с номинальных 5 % до реальных 25–30 % — это «инфляция α при подглядывании».

Решение«Всегда корректные» p-значения; расходование α по O'Brien–Fleming или Pocock; mSPRT (Optimizely). Правило остановки фиксируется до запуска и не меняется по ходу.

ВажноНе путать мониторинг защитных метрик (можно остановить эксперимент в любой момент по соображениям безопасности — это не статвывод) и остановку по успеху (требует sequential-метода).

Классическое подглядывание без sequential — всегда ошибка. При раннем остановлении точечная оценка размера эффекта смещена вверх (winner's curse) — её корректируют отдельно.

04Техника

Поправка на множественное тестирование

ПроблемаЕсли до раскрытия результатов смотреть 20 метрик и 15 сегментов, хотя бы одна комбинация покажет p < 0,05 случайно (300 проверок при α = 0,05 → 15 ожидаемых ложноположительных результатов).

РешениеДо запуска: одна основная метрика, ограниченный набор вторичных, набор защитных. Подтверждающий анализ явно отделён от разведочного. Поправки: Бенджамини–Хохберг (FDR) — основная; Бонферрони — для семей высокой ответственности.

Разведочные находки — это гипотезы для следующего эксперимента, а не выводы текущего. Любой sub-group результат без предрегистрации требует подтверждения в новом запуске.

05Техника

Кластерно-устойчивые стандартные ошибки

НазначениеЧестная оценка стандартных ошибок при зависимых наблюдениях внутри пользователя, команды, региона, диалога.

Когда применятьАнализ на уровне запросов при рандомизации по пользователю; любые иерархические данные. Уровень кластеризации = уровень зависимости наблюдений.

РискСтандартные кластерные SE ненадёжны при числе кластеров менее 40. При 10–40 кластерах — wild cluster bootstrap; ниже 10 — оценка значимости не строится корректно.

06Техника

Усечение выбросов (winsorization) и логарифмирование

НазначениеСнизить влияние единичных аномально активных участников на среднее и дисперсию.

ВариантыWinsorization: замена значений выше порога (обычно 99-й перцентиль) пороговым. Trimming: удаление наблюдения. log(1 + x): меняет интерпретируемую величину (оценивается уже логэффект, не разница средних).

Критическое правилоПравило обработки выбросов фиксируется до раскрытия результатов. Выбор порога после просмотра p-value — классическая подгонка p-значений (p-hacking).

Не применять: когда крайние значения — бизнес-значимая группа (киты, VIP); при необходимости интерпретировать эффект в исходных единицах метрики.

07Техника

Контрбалансирование (для внутрисубъектных дизайнов)

НазначениеЗащита от влияния порядка условий и временны́х эффектов: половина участников проходит AB, половина — BA.

ВариантыABBA / BAAB для двух условий; латинский квадрат — для 3 и более вариантов.

Период очистки (wash-out)Задаётся по механизму остаточного эффекта. Для некоторых навыков (например, освоенный paradigm работы с ИИ-инструментом) carryover необратим — тогда внутрисубъектный дизайн в принципе невалиден.

Не применять: при необратимом обучающем эффекте (навык, выученный с инструментом, не забывается за 3 дня wash-out).

08Техника

Проверки корректности (обязательная гигиена)

Нарушение соотношения групп (SRM)Хи-квадрат-проверка соответствия фактического сплита ожидаемому. Провал = сломанная рандомизация → эксперимент не интерпретируется до выяснения причины.

A/A-тестОбе группы получают одинаковое условие. Должен давать незначимые результаты. Значимые отклонения — проблема в платформе сплитования.

Баланс до экспериментаПредэкспериментальные метрики и ковариаты между группами статистически одинаковы. Систематическое нарушение — рандомизация сломана.

Параллельность трендовДля DiD: визуально на event-study графике и формально через тесты pre-trends. Нарушение → метод неприменим без модификаций.

Плацебо-тестыДля синтетического контроля и DiD: применяем метод к заведомо не затронутым единицам — «эффектов» не должно возникать.

Пропускать нельзя. P-value без пройденных проверок ничего не означает — это просто число.

09Техника

Анализ гетерогенности эффекта (HTE)

НазначениеНайти подгруппы, для которых эффект значимо отличается от среднего. Не самостоятельный дизайн, а аналитическая надстройка над любым РКИ или квазиэкспериментом.

Когда применятьКогда есть содержательная гипотеза о модераторах эффекта (например, «новички получают больше пользы от ИИ-инструмента, чем эксперты»); когда нужно понять, кому раскатывать.

Главный рискМножественные сравнения и переобучение моделей HTE. 30 сегментов × 10 метрик = 300 проверок; без поправок «найдётся» что угодно. Causal forest без cross-fitting переобучается.

РешениеПредрегистрация подгрупп до анализа; поправки FDR / Бонферрони; causal forest с cross-fitting; разведочные находки идут в следующий эксперимент, а не в решение.

Не применять: при размерах подгрупп менее 100 наблюдений; без предварительной гипотезы о модераторах; в качестве замены анализа общего ATE.

Запустить корректно

Чек-лист эксперимента

Полный протокол разделён на три фазы: до запуска (фиксируется и согласуется), во время (что мониторить), после (как анализировать и решать). Без зафиксированного до-запуска протокола эксперимент не запускается.

Три единицы эксперимента — проверьте до запуска. Единица воздействия — на кого действует изменение. Единица рандомизации — кого случайно распределяем между условиями. Единица анализа — на каком уровне считаем метрику и стандартную ошибку. Рандомизировать ниже уровня спилловера нельзя. Анализировать ниже уровня рандомизации — только с кластерной поправкой.

01 ФАЗА

До запуска — предрегистрация

1Гипотеза: что должно измениться, у кого, почему и за какой срок. Формулировка вида «B увеличит конверсию на ≥0,3 п. п. за 14 дней у новых мобильных пользователей».

2Единицы: воздействия → рандомизации → анализа. Совпадают? Если нет — как корректируем (кластерные SE, агрегация на правильном уровне)?

3Метрики: одна основная + ограниченный набор вторичных + защитные. Разведочные находки явно отделены от подтверждающих.

4MDE и мощность: минимально бизнес-значимый эффект; расчёт необходимой выборки; мощность ≥ 80 %; α в зависимости от цены ошибки (см. раздел «Калибровка строгости»).

5Дизайн: метод (из Части 2); размер выборки; длительность; правило остановки; обработка выбросов; ковариаты для CUPED; список применяемых техник из Части 3.

6Проверки до запуска: A/A на платформе (если новая); расчёт ICC для кластерных дизайнов; pre-trends для квазиметодов; качество доэкспериментальной подгонки для синтетического контроля.

7План анализа: модель оценивания; поправки на множественность; доверительные интервалы; разведочный анализ строго отдельным разделом.

8Правило решения: запустить / не запускать / доисследовать / запустить ограниченно / повторить. Что именно делает результат «достаточным» для решения.

02 ФАЗА

Во время эксперимента — мониторинг ежедневно

1SRM-проверка ежедневно. Фактический сплит сравнивается с ожидаемым по χ². Провал → пауза эксперимента и расследование причины до возобновления.

2Защитные метрики (латентность, ошибки, SLO, отказы). Просадка ниже порога → возможна остановка по соображениям безопасности (это не статистический вывод).

3Аномалии данных: сбои логирования, всплески активности ботов, релизы конкурирующих фич, маркетинговые акции. Любая аномалия документируется в дневнике эксперимента.

4Подглядывание на основной метрике — только через sequential-метод (mSPRT, alpha spending). Иначе классическое подглядывание раздувает α.

5Эффект новизны (novelty): для UI и контент-изменений первая неделя обычно не репрезентативна. Решение по эффекту — после стабилизации (минимум 14 дней для большинства метрик).

03 ФАЗА

После эксперимента — анализ и решение

1Подтверждающий анализ строго по протоколу. Метрики, поправки, модель оценивания — те, что зафиксированы до запуска. Никаких корректировок «по факту».

2Отчёт: точечная оценка + 95 % CI + MDE на доступной выборке. Незначимый результат интерпретируется в свете MDE: «эффект < X не обнаружен».

3Разведочный анализ — отдельным разделом с явной пометкой. Все находки тут — гипотезы для следующего эксперимента, не выводы текущего.

4Решение: запустить полностью / запустить с долгосрочной резервной группой (holdout) / повторить с большим N / не запускать / запустить только для определённого сегмента. Решение фиксируется в трекере экспериментов.

5Долгосрочный holdout: для важных запусков сохраняется навсегда выключенная резервная группа 1–5 % для оценки долгосрочного эффекта (через 3–6 месяцев).

6Постмортем неуспехов и сюрпризов: разбор причин, документирование, обновление гипотез. Это часть зрелой культуры экспериментов.

Незначимый результат ≠ отсутствие эффекта, если эксперимент был недостаточно мощным. Всегда указывайте 95 % CI и MDE при доступной выборке. Если CI = [−0,5 %; +1,8 %], а бизнес-значимый эффект = 0,5 %, корректный вывод: «эффект ≥ 0,5 % не подтверждён, но не исключён — нужна большая выборка».

Строгость по цене ошибки

Q5 не меняет метод, но определяет уровень строгости протокола и анализа. Это самый недооценённый параметр диагностики.

Цена ошибки	α / правило остановки	Гигиена	Внешний контроль
Низкая (внутренний тест, легко обратимо)	α = 0,1 допустимо; раннее остановление при чётком сигнале допустимо	Базовая: проверка SRM, A/A не обязателен	Не требуется
Умеренная (стандартный продуктовый запуск)	α = 0,05; sequential-метод при подглядывании	Полная: SRM, баланс, основная + защитные метрики, поправка на множественность	Предрегистрация гипотезы в трекере экспериментов
Высокая (миллионы пользователей, регуляторные риски, крупные деньги)	α = 0,01; обязательно sequential с консервативным alpha spending (O'Brien–Fleming)	Максимальная: SRM, A/A на платформе, баланс, плацебо-проверки, теневой запуск (shadow mode), долгосрочный холдаут	Формальная предрегистрация (внутренняя или внешняя), независимая репликация, обязательная триангуляция

Главный принцип строгости: чем выше цена ошибки, тем больше внимание к проверкам корректности и тем меньше доверие к одному эксперименту. На высоком уровне строгости решение принимается не по p-value одного запуска, а по совокупности доказательств из разных методов.

Формулы расчёта выборки

Базовые формулы и таблицы для быстрой оценки порядка выборки. Не заменяют специализированные инструменты — G*Power, statsmodels.stats.power, Evan Miller A/B Calculator — но дают интуицию для оценок «на салфетке».

Формулы первого порядка

Для α = 0,05, мощности 0,8 и двустороннего критерия — стандартный множитель ≈ 16. Откуда: (z_α/2 + z_β)² ≈ (1,96 + 0,84)² ≈ 7,85, удвоенный для двух групп — около 16.

01 ФОРМУЛА

Выборка для непрерывной метрики

N_{на_группу} ≈ 16 × σ² / MDE²

ПрименениеНепрерывная метрика (выручка на пользователя, время сессии, число действий).

Гдеσ — стандартное отклонение метрики в популяции (мера разброса). MDE — минимально обнаруживаемый эффект, который вы готовы поймать (в тех же единицах, что и метрика). 16 — фиксированный множитель для α = 0,05 и мощности 0,8.

ПримерМетрика — выручка на пользователя за неделю, σ = 1 200 ₽ (по историческим данным). Хотим обнаружить рост на ≥ 50 ₽ (MDE). N = 16 × 1 200² / 50² = 16 × 1 440 000 / 2 500 = 9 216 пользователей на группу. Если хотим поймать всего +20 ₽, выборка вырастает в 6,25 раза (50/20)² → ≈ 57 600 на группу.

02 ФОРМУЛА

Выборка для доли / конверсии

N_{на_группу} ≈ 16 × p₀ × (1 − p₀) / MDE²

ПрименениеКонверсия или любая бинарная метрика (купил / не купил, кликнул / нет).

Гдеp₀ — базовая конверсия (доля, от 0 до 1). MDE — абсолютное изменение конверсии, которое хотим поймать (в долях, не процентах).

ПримерБазовая конверсия в покупку 5 % (p₀ = 0,05), хотим поймать рост на 0,5 п. п. (MDE = 0,005). N = 16 × 0,05 × 0,95 / 0,005² = 16 × 0,0475 / 0,000025 = ≈ 30 400 пользователей на группу. Если базовая конверсия выше (например, 30 %, p₀ = 0,30), а MDE такой же — N = 16 × 0,30 × 0,70 / 0,000025 ≈ 134 400 (выборка растёт из-за бо́льшей дисперсии бинарной метрики).

03 ФОРМУЛА

Поправка для CUPED

N_CUPED = N_{базовый} × (1 − ρ²)

ПрименениеПоправка для CUPED — снижения дисперсии через предысторию.

Гдеρ — коэффициент корреляции между метрикой в эксперименте и её доэкспериментальным значением (от 0 до 1). Чем выше ρ, тем больше снижение N.

ПримерБазовая выборка 30 000 на группу. Корреляция «выручка на пользователе сейчас» vs «выручка месяц назад» равна 0,7. N_CUPED = 30 000 × (1 − 0,49) = 15 300 на группу — вдвое меньше. При ρ = 0,3: N_CUPED ≈ 27 300 — выигрыш всего 9 %, овчинка не стоит выделки.

04 ФОРМУЛА

Поправка для кластерного дизайна

N_{кластерный} = N_{базовый} × [1 + (m − 1) × ICC]

ПрименениеПоправка для кластерного дизайна — рандомизация на уровне команд / регионов / магазинов.

Гдеm — средний размер кластера (сколько наблюдений внутри одного кластера). ICC — внутрикластерная корреляция (от 0 до 1, для команд обычно 0,01–0,1). Скобка [1 + (m − 1) × ICC] — это «эффект дизайна» (design effect), на сколько раз нужно увеличить базовую выборку.

ПримерБазовый N = 30 000. Раскат по командам, в каждой команде по 100 человек (m = 100). ICC = 0,05. Поправка = 1 + 99 × 0,05 = 5,95. N_{кластерный} = 30 000 × 5,95 = 178 500 человек или ≈ 1 785 команд. Главный вывод: увеличивать выборку через число кластеров (не размер кластера) — добавление одного человека в команду почти не помогает.

Шпаргалка для типовых случаев

Ситуация	Параметры	N на группу	Что снижает N
Конверсия в покупку: baseline 5 %, обнаружить относительный рост на 10 % (MDE = 0,5 п. п.)	p₀ = 0,05; MDE = 0,005; α = 0,05; мощность = 0,8	≈ 30 000	CUPED с ρ = 0,5: ≈ 22 500; стратификация по устройству: −10–15 %
Конверсия высокая: baseline 30 %, обнаружить рост на +1 п. п. (MDE = 0,01)	p₀ = 0,30; MDE = 0,01; α = 0,05; мощность = 0,8	≈ 33 600	CUPED, стратификация
Continuous-метрика (revenue per user): σ / μ = 2 (тяжёлый хвост), обнаружить +5 % относительно среднего	σ/μ = 2; MDE = 0,05 × μ; α = 0,05; мощность = 0,8	≈ 25 600	Winsorization 99-й перцентиль: σ может упасть в 1,5–2 раза → N в 2,25–4 раза меньше
Кластерный РКИ: 10 кластеров на ветку, ICC = 0,05, размер кластера 100	m = 100; ICC = 0,05	Поправка ×(1 + 99 × 0,05) = ×5,95. Базовый N умножается почти в 6 раз.	Снижение ICC через стратификацию кластеров; увеличение числа кластеров (не их размера)
Свитчбэк: 4 недели × 24 часа = 672 часа, рандомизация по часу	Эффективный N = число часов − wash-out	≈ 600 «единиц времени» — мощность зависит от дисперсии часовых метрик и величины эффекта	Блокировка по часу дня и дню недели; включение часовых ковариат
Лабораторный РКИ: continuous-метрика time-saved, ожидаемый Cohen's d = 0,5 (средний эффект)	d = 0,5; α = 0,05; мощность = 0,8	≈ 64 на группу (всего 128)	Внутрисубъектный дизайн (при отсутствии learning effect): N может упасть в 2–3 раза

Правило большого пальца: запомните множитель 16 для непрерывной метрики и (z_α/2 + z_β)² ≈ 7,85 → 8 на группу для α = 0,05 и мощности 0,8. Удвоение MDE → деление N на 4 (квадратичная зависимость). Увеличение мощности с 0,8 до 0,9 → +35 % к N. Снижение α с 0,05 до 0,01 → +40 % к N.

Углублённо: почему именно эти формулы и где они ломаются

Формула N = 16 × σ² / MDE² выводится из требования, чтобы стандартная ошибка разницы средних была равна MDE / (z_α/2 + z_β). При двух одинаковых группах размером N: SE(Δ) = σ × √(2/N). Подставляя: σ × √(2/N) = MDE / 2,8 → N = 2 × σ² × 2,8² / MDE² ≈ 16 × σ² / MDE².

Где формулы ломаются: при сильно асимметричных распределениях (revenue с тяжёлым хвостом), при кластеризованных данных без поправки, при ratio-метриках (нужен дельта-метод), при адаптивном дизайне (бандит, sequential). Для серьёзных решений используйте симуляцию вместо аналитической формулы.

Защитить решение

Принципы зрелого подхода

Каждый принцип построен по схеме «тезис → пример провала при игнорировании → развёрнутое объяснение и тезисы под катом».

01 ПРИНЦИП

Диагностика предшествует выбору метода

Метод нельзя выбирать «по привычке» или «как у всех» — пока не отвечены диагностические вопросы из Части 1, любой выбор слеп.

Провал: команда «всегда делает A/B». Для маркетплейса с глобальным перетеканием A/B даёт смещённую оценку: тестовые курьеры забирают заказы контрольных, обе группы влияют друг на друга. Запуск признан успешным; в реальности эффект — артефакт интерференции, выручка после раската не растёт.

Развёрнутое объяснение и тезисы

Диагностика — это не бюрократия, а защита от типичных ошибок: рандомизации на неправильном уровне, выбора метода без учёта спилловера, недостатка мощности, неподходящего estimand. Пять минут на диагностику экономят месяцы постмортемов.

Готовая формулировка: «У зрелой команды нет „метода по умолчанию“. Перед выбором всегда: какая цель измерения, возможна ли рандомизация, как связаны наблюдения, какова цена ошибки. Только потом — метод. Это занимает минуту и защищает от большинства типичных провалов».

02 ПРИНЦИП

Уровень рандомизации определяется уровнем спилловера

Рандомизировать ниже уровня перетекания эффекта нельзя — это разрушает причинный вывод, какой бы большой ни была выборка.

Провал: рандомизация по пользователям при наличии командного эффекта. Один разработчик в команде получает Copilot, другой — нет, но оба обсуждают код на стендапах и в PR-ревью. Контрольный «учится» у тестового. Эффект Copilot выглядит как +5 %, реальный эффект (при кластерной рандомизации по командам) — +15 %.

Развёрнутое объяснение и тезисы

Три уровня всегда: воздействие → рандомизация → анализ. Анализ ниже уровня рандомизации требует кластерных SE; рандомизация ниже уровня спилловера невалидна. Соблазн «увеличить выборку на низком уровне» — частая причина смещённых оценок: запросы внутри пользователя коррелированы, пользователи внутри команды влияют друг на друга, команды внутри города делят рынок.

Готовая формулировка: «Уровень рандомизации диктуется тем, на каком уровне эффект „перетекает“. Запросы могут быть единицей только при их независимости; диалоги — для чат-ботов; команды — при социальной диффузии; маркетплейс целиком — при глобальном перетекании. Гонка за низким уровнем ради статмощности при наличии спилловера — критическая ошибка».

03 ПРИНЦИП

Триангуляция — норма, а не страховка

Ни один метод не даёт полной картины. Зрелый подход — комбинация нескольких независимых оценок одного эффекта.

Провал: запуск ИИ-инструмента в крупной компании опирается только на лабораторный РКИ Peng et al. (+55 %, ДИ 21–89 %). После раската реальный эффект — +12 %. Принятая ставка «новички должны ускориться в 2 раза» оказывается несостоятельной для опытных, на которых пришлось 70 % компании.

Развёрнутое объяснение и тезисы

Зрелый запуск ИИ-инструмента: A/B на запросах (компонентные метрики) + лабораторный РКИ (точная оценка time-saved) + Staggered DiD по командам внедрения (эффект на бизнес-метрики) + дневники / интервью (восприятие, барьеры). Совпадение оценок — лучшее доказательство; расхождение — повод копать (например, лаба и прод дают разные цифры из-за разной сложности задач).

Готовая формулировка: «Я не верю единственному источнику оценки эффекта, особенно когда цена ошибки высокая. Триангуляция — это не „на всякий случай“, а норма зрелой методологии: один метод закрывает то, что слабо у другого. Лабораторный РКИ — внутренняя валидность; продакшен A/B — внешняя; качественные методы — механизм».

04 ПРИНЦИП

Иерархия методов — ориентир, а не приговор

Звёзды в карточках — внутренняя сила метода при выполнении предположений. В реальной задаче «лучший» метод может быть не тот, что «выше» в иерархии.

Провал: команда отказывается от любых квазиэкспериментов, требует только A/B. Запуск в одной стране с регуляторными ограничениями (рандомизация невозможна) откладывается на 6 месяцев в ожидании «правильного» A/B; конкурент за это время выпускает аналог.

Развёрнутое объяснение и тезисы

Маленький РКИ с низким соблюдением протокола, эффектом Хоторна и нерепрезентативной выборкой может уступать качественному квазиэксперименту на больших данных. Лабораторный РКИ имеет ★★★★★ по внутренней силе, но ★★–★★★ по внешней применимости. Зрелость — умение осознанно выбрать метод «ниже» в иерархии, когда того требует задача.

Готовая формулировка: «Звёзды — это сила метода при выполнении его предположений, а не универсальный рейтинг. В практике решает не „максимальная сила“, а соответствие методу ситуации. Хороший Staggered DiD на больших производственных данных часто полезнее маленькой лаборатории».

05 ПРИНЦИП

Экспериментальная гигиена соблюдается всегда

Предрегистрация гипотезы, разделение подтверждающего и разведочного анализа, обязательные проверки корректности — не опции, а минимальные требования.

Провал: аналитик тестирует фичу, A/B показывает p = 0,12. После 12 «срезов» находит сегмент «мужчины 25–34 на Android», где p = 0,04. Презентует это как открытие. Решение запустить фичу для всего продукта основано на разведочной находке без подтверждающего анализа; через квартал retention падает на −3 %.

Развёрнутое объяснение и тезисы

Минимальный набор: предрегистрация гипотезы и метрик до запуска; одна основная метрика; SRM-проверка; A/A на новой платформе; проверка баланса; явное разделение подтверждающих и разведочных находок. Честное признание ограничений вместо «продажи» эффекта: «эффект +23 % ± 5 % по A/B; долгосрочное удержание не измерено; нужна holdout-группа на 6 месяцев».

Готовая формулировка: «Гигиена — то, что отличает культуру экспериментов от культуры „найди значимое и презентуй“. Предрегистрация, SRM, A/A, разделение confirmatory и exploratory — это база. Их пропуск делает любые цифры обсуждаемыми, а не доказательными».

Антипаттерны

Каталог классических ошибок аналитиков. Формат: «что не так» → «что делать вместо». Подходит как готовый материал для вопроса «расскажите про типичную ошибку».

01 АНТИПАТТЕРН

Запросы как единицы анализа без кластерных SE

Что вместо анализ на уровне запросов с кластерными SE по пользователю; при малом числе кластеров — wild cluster bootstrap. Понимать, что «1 000 000 запросов от 1 000 пользователей» ≠ выборка 1 000 000.

02 АНТИПАТТЕРН

Подглядывание на основной метрике без sequential-метода

Что вместо mSPRT, O'Brien–Fleming alpha spending или фиксированная длительность с одной финальной оценкой. Мониторинг защитных метрик ≠ подглядывание на primary.

03 АНТИПАТТЕРН

A/B на 1 неделю для метрик удержания

Что вместо 4–8 недель для краткосрочного удержания, долгосрочный holdout 1–5 % на 3–6 месяцев. Эффект новизны искажает короткие тесты.

04 АНТИПАТТЕРН

Стандартная TWFE-регрессия для staggered rollout

Что вместо современные оценщики Callaway–Sant'Anna (2021), de Chaisemartin–D'Haultfœuille (2020), Sun–Abraham (2021). Декомпозиция Goodman-Bacon — диагностика «больных» сравнений.

05 АНТИПАТТЕРН

PSM на малых данных в качестве первого выбора

Что вместо DML с cross-fitting; при невозможности — mahalanobis matching или CEM (coarsened exact matching), которые не страдают от критики King–Nielsen (2019). Всегда — sensitivity analysis к ненаблюдаемым.

06 АНТИПАТТЕРН

Решение по эффекту, найденному в одном сегменте без поправки

Что вместо предрегистрация подгрупп до анализа + FDR-поправка; разведочные находки идут как гипотезы в следующий эксперимент, не как обоснование текущего решения.

07 АНТИПАТТЕРН

Эксперимент без A/A и SRM-проверки

Что вместо A/A на платформе при её введении или после изменений; SRM-проверка ежедневно; провал SRM = пауза эксперимента до выяснения причины.

08 АНТИПАТТЕРН

Лабораторный РКИ как единственная доказательная база для масштабного раската

Что вместо триангуляция — лаба + продакшен A/B (или Staggered DiD при ограничениях) + качественные методы. Цифры «+55 %» из Peng et al. — всегда с ДИ и в контексте.

09 АНТИПАТТЕРН

Игнорирование эффекта новизны и долгосрочного эффекта

Что вместо минимум 14 дней для большинства метрик; long-term holdout 1–5 % навсегда после раската для оценки спустя 3–6 месяцев. Особенно — для UI- и контент-изменений.

10 АНТИПАТТЕРН

Выбор α, порога обработки выбросов и метрик после просмотра результатов

Что вместо предрегистрация всего в трекере экспериментов до запуска. HARKing и подгонка p-значений — самый частый источник «значимых» находок, не воспроизводящихся при раскате.

11 АНТИПАТТЕРН

Игнорирование Q5 (цены ошибки) при выборе α и строгости

Что вместо калибровка строгости по таблице из Части 1. При высокой цене ошибки: α = 0,01, обязательный sequential, формальная предрегистрация, теневой режим, триангуляция, долгосрочный holdout.

12 АНТИПАТТЕРН

Использование одного и того же CUPED-ковариата в окне эксперимента

Что вместо ковариата строго до старта эксперимента (любая её часть, попавшая в период воздействия → post-treatment bias и заниженная оценка эффекта). Проверка стабильности корреляции на A/A-данных.

Источники путаницы

Спорные термины, на которых ловят чаще всего. Различия, которые обязательно проговорить вслух правильно.

01 ПУТАНИЦА

ATE vs ATT vs LATE — когда что

Различие ATE — средний эффект по всей популяции. Естественный estimand A/B-теста с полной рандомизацией. ATT — средний эффект для тех, кто получил воздействие. Естественный estimand DiD: оцениваем, что произошло именно с обработанной группой относительно её собственного контрфакта. LATE — локальный эффект для комплаеров (тех, чьё поведение изменил инструмент). Естественный estimand IV и RDD (там — у порога). Один и тот же продуктовый вопрос даёт три разных числа в зависимости от метода. При презентации результата всегда называйте estimand явно.

02 ПУТАНИЦА

p-value vs размер эффекта vs мощность

Различие p-value — вероятность увидеть данные при гипотезе об отсутствии эффекта; не равна вероятности гипотезы. Размер эффекта — то, что измеряет бизнес-смысл. Мощность — способность найти эффект, если он есть. Малый p при крошечном эффекте на огромной выборке — статистически значимо, бизнес-незначимо. Большой p при огромном эффекте на крошечной выборке — недостаточная мощность, не «нет эффекта». Зрелый отчёт всегда: оценка + CI + MDE, никогда не одно p.

03 ПУТАНИЦА

Значимость vs мощность vs MDE

Различие Значимость (α) — допустимая вероятность ложноположительного результата (ошибка I рода). Мощность (1 − β) — вероятность увидеть реально существующий эффект. MDE — наименьший эффект, который тест способен зафиксировать при данной выборке, α и мощности. Указывать MDE при незначимом результате обязательно: «эффект ≥ MDE = 0,5 % не обнаружен» — корректный вывод; «эффекта нет» — некорректный.

04 ПУТАНИЦА

Односторонний vs двусторонний критерий

Различие Двусторонний — мы заранее не знаем, в какую сторону пойдёт эффект (стандарт по умолчанию). Односторонний — если интересует только улучшение и ухудшение исключено по дизайну (что редко). Односторонний даёт «+30 % к мощности», но при этом мы по построению не увидим ухудшения — что опасно для защитных метрик. Рабочее правило: «двусторонний по умолчанию; одностороннему нужно содержательное обоснование, и даже тогда обычно нет».

05 ПУТАНИЦА

Байесовский vs частотный подход в A/B

Различие Частотный: p-value, CI, заранее зафиксированная α, sequential-методы. Стандарт индустрии в Microsoft, Google, Meta. Байесовский: апостериорное распределение эффекта, P(B > A | данные), естественная интерпретация. Хорош для бизнес-коммуникации («с вероятностью 87 % B лучше A»). На практике обе парадигмы дают сходящиеся выводы при больших N; различие — в коммуникации и в обработке подглядываний (байесовский «всегда корректен», но не без оговорок — нужен корректный prior).

06 ПУТАНИЦА

Внутренняя vs внешняя валидность

Различие Внутренняя валидность — корректность причинного вывода внутри условий исследования. Внешняя валидность — переносимость результата на реальную среду, другую популяцию, другой период. Лабораторный РКИ: внутренняя ★★★★★, внешняя ★★. Продакшен A/B: внутренняя ★★★★★, внешняя ★★★★. Триангуляция нужна именно для соединения двух осей валидности.

07 ПУТАНИЦА

Подтверждающий (confirmatory) vs разведочный (exploratory) анализ

Различие Подтверждающий: заранее зафиксированные метрики и подгруппы, имеет статистическую силу, результат — основание для решения. Разведочный: любой анализ за рамками протокола, находки — гипотезы для следующего эксперимента. Смешивание двух — главный механизм подгонки p-значений и невоспроизводимых открытий. Любая графика с «вот в каком сегменте сработало» — exploratory, требует подтверждения в новом запуске.

08 ПУТАНИЦА

ITT (intent-to-treat) vs PP (per-protocol) vs IV

Различие ITT: анализируем по назначению, независимо от того, выполнил ли участник протокол. Сохраняет рандомизацию, но даёт нижнюю границу эффекта. PP: анализируем только тех, кто выполнил. Может быть смещено (compliers не случайны). IV: корректирует ITT-оценку на долю комплаеров, получая LATE — эффект для тех, кто реально использовал. В отчёте обычно ITT + IV; PP — только как иллюстрация, не как основной результат.

09 ПУТАНИЦА

Корреляция, ассоциация, причинная связь

Различие Корреляция — статистическая связь между переменными. Ассоциация — более широкий синоним. Причинная связь — изменение X вызывает изменение Y. Корреляция ≠ причинность; для перехода нужна либо рандомизация, либо квазиэксперимент с явными причинными допущениями (параллельные тренды, exclusion, RDD-предположения, общая поддержка). DML на наблюдательных данных даёт причинную интерпретацию только при выполнении ignorability — отсутствии ненаблюдаемых конфаундеров.

10 ПУТАНИЦА

SUTVA: что это и где ломается

Различие SUTVA = stable unit treatment value assumption. Два требования: (1) исход одного участника не зависит от назначения других — нет интерференции / спилловера; (2) воздействие имеет одно «значение» — нет скрытых вариантов условия. Ломается в маркетплейсах (тестовые курьеры влияют на контрольных), соцсетях (пользователи делятся контентом), командах (диффузия знаний). Решения: рандомизация на правильном уровне (кластер, время), свитчбэк, явное моделирование интерференции.

Образцы применения

01Сценарий

Внедряем Copilot в команде из 80 аналитиков

Q1 — цельГибрид: «выбрать лучший вариант» (внедрять или нет) + «оценить размер эффекта» (на сколько ускоряет работу) + «объяснить механизм» (на каких задачах).

Q2 — рандомизацияОграниченная: внутри команд есть обсуждения и взаимное обучение, рандомизация по людям внутри команды невалидна (спилловер). Возможно — по командам.

Q3 — объёмМалый по командам (например, 10 команд по 8 человек) — для классической кластерной оценки недостаточно.

Q4 — связьЛокальный спилловер внутри команды.

Q5 — ценаУмеренная (лицензии — деньги, продуктивность — стратегия).

РешениеТриангуляция: Staggered DiD по командам с поэтапным внедрением (метод 10) для эффекта на бизнес-метрики + лабораторный РКИ (метод 4) на отдельных задачах для time-saved с ДИ + дневники (метод 16) для понимания паттернов использования. SRM, A/A в начале каждой когорты. Wild cluster bootstrap из-за малого числа кластеров.

02Сценарий

Меняем алгоритм поиска в e-commerce

ДиагностикаQ1: выбрать лучший + оценить эффект. Q2: полная (по сессиям). Q3: достаточный. Q4: запросы зависимы внутри сессии. Q5: умеренная.

РешениеДвухуровневая оценка: интерливинг (метод 7) для сравнения ранжировщиков по доле побед на ранней стадии (быстро, чувствительно) + классический A/B по сессиям (метод 1) на бизнес-метрике (конверсия, GMV) для решения о раскате. CUPED по предыдущим сессиям пользователя. Защитная метрика: время загрузки.

03Сценарий

Новый онбординг в SaaS-продукте

ДиагностикаQ1: оценить эффект на retention. Q2: полная. Q3: достаточный (тысячи новых регистраций в неделю). Q4: независимые. Q5: умеренная.

РешениеКлассический A/B по новым пользователям (метод 1) с длительностью 6–8 недель для оценки 4-недельного retention. Долгосрочный holdout 5 % на 6 месяцев для долгосрочного retention. CUPED невозможен для новых пользователей — стратификация по источнику трафика и устройству.

04Сценарий

AI-фича в финтехе, регулятор смотрит

ДиагностикаQ1: оценить эффект + объяснить механизм (для регулятора). Q2: полная. Q3: достаточный. Q4: независимые. Q5: высокая (регуляторные риски).

РешениеМаксимальная строгость (см. таблицу строгости по Q5): классический A/B (метод 1) с α = 0,01 и sequential testing на O'Brien–Fleming. Перед запуском — теневой режим (shadow mode) на полном трафике без воздействия на пользователя для проверки технической корректности. Долгосрочный holdout на 12 месяцев. Триангуляция с DML (метод 15) на наблюдательных данных для подтверждения. Формальная предрегистрация и независимая репликация.

05Сценарий

Свитчбэк на маркетплейсе доставки

ДиагностикаQ1: оценить эффект нового алгоритма распределения. Q2: рандомизация по времени. Q3: достаточный (часовые окна на 4 недели). Q4: глобальное перетекание. Q5: умеренная (но логистика чувствительна к ошибкам).

РешениеСвитчбэк (метод 6) с часовыми окнами, рандомизация порядка, 200+ переключений за 4 недели. Wash-out 15 минут после переключения для затухания carryover. Кластерные SE по часу-дню. Защитные метрики: время доставки, доля отменённых заказов.

06Сценарий

Опт-ин на бета-программу новой фичи

ДиагностикаQ1: оценить эффект для тех, кто реально пользуется. Q2: частичная (можно пригласить, но не обязать). Q3: достаточный для самих приглашений. Q4: независимые. Q5: умеренная.

РешениеМетод инструментальных переменных (IV) (метод 14): рандомизация приглашения в бета-программу как инструмент для участия. Оценивается LATE — эффект для комплаеров. Проверка силы инструмента: F > 104,7 по современному стандарту. Sensitivity-анализ к нарушению exclusion. Параллельно ITT-анализ (как если бы инструмент = воздействию) для оценки нижней границы эффекта.

Основы причинности

01Бизнес-контекст

Эксперимент был всегда. Новое — это его доступность

Главная мысль Экспериментальный метод существует столетиями. Менялся не его статус, а круг тех, кому он по силам. Мы живём в третьей волне расширения этого круга — и впервые в истории не уметь экспериментировать стало конкурентным риском, а не следствием нехватки ресурсов.

Что меняет GenAI Не доступность инфраструктуры (Fake Door и Smoke Test делали и в 1999-м — Zappos продавал обувь, которой не было) и не «появление» эксперимента (Capital One строит банк на экспериментах с 1988 года). Меняется порог экспертизы: цикл «гипотеза → вариант → результат → интерпретация» проходит команда из 2–3 человек без отдельного аналитика.

Три эпохи доступности эксперимента

До цифры (1925—1990-е) Эксперимент — привилегия науки и крупной индустрии. Фишер формализует рандомизацию в сельхозе; РКИ становится стандартом фармацевтики; Capital One выстраивает банк на экспериментах с каждой ставкой. Цена входа — лаборатория, годы циклов, штат аналитиков.

Цифровая (1990-е—2020) A/B попадает в продуктовые команды интернет-компаний. Microsoft Bing зарабатывает $100 млн на одном пиксельном тесте; Capital One выходит на 80 000 экспериментов в год. Доступно тем, у кого есть трафик и BI-инфраструктура.

GenAI (2020+) Снижается порог экспертизы. ИИ помогает формулировать гипотезы, генерировать варианты, размечать результаты, готовить интерпретацию. То, для чего раньше нужен был стат-аналитик, доступно одному продакту с ноутбуком.

Источник рамки Идея трёх эпох развёрнута в статье «ИИ-трансформация № 1 — Смена парадигмы управления» (бренд Чувство управления).

02Бизнес-контекст

Эксперимент в узком и широком смысле

Узкий смысл Статистически строгая проверка причинной связи: A/B, кластерный РКИ, DiD, IV, синтетический контроль — всё, что в табе 01. Даёт защитимый причинный вывод ценой выборки, контроля и дисциплины.

Широкий смысл Любая дешёвая проверка предположения до большой траты: интервью с пятью клиентами, Fake Door на выходные, пилот в одном городе, ручной Wizard of Oz вместо алгоритма. Даёт качественный сигнал «копать или нет» — не защитимый, но достаточный для следующего шага.

В работе менеджера Большинство решений живёт в широком смысле: цена ошибки невелика, цикл должен быть быстрым, выборки для строгого теста нет. Узкий смысл нужен там, где ошибка дорогая (миллионы рублей, репутация, регуляторика) и данные собрать реально.

Когда поднимать строгость Лестница причинности ниже — карта того, какую силу вывода даёт каждый класс инструментов. Чем выше ставка решения, тем выше нужно подняться. Калибровка строгости под цену ошибки разобрана в табе 03 «Запустить корректно».

03Мост

Что значит «эксперимент»

Типичная ошибка «Мы выпустили фичу X, retention вырос на 8 %, значит X работает». Это не причинный вывод: одновременно мог запуститься маркетинг, поменяться сезон, обновиться смежная фича, появиться внешний драйвер. Без специально устроенного сравнения «что было бы без X» вывод о работе X — фикция.

Три класса вопросов К одним и тем же данным можно задавать три принципиально разных вопроса: что коррелирует, что будет при вмешательстве, что было бы при другом сценарии. Каждый требует своего класса инструментов и даёт ответ разной силы — об этом следующий блок.

Лестница причинности

Три уровня знания по Юдее Перлу: наблюдение (что коррелирует с чем), действие (что будет, если мы вмешаемся), контрфакт (что было бы при другом сценарии). Каждый требует своего класса инструментов и даёт ответ разной силы.

01Ступень

Наблюдение — «когда X высокое, что с Y?» Описательно

Что даёт Описание паттернов: летом продаётся больше мороженого; пользователи с высоким engagement чаще покупают; команды с регулярными ретро показывают лучший delivery. Полезно для дашбордов, поиска аномалий, генерации гипотез.

Где упирается Корреляция не равна причине (Юм, 1748). Летом продаётся больше мороженого и больше людей тонет — но мороженое никого не топит; общая причина — жара. Из наблюдательных данных невозможно отличить причинную связь от общего конфаундера.

Где работает Описание текущего состояния, поиск аномалий, генерация гипотез, прогнозирование при сохранении структуры данных. Что нельзя — отвечать на вопрос «если мы изменим X, изменится ли Y?».

Формальный язык

Обозначение P(Y | X) — условная вероятность Y при наблюдении X. Стандартный аппарат: корреляции, регрессии, графики.

02Ступень

Действие — «что будет, если мы изменим X?» Причинно

Инструмент Рандомизация. Случайное распределение участников между условиями физически разрывает связь воздействия с любыми конфаундерами — наблюдаемыми и ненаблюдаемыми (Нейман 1923, Фишер 1925). После рандомизации сравнение групп даёт прямой причинный вывод.

Что даёт Прямой ответ на «если мы изменим — изменится?». Если в A/B-тесте конверсия в группе B значимо выше — это эффект изменения, а не артефакт того, что в B попали более лояльные пользователи. Фундамент всех РКИ-методов.

Где упирается Не всегда можно или этично рандомизировать. Нельзя случайно назначить курение, развод, регуляторное вмешательство. Маркетплейс нельзя разделить на «получит ли пользователь товар» — общий пул товаров. Здесь нужна ступень 3.

В карте A/B классический · A/B на запросах · A/B на диалогах · Лабораторный РКИ · Кластерный РКИ · Свитчбэк · Интерливинг · Многорукий бандит — все работают, потому что разрывают связь между воздействием и конфаундерами через ту или иную форму рандомизации.

Формальный язык

Обозначение P(Y | do(X = b)) — оператор «do», введённый Юдеей Перлом. Принципиально отличается от P(Y | X): первое — вероятность Y, если мы вмешаемся в X; второе — вероятность Y, когда мы видим X. После корректной рандомизации эти две величины совпадают.

03Ступень

Контрфакт — «что было бы, если бы X был другим?» Гипотетически

Фундаментальная проблема Для одного субъекта нельзя одновременно наблюдать оба исхода — он либо получил воздействие, либо нет (Холланд, 1986). Контрфакт не существует в реальности — это онтологическое ограничение, а не техническое.

Как обходим Фреймворк потенциальных исходов (Рубин, 1974): индивидуальный контрфакт не наблюдаем, но средний эффект достижим через сравнение групп, если соблюдены допущения (ignorability — доступ к воздействию не зависит от потенциального исхода). Рандомизация даёт ignorability бесплатно; квазиэксперименты — через дополнительные специфические допущения.

Что даёт Причинный вывод там, где рандомизация невозможна. Можно оценить эффект минимальной зарплаты на занятость без рандомизации штатов (DiD); эффект высшего образования через географические инструменты (IV); эффект антитабачного закона через синтетическую копию Калифорнии. Пространство современной эконометрики и причинного ML.

В карте DiD · Staggered DiD · Синтетический контроль · CausalImpact / ITS · RDD · IV · DML / PSM — методы для подъёма на ступень 3 без рандомизации, каждый ценой своих допущений.

Формальный язык

Обозначение Потенциальные исходы Y(1) и Y(0) — два альтернативных мира для одного субъекта. ATE = E[Y(1) − Y(0)] — средний причинный эффект по популяции. ATT (для тех, кто получил воздействие) и LATE (для комплаеров) — варианты оценки на разных подмножествах.

Зачем подниматься выше. Ступень выбирается ценой ошибки решения, не амбицией команды.

Со ступени 1 на 2 — когда наблюдение бессильно различить эффект и шум. Microsoft Bing нашёл +$100 млн годовой выручки в одном пиксельном смещении заголовка (Кохави, 2012). Корреляционная модель никогда бы не выделила этот эффект — он лежал ниже шума. Рандомизация нужна не для крупных открытий, а чтобы доверять малым.

Со ступени 2 на 3 — когда рандомизировать нельзя, но решение слишком дорогое для корреляции. Card и Krueger (1994) оценили эффект минимальной зарплаты на занятость, сравнивая Нью-Джерси (поднял ставку) и Пенсильванию (не поднимала) через разность разностей. Рандомизировать штаты невозможно; цена ошибки — в миллиардах. Ступень 3 — единственный способ принять такое решение на данных, а не на идеологии.

Принцип: дашборд для операционки, A/B для релиза, DiD для стратегии. Точная калибровка строгости под цену ошибки — в табе 03 «Запустить корректно».

Один продуктовый вопрос — разные ступени. «Помогает ли Copilot писать код быстрее?» — на ступени 2 это рандомизированный РКИ с ATE; на ступени 3 — DiD по командам, получившим инструмент в разное время (ATT); на ступени 1 — наблюдательная регрессия «коммиты в зависимости от использования Copilot», которая упирается в самосёлектирующихся пользователей и не даёт причинного вывода. Один вопрос — три разные оценки и три разные степени защитимости.

Хронология идей

Три волны расширения доступа к эксперименту: наука (Юм → Фишер) → крупная индустрия (стрептомицин → Capital One → A/B в интернете) → массовое применение (Bing → RICE → RAT → GenAI). Параллельные дорожки академии и бизнеса — с лагом в десятилетия.

275 лет идей и их пути в бизнес

Волна I — эксперимент в науке (1748—1925)

1748Дэвид Юм, An Enquiry Concerning Human Understanding. Корреляция не равна причине — фундаментальный скептицизм относительно того, что мы можем узнать из наблюдений. Граница ступени 1, работает до сих пор.

1923Ежи Нейман вводит идею рандомизации в сельскохозяйственных экспериментах. Первая формализация связи между случайным назначением и причинным выводом.

1925Рональд Фишер, Statistical Methods for Research Workers. Рандомизация становится стандартом экспериментальной науки. «Чайный эксперимент леди» — формальная процедура того, как случайное распределение даёт корректный статвывод.

Волна II — эксперимент в крупной индустрии (1948—2010)

1948Британское исследование стрептомицина — первый современный РКИ с рандомизацией и плацебо в клинической медицине. С этого момента РКИ — «золотой стандарт» доказательной медицины.

1974
—1986Фреймворк потенциальных исходов. Рубин формализует Y(1) и Y(0) как контрфактические величины (1974) и вводит SUTVA (1980). Холланд формулирует «фундаментальную проблему причинного вывода» (1986). Современный язык причинности оформлен.

1988Capital One. Ричард Фэрбанк убеждает Signet Bank проверять экспериментом каждое решение — от процентной ставки до дизайна письма. К 2024 году — топ-10 банков США, активы $400 млрд, 80 000 экспериментов в год. Первый кейс экспериментальной культуры как стратегического стержня в нефинтехе.

1994Angrist & Imbens вводят LATE для инструментальных переменных. Card & Krueger публикуют каноническое исследование DiD по минимальной зарплате в Нью-Джерси — образец того, как принять стратегическое решение там, где рандомизация невозможна.

1995Юдея Перл вводит оператор do(X) и do-исчисление. Формализация языка вмешательств отдельно от языка наблюдений. Алгебра причинности, отличная от алгебры вероятностей.

~2000A/B в интернете. Amazon, Google, Booking делают рандомизированный тест стандартной продуктовой практикой. Эксперимент входит в обиход интернет-компаний — лаг от Фишера около 75 лет.

2010Альберто Абадие — метод синтетического контроля. Эталонный кейс: эффект антитабачного закона в Калифорнии через взвешенную копию из других штатов.

Волна III — эксперимент массово (2012—сейчас)

2012Microsoft Bing. Ронни Кохави и команда: один пиксельный A/B приносит +$100 млн годовой выручки. Корпоративная культура экспериментов формализована и тиражируется как отраслевой ориентир.

2015Intercom: фреймворк RICE (Reach × Impact × Confidence ÷ Effort). Единый язык приоритизации заменяет «громкость» голоса единым набором оценок — экспериментальный подход переносится с продукта на бэклог.

2017+Переход от MVP к RAT (Riskiest Assumption Test). Продуктовая методология фокусируется на проверке самого рискованного допущения дешёвым способом, а не на постройке минимального продукта. Dropbox-видео и Google Glass — два полюса того, что бывает, когда проверили / не проверили.

2018Перл и Мэкензи, The Book of Why — научно-популярное изложение лестницы причинности. Чернозюков и др. — Double / Debiased ML: соединение causal inference с современным машинным обучением. Лаг от do-исчисления — 23 года.

2021Нобелевская премия: Card, Angrist, Imbens — «за методологический вклад в анализ причинных связей». Официальное признание ступени 3 на высшем академическом уровне.

2022+GenAI. Стоимость гипотезы, варианта и интерпретации падает ещё на порядок. Цикл «гипотеза → эксперимент → решение» проходит команда из 2–3 человек без отдельного аналитика. Лаг между академической работой и промышленным применением впервые сжимается с десятилетий до лет.

Главный паттерн. Научные идеи попадают в бизнес с задержкой десятилетий: Фишер (1925) → массовое A/B (~2000) — около 75 лет; Перл (1995) → промышленный DML (2018) — 23 года. GenAI впервые радикально сокращает этот лаг — методы из работ 2020-х доступны командам в продакшене уже сейчас.

Куда дальше. Раздел 06 — концептуальный фундамент. Дальше карта переходит от «почему» к «как»:

01 Выбрать метод — 16 методов для подъёма на ступени 2 и 3, фильтр по задаче.
02 Усилить дизайн — 9 техник, которые делают каждый метод чище (CUPED, стратификация, кластерные SE…).
03 Запустить корректно — чек-лист трёх фаз и калибровка строгости под цену ошибки.
04 Защитить решение — принципы зрелого подхода, антипаттерны и терминологические путаницы.
05 Образцы — шесть проработанных кейсов, в которых лестница работает целиком.

Глоссарий и источники

Базовые понятия и единицы

A/B-тест — эксперимент, в котором пользователи случайно делятся на две группы: A (контроль) и B (тест). Разница в метриках — оценка эффекта.
Пример: Booking.com показывает группе B новый дизайн карточки отеля. Через 2 недели сравнивают конверсию: A = 3,1 %, B = 3,4 % → прирост +0,3 п. п.

РКИ (рандомизированное контролируемое испытание) — золотой стандарт причинного вывода: участники случайно распределяются между условиями.
Пример: 100 разработчиков, 50 случайно получают Copilot, 50 — без. Через неделю сравнивают скорость задач.

Рандомизация — случайное распределение участников между условиями. Устраняет систематические различия между группами.
Пример: хеш user_id % 2 определяет группу. Опытные и новые пользователи попадают в обе группы примерно поровну без ручного вмешательства.

Контрольная группа — группа, не получающая изменения. Точка отсчёта для сравнения.
Пример: в тесте нового алгоритма рекомендаций контрольная видит старый алгоритм. Её метрики — baseline.

Тестовая (экспериментальная) группа — группа, получающая новый вариант или изменение.
Пример: 10 % пользователей Яндекс.Музыки получают новый алгоритм плейлиста «Микс дня».

Единица воздействия — на кого действует изменение. Единица рандомизации — кого случайно распределяют между условиями. Единица анализа — уровень расчёта метрики и стандартной ошибки.
Пример: для маркетплейса воздействие — на весь рынок, рандомизация — по времени, анализ — по часовому окну.

Кластер — группа связанных наблюдений (запросы пользователя, пользователи команды, жители города). Внутри кластера наблюдения не независимы.
Пример: один активный пользователь сделал 800 запросов, другой — 3. Если считать каждый запрос отдельным наблюдением, первый «заглушит» второго. Кластер = пользователь.

Спилловер (утечка воздействия) — изменение в тестовой группе влияет на контрольную или наоборот, нарушая независимость групп.
Пример: тестовые водители такси с новым алгоритмом маршрутов забирают заказы, которые иначе достались бы контрольной группе. Метрики контроля ухудшаются из-за спилловера, а не отсутствия фичи.

SUTVA (допущение устойчивости единичного воздействия) — исход каждого участника зависит только от его собственного назначения. Нарушается при спилловере или скрытых вариантах условия.
Пример: в соцсети пользователь из контрольной группы видит репосты контента, сгенерированного фичей тестовой группы — SUTVA нарушена.

Контрфакт — гипотетический сценарий «что было бы, если бы вмешательства не произошло». Разница между фактом и контрфактом — причинный эффект.
Пример: после запуска Copilot продуктивность = 120. Модельный контрфакт без Copilot = 105. Причинный эффект = 15.

Триангуляция — проверка одного эффекта несколькими независимыми методами. Совпадение выводов повышает уверенность, расхождение — сигнал к расследованию.
Пример: A/B показал +12 %, лаба +15 %, DiD +9 %, дневники «экономлю 30–40 минут в день» — четыре источника сходятся.

Внутренняя валидность — корректность причинного вывода внутри условий исследования. Внешняя валидность — переносимость результата на реальную среду.
Пример: лаба с 50 участниками и строгим контролем — высокая внутренняя, средняя внешняя. Продакшен A/B на миллионах — высокая обе.

Статистика и оценки эффекта

ATE (средний эффект воздействия) — средний эффект по всей популяции. Главный estimand классического A/B.
Пример: новая кнопка «Купить» увеличила конверсию в среднем на +0,5 п. п. — это ATE.

ATT (средний эффект для получивших воздействие) — средний эффект только для тех, кто фактически получил изменение. Типичный estimand DiD.
Пример: Copilot внедрили в отдел продаж, не в маркетинг. DiD оценивает эффект для отдела продаж, не для всей компании.

LATE (локальный средний эффект) — эффект для комплаеров: тех, чьё поведение изменил инструмент. Estimand IV и RDD (у порога).
Пример: email-приглашение попробовать Copilot. LATE = эффект для тех, кто начал использовать инструмент именно благодаря приглашению.

CACE (средний причинный эффект для комплаеров) — синоним LATE.
Пример: тот же — эффект для тех, кто стал использовать инструмент именно потому, что был приглашён.

Estimand — целевая величина, которую пытается оценить эксперимент (ATE, ATT, LATE и др.). Разные методы оценивают разные estimand-ы.
Пример: A/B → ATE; DiD → ATT; IV → LATE. Один продуктовый вопрос — три разных ответа в зависимости от метода.

Estimator (оценщик) — алгоритм оценки estimand-а по данным. Один estimand может оцениваться разными estimator-ами (для ATT в DiD: TWFE-регрессия vs Callaway–Sant'Anna).
Пример: для ATT — стандартный TWFE даёт смещённую оценку при гетерогенных эффектах, Callaway–Sant'Anna — нет.

MDE (минимально обнаружимый эффект) — наименьший размер эффекта, который эксперимент способен зафиксировать при заданной мощности и α.
Пример: 10 000 пользователей на группу при baseline 5 % → MDE ≈ 0,4 п. п. Реальный эффект +0,2 п. п. тест не увидит.

Мощность (1 − β) — вероятность обнаружить реально существующий эффект. Стандарт — 80 %.
Пример: мощность 40 % → тест пропустит реальный эффект в 6 из 10 запусков. Команда решит, что фича не работает, хотя на самом деле не хватило данных.

Ошибка I рода (α, ложноположительный результат) — ложное обнаружение эффекта, которого нет. Стандарт — 5 %.
Пример: p = 0,03 → запустили фичу. Эффекта не было — просто шум. Это ошибка I рода.

Ошибка II рода (β, ложноотрицательный результат) — пропуск реально существующего эффекта. β = 1 − мощность.
Пример: реальный эффект +2 % к выручке, но тест на маленькой выборке показал p = 0,15 → команда не запустила фичу. Потеря 2 млн ₽/год.

CI (доверительный интервал) — диапазон, в который с заданной вероятностью попадает истинный эффект.
Пример: эффект = +3,2 %, CI 95 % = [+1,1 %; +5,3 %]. Эффект положителен, но может быть и +1 %, и +5 %.

p-value — вероятность получить наблюдаемую (или более экстремальную) разницу при условии, что истинного эффекта нет. Не равна вероятности того, что гипотеза верна.
Пример: p = 0,02 → «если бы эффекта не было, шанс увидеть такую разницу — 2 %», а не «вероятность отсутствия эффекта = 2 %».

Дисперсия — мера разброса метрики. Чем выше дисперсия, тем больше нужна выборка для обнаружения эффекта.
Пример: «число заказов» имеет σ = 2,3, «выручка» — σ = 450. Для того же MDE по выручке нужно в 40 раз больше пользователей.

ICC (внутрикластерная корреляция) — доля общей дисперсии, объяснимая принадлежностью к кластеру. Высокий ICC → меньше эффективный N в кластерном эксперименте.
Пример: ICC = 0,05, 20 команд по 50 человек (1000 человек) дают эффективный N ≈ 130, а не 1000.

Statistical inference (статистический вывод) — заключения о популяции по выборке: оценка параметра, CI, тестирование гипотез.
Пример: получили оценку +3,2 % с CI [1,1 %; 5,3 %] и p = 0,02 → делаем вывод о наличии положительного эффекта в популяции.

Дельта-метод — оценка дисперсии ratio-метрик (revenue / sessions). Применяется при A/B на уровне сессий.
Пример: метрика = выручка / число сессий. Нельзя просто поделить средние — нужно учесть ковариацию числителя и знаменателя. Дельта-метод даёт корректный CI.

Доля побед (winrate) — доля случаев, когда вариант A выиграл у B (или наоборот). Естественная метрика interleaving.
Пример: в interleaving алгоритм A получил клики в 1500 сессиях, B — в 1200. Winrate A = 1500/2700 ≈ 0,56.

Дизайны и методы

DiD (разность разностей) — квазиэкспериментальный метод: сравнивается изменение метрики «до/после» в группе с воздействием и в контрольной. Ключевое допущение — параллельные тренды.
Пример: Copilot в Москве (treated), Питер — без. «До»: 100 и 95. «После»: 120 и 110. DiD-эффект = (120−100) − (110−95) = 5.

Параллельность трендов — допущение DiD: без вмешательства тренды в обеих группах развивались бы параллельно. Проверяется на доэкспериментальной части.
Пример: за 6 месяцев до внедрения Москва и Питер росли на +2 ед./мес. → DiD применим. Если +5 и +1 → нарушение.

Поэтапное DiD (staggered DiD) — вариант DiD для поэтапного раската: разные группы получают воздействие в разное время.
Пример: Copilot раскатывается: январь — отдел A, март — B, июнь — C. Стандартная регрессия даёт смещённую оценку — нужны Callaway–Sant'Anna.

TWFE (двусторонние фиксированные эффекты) — стандартная регрессия для панельных данных. При гетерогенных эффектах в staggered DiD даёт смещённые оценки (парадокс отрицательных весов).
Пример: ранние когорты дают +30 %, поздние +5 %. TWFE усредняет с неверными весами; оценка может даже сменить знак.

Событийный анализ (event-study график) — визуализация эффекта по времени относительно момента вмешательства. Проверяет pre-trends и динамику эффекта.
Пример: ось X — месяцы до/после внедрения. До t = 0 — около нуля (pre-trends ок). После — рост до +15 % к месяцу 3.

Доэкспериментальные тренды (pre-trends) — тренды метрики до вмешательства. Обязательная валидация DiD: значимые pre-trends → нарушение параллельности.
Пример: коэффициенты за 6 месяцев до внедрения колеблются вокруг нуля → pre-trends ок → DiD применим.

Упреждающий эффект (anticipation effect) — изменение поведения в ожидании вмешательства ещё до его начала. Нарушает DiD.
Пример: объявили, что через месяц отдел получит Copilot. Сотрудники откладывают сложные задачи «до появления ИИ» → продуктивность падает ещё до treatment.

Синтетический контроль — метод для одной единицы: контрфакт строится как взвешенная комбинация аналогов из пула доноров.
Пример: «синтетический Сан-Франциско» = 0,3 × Лос-Анджелес + 0,2 × Сиэтл + 0,5 × Портленд. Разница реал − синт = эффект запуска.

Пул доноров — набор единиц, не затронутых вмешательством, из которых строится синтетическая копия.
Пример: для антитабачного закона в Калифорнии пул — 38 штатов без закона.

MSPE (средняя квадратичная ошибка прогноза) — качество доэкспериментальной подгонки синтетического контроля.
Пример: MSPE = 2,3 для Калифорнии и 45,0 для плацебо-штата. Калифорния воспроизведена хорошо — доверяем оценке.

Прерванный временной ряд (ITS) — оценка эффекта по изменению уровня и/или тренда ряда в момент вмешательства.
Пример: акция запущена 1 марта. До — +100 ед./нед., после — скачок +500 ед. и рост +150 ед./нед.

CausalImpact — библиотека Google для байесовского анализа прерванных рядов через BSTS с ковариатами.
Пример: оценка эффекта рекламной кампании на продажи; продажи в регионах без рекламы — ковариаты для прогноза контрфакта.

BSTS (байесовская структурная модель ряда) — основа CausalImpact: компоненты тренда, сезонности и регрессии на ковариаты.
Пример: модель раскладывает ряд на медленный рост + декабрьский пик + влияние ковариат + остаток. Прогноз после — контрфакт.

RDD (регрессионный разрыв) — квазиэксперимент с жёстким порогом: единицы чуть выше и чуть ниже порога квазислучайны.
Пример: кредит одобряют при скоринге ≥ 650. Заёмщик с 649 ≈ заёмщик с 651. Сравнение дают эффект кредита у порога.

Бегущая переменная — непрерывная переменная, определяющая попадание в группу по пороговому правилу в RDD.
Пример: балл ЕГЭ, доход, скоринговый балл.

Ширина окна (bandwidth) — в RDD: диапазон значений бегущей переменной около порога, используемый для оценки. Узкое окно — точнее, меньше данных.
Пример: порог 650, окно ±30 → анализ 620–680 баллов. Окно ±10 → 640–660: чище, но в 5 раз меньше наблюдений.

IV (инструментальные переменные) — метод, использующий «инструмент» — переменную, которая влияет на участие, но не на исход напрямую. Оценивает LATE.
Пример: расстояние до колледжа как инструмент для «обучение → зарплата». Живущие ближе чаще учатся, но расстояние не влияет на зарплату напрямую.

Условие исключения (exclusion restriction) — ключевое допущение IV: инструмент влияет на исход только через изменение статуса участия.
Пример: email-приглашение Copilot → участие → продуктивность. Если email сам мотивирует работать усерднее (даже без Copilot) — условие нарушено.

Связь с участием (relevance) — инструмент должен значимо влиять на участие. Современный порог: F > 104,7 (Lee et al., 2022); старый порог F > 10 устарел.
Пример: приглашение увеличивает использование Copilot с 10 % до 45 %, F-статистика = 85 — инструмент сильный по старому стандарту, но не дотягивает до нового.

Монотонность (monotonicity) — допущение IV: инструмент влияет на участие в одну сторону для всех (нет «дефаэров», которые делают наоборот).
Пример: для большинства людей приглашение увеличивает шанс попробовать продукт. Если для какой-то группы оно его уменьшает (раздражение от спама) — монотонность нарушена.

Комплаер — участник, выполняющий назначение: использует продукт, если приглашён; не использует, если нет. LATE — эффект именно для них.
Пример: из 1000 приглашённых 350 стали использовать Copilot. LATE — эффект для этих 350.

Compliance (соблюдение назначения) — степень, в которой участники следуют экспериментальному назначению.
Пример: 100 человек назначены «использовать Copilot», 40 ни разу не открыли. Compliance = 60 %.

DML (двойное машинное обучение) — современный метод для наблюдательных данных: две ML-модели (treatment и outcome), перекрёстная подгонка, оценка эффекта по остаткам.
Пример: модель 1 предсказывает, кто начнёт использовать Copilot, модель 2 — продуктивность. Соотношение остатков → чистый эффект.

PSM (мэтчинг по индексу склонности) — подбор пар «лечение/контроль» по вероятности попадания в группу. Критикуется (King & Nielsen, 2019) за рост дисперсии и дисбаланса.
Пример: для каждого пользователя Copilot находим «близнеца» без Copilot со схожим propensity score. После мэтчинга баланс ковариат может ухудшиться.

Перекрёстная подгонка (cross-fitting) — приём в DML: данные делятся на части, модели обучаются на одной части, предсказания делаются на другой. Предотвращает переобучение.
Пример: 5 фолдов; для каждого модели обучаются на 4 других. Итог — честные остатки без переобучения.

Область пересечения (common support) — диапазон значений ковариат, где присутствуют и treated, и control. За пределами — оценка ненадёжна.
Пример: Copilot используют только senior-разработчики. Для junior нет ни одного пользователя → за пределами common support.

Конфаундер (смешивающий фактор) — переменная, влияющая и на попадание в группу, и на исход. Создаёт ложную связь. Бывает наблюдаемым и ненаблюдаемым.
Пример: senior-разработчики чаще берут Copilot и пишут лучший код. Без коррекции эффект Copilot = эффект сениорности + реальный эффект Copilot.

Ковариата — переменная-характеристика участника (пол, регион, предыстория). Используется для коррекции, стратификации, снижения дисперсии.
Пример: в CUPED — число коммитов за прошлую неделю; в стратификации — платформа; в DML — десятки переменных.

Свитчбэк (switchback) — эксперимент, в котором вся система периодически переключается между условиями A и B. Применяется при глобальном перетекании.
Пример: DoorDash каждый час переключает алгоритм распределения курьеров. 200 переключений за 2 недели → достаточно для оценки.

Carryover-эффект (остаточный эффект) — влияние предыдущего экспериментального условия на последующее. Критичен для внутрисубъектных и свитчбэк-дизайнов.
Пример: после часа с новым алгоритмом курьеры ещё 15 минут едут по старым маршрутам. Данные следующего периода загрязнены.

Период очистки (washout) — пауза между условиями для затухания carryover.
Пример: между неделями с/без Copilot — 3 дня перерыва, чтобы участник «забыл» паттерны. Но если навык необратим — washout бесполезен.

Эффект обучения (learning effect) — необратимое изменение навыков или поведения после работы с инструментом. Делает невалидным внутрисубъектный дизайн.
Пример: разработчик неделю писал код с Copilot и научился формулировать промпты. Когда инструмент убрали, он пишет код иначе, чем до эксперимента.

Интерливинг (interleaving) — сравнение ранжировщиков перемешиванием результатов в единой выдаче. Чувствительнее A/B, но не измеряет абсолютный эффект.
Пример: позиция 1 — от A, 2 — от B, 3 — от A. Пользователь кликнул 1 и 4 (обе A) → A получает +2 победы в этой сессии.

Смещение по позиции (position bias) — склонность кликать на верхние позиции вне зависимости от релевантности.
Пример: в поиске первый результат получает CTR 35 %, десятый — 1 %. Даже нерелевантный на первой позиции собирает клики.

Многорукий бандит (MAB) — алгоритм адаптивного распределения: направляет трафик к лучшему варианту по мере накопления данных. Оптимизирует упущенную выгоду, но даёт смещённые оценки эффекта.
Пример: 4 баннера, через 2 дня 60 % трафика на лучший, 15 % на второй, по 12,5 % на худшие.

Выборка Томпсона (Thompson Sampling) — вариант бандита: для каждого варианта сэмплируется отклик из апостериорного распределения; трафик идёт к варианту с максимальным сэмплом.
Пример: априорно CTR ~ Beta(1,1). После 100 показов с 12 кликами — Beta(13,89). Сэмплируем → выбираем максимум.

Упущенная выгода (regret) — суммарная разница между откликом оптимальной стратегии и фактически полученным. Минимизируется бандитами.
Пример: если бы знали лучший вариант заранее, получили бы 100 откликов; бандит дал 92 → regret = 8.

Отложенный отклик (delayed feedback) — ситуация, когда отклик наступает с задержкой (дни, недели). Ломает обновление бандита.
Пример: бандит оптимизирует подписку. Клик сегодня, оформление через 5 дней. Бандит 5 дней считает клик «без конверсии» и снижает трафик на хороший вариант.

Off-policy evaluation — оценка эффекта политики, отличной от той, что использовалась при сборе данных. Важна для пост-анализа бандитов.
Пример: бандит распределял трафик неравномерно. Off-policy evaluation позволяет оценить, что было бы при равномерном распределении.

Причинный лес (causal forest) — метод для оценки гетерогенности эффекта (HTE): обнаруживает подгруппы со значимо различающимся эффектом.
Пример: средний эффект +5 %; causal forest нашёл, что у новичков +18 %, у опытных +1 %.

Гетерогенные эффекты (HTE) — эффект различается для разных подгрупп.
Пример: Copilot ускоряет новичков на +55 %, опытных — только на +5 %. Средний +26 % маскирует разницу.

Метрики и анализ

Основная метрика (primary) — единственный заранее выбранный показатель, по которому принимается решение.
Пример: для теста корзины primary = конверсия в покупку. Не средний чек, не глубина каталога.

Вторичные метрики (secondary) — дополнительные показатели для объяснения механизма. Не основание для решения.
Пример: primary = конверсия; secondary = средний чек, глубина каталога, время до покупки.

Защитная метрика (guardrail) — метрика-ограничитель, которая не должна ухудшиться (латентность, ошибки, SLO).
Пример: алгоритм поиска поднял CTR на +5 %, но latency P99 выросла с 200 ms до 900 ms → guardrail сработал.

SLO (целевой уровень качества сервиса) — целевой уровень качества (например, 99,9 % аптайм). Часто — guardrail-метрика.
Пример: SLO «99,95 % запросов отвечают за < 200 ms». Нарушение → блокирует запуск, даже если основная метрика выросла.

Подтверждающий анализ (confirmatory) — анализ заранее заданных гипотез и метрик. Имеет статистическую силу. Результат — основание для решения.
Пример: до запуска зафиксировано: «конверсия в B на ≥ 0,3 п. п. выше». Результат +0,5 п. п., p = 0,01 → решение подтверждено.

Разведочный анализ (exploratory) — анализ за пределами протокола. Находки — гипотезы для следующего эксперимента, не выводы текущего.
Пример: после теста аналитик нашёл сильный эффект у пользователей Android из Казани. Это гипотеза, а не результат.

Резервная группа (holdout) — доля пользователей, навсегда оставшаяся без изменения после масштабного раската. Используется для оценки долгосрочного эффекта.
Пример: фичу раскатили на 95 %, 5 % остаются на старой версии навсегда. Через 6 месяцев сравнивают retention.

Эффект новизны (novelty effect) — временный всплеск метрик из-за новизны изменения. Затухает за дни-недели.
Пример: новый виджет рекомендаций CTR 12 % в первую неделю, к четвёртой — 4 %.

Возврат к среднему (regression to the mean) — статистический эффект: экстремальные значения при повторном измерении смещаются к среднему. Имитирует эффект вмешательства.
Пример: выбрали 50 худших продавцов и отправили на тренинг. Через месяц +15 %, но это было бы и без тренинга.

Псевдорепликация — ошибка, при которой зависимые наблюдения считаются независимыми, что занижает SE и создаёт ложную значимость.
Пример: 100 пользователей сделали 50 000 запросов. Аналитик считает N = 50 000 → p = 0,0001. Эффективный N ≈ 100 → p = 0,35.

ITT (intent-to-treat) — анализ по назначению, независимо от соблюдения протокола. Сохраняет рандомизацию, даёт нижнюю границу.
Пример: 100 назначены «использовать Copilot», 40 не открыли. ITT считает всех 100 как «обработанных» → эффект занижен.

PP (per-protocol) — анализ только тех, кто выполнил протокол. Может быть смещён (compliers не случайны).
Пример: только 60 % реально использовали Copilot. PP-анализ считает только их — но они систематически другие, чем те 40 %, что не использовали.

Техники коррекции

CUPED — снижение дисперсии метрики через вычитание предсказуемой по предыстории части. Ковариата строго до начала эксперимента.
Пример: для «число заказов за неделю» берём число заказов за прошлую неделю как ковариату. При ρ = 0,7 дисперсия падает вдвое.

Стратификация — разделение выборки на страты по ключевому признаку и рандомизация внутри каждой. Гарантирует баланс по важным переменным.
Пример: страты «новые» и «старожилы». Без стратификации в B случайно попало 60 % старожилов; со стратификацией — ровно 50/50 в каждой страте.

Последовательное тестирование — методы, позволяющие многократно проверять результаты без раздувания α.
Пример: с mSPRT можно смотреть результаты ежедневно и досрочно остановить, если эффект очевиден.

Расходование α (alpha spending) — стратегия распределения допустимой α по промежуточным проверкам. O'Brien–Fleming — экономно в начале, щедрее в конце.
Пример: 4 проверки. O'Brien–Fleming: α₁ = 0,0001, α₂ = 0,004, α₃ = 0,019, α₄ = 0,043; суммарно 0,05.

mSPRT (смешанный последовательный критерий) — реализация sequential testing у Optimizely. Позволяет останавливать тест в любой момент с контролем α.
Пример: на 5-й день mSPRT показывает always valid p = 0,02 → останавливаем досрочно.

Всегда корректные p-значения (always valid) — p-значения, корректные при любом моменте остановки. Альтернатива классическим.
Пример: классический p = 0,03 на 7-й день, но если бы посмотрели на 5-й — 0,01, на 10-й — 0,08. Always valid p — корректное при любом моменте.

Поправка на множественность — корректировка p-value при проверке многих метрик/сегментов. Бонферрони (строже), Бенджамини–Хохберг (FDR).
Пример: 20 метрик с α = 0,05. Ожидаемое число ложноположительных = 1. Найдено 2 значимых — вероятно одно ложное.

FDR (доля ложных открытий) — доля ложных открытий среди объявленных значимыми. Контролируется поправкой Бенджамини–Хохберга.
Пример: 5 из 20 показали p < 0,05. После BH-поправки осталось 2 значимых; остальные 3 — вероятные ложные.

Усечение (winsorization) — замена экстремальных значений пороговым (например, 99-м перцентилем).
Пример: 99-й перцентиль выручки = 500. Пользователь с 15 000 получает 500. Среднее перестаёт зависеть от одного «кита».

Обрезание (trimming) — удаление наблюдений с экстремальными значениями. Теряет данные, в отличие от winsorization.
Пример: удаляем 1 % VIP-клиентов. Дисперсия падает, но теряем информацию о тех, кто даёт 30 % выручки.

Кластерно-устойчивые SE — стандартные ошибки, учитывающие корреляцию внутри кластеров. Не лечат спилловер, но честно показывают неопределённость.
Пример: рандомизация по пользователям, анализ по запросам. Без кластерных SE p = 0,001 (иллюзия), с ними p = 0,12 (реальность).

Wild cluster bootstrap — метод бутстрепа для оценки p-value при малом числе кластеров (10–40), когда стандартные кластерные SE ненадёжны.
Пример: 15 городов. Стандартные SE дают p = 0,04; wild cluster bootstrap — p = 0,09. Вывод меняется.

Контрбалансирование — приём для внутрисубъектных дизайнов: половина участников проходит AB, половина — BA. Защищает от эффекта порядка.
Пример: 40 разработчиков; 20 идут «без → с», 20 — «с → без». Эффект порядка усредняется.

Снижение смещения (debiasing) — общее название для приёмов уменьшения систематической ошибки оценки: cross-fitting в DML, поправки в IV, sensitivity-анализ.
Пример: cross-fitting в DML снижает смещение из-за переобучения ML-моделей; sensitivity-анализ корректирует на ненаблюдаемые конфаундеры.

Анализ чувствительности — оценка, насколько сильным должен быть ненаблюдаемый фактор, чтобы обнулить эффект.
Пример: DML показал +15 %. Чтобы обнулить, нужен ненаблюдаемый конфаундер с R² > 0,4 по обеим моделям. Маловероятно → результат устойчив.

Проверки и гигиена

SRM (нарушение соотношения групп) — несовпадение фактического распределения трафика с ожидаемым. Сигнал сломанной рандомизации; эксперимент не интерпретируется до выяснения причины.
Пример: ожидали 50/50, получили 47,3/52,7; χ² даёт p < 0,001. Расследование: баг в SDK не логировал часть iOS-пользователей в A. Все результаты невалидны.

A/A-тест — эксперимент, где обе группы получают одинаковое условие. Должен давать незначимые результаты. Используется для валидации платформы.
Пример: A/A на новой платформе показал значимость по 5 из 20 метрик (ожидание — 1 из 20) → баг в системе сплитования.

Баланс ковариат — проверка статистической одинаковости предэкспериментальных метрик между группами. Нарушение — рандомизация сломана.
Пример: средний возраст в A = 28, в B = 35 → серьёзный дисбаланс, рандомизация требует расследования.

Плацебо-тест — применение метода к единицам, заведомо не получавшим воздействия. «Эффект» там → метод невалиден в данных условиях.
Пример: для синтетического контроля Калифорнии повторяем процедуру на 38 штатах без закона. Если у 10 «эффект» больше — оценка ненадёжна.

Предрегистрация — фиксация гипотезы, метрик, дизайна и плана анализа до запуска. Защищает от подгонки p-значений и HARKing.
Пример: в Confluence до старта записано: «primary = конверсия; MDE = 0,3 п. п.; длительность = 14 дней; winsorization 99-й перцентиль; mSPRT».

Дневник эксперимента — журнал важных событий и аномалий во время эксперимента (сбои логирования, релизы конкурирующих фич, маркетинговые акции). Контекст для интерпретации.
Пример: записано «14 марта — авария в датацентре, исключаем эту дату из анализа».

Теневой режим (shadow mode) — запуск новой версии без воздействия на пользователя: считаются все метрики, но решение принимается старой версией. Проверка технической корректности перед A/B.
Пример: новый ML-скоринг гоняется параллельно со старым; пользователю выдаётся ответ старого; разница в предсказаниях логируется. Не пугая клиентов, проверяем поведение модели.

Ошибки и риски

Подгонка p-значений (p-hacking) — манипулирование анализом (выбор метрик, порогов, подгрупп) после просмотра данных для получения значимого p.
Пример: тест незначим по конверсии. Аналитик попробовал 12 сегментов, нашёл p = 0,04 для «мужчин 25–34 на Android» и презентует как открытие.

HARKing — формулирование гипотезы после получения результатов и выдача её за изначальную.
Пример: тест незначим по конверсии. Аналитик нашёл рост времени сессии и пишет «гипотеза была про вовлечённость» — как будто это была цель.

Инфляция α — увеличение реальной вероятности ложноположительного результата выше номинального уровня. От подглядывания или множественности.
Пример: ежедневный просмотр 14 дней с обычным t-тестом → реальная α = 25–30 % при номинальной 5 %.

Эффект Хоторна — изменение поведения участников из-за самого факта наблюдения.
Пример: сотрудники, знающие об исследовании продуктивности с Copilot, работают усерднее обычного. +20 % — мотивация «быть на виду», а не ценность инструмента.

Смещение из-за постэкспериментальной переменной (post-treatment bias) — смещение, возникающее при использовании переменной, затронутой экспериментом, в качестве ковариаты.
Пример: CUPED-ковариата захватила период эксперимента → вычтена часть самого эффекта; оценка занижена.

Winner's curse — смещение точечной оценки при раннем остановлении: значимый эффект на момент остановки систематически завышен.
Пример: sequential остановил тест на +15 %. Истинный эффект ближе к +8 %; разница — артефакт «удачи» в момент остановки.

Множественные сравнения — проблема: при многих метриках/сегментах вероятность ложноположительного растёт. Поправки: Бонферрони, FDR.
Пример: 20 метрик с α = 0,05 → ожидаемое число случайных значимостей = 1.

Различная длина диалогов — частая проблема в A/B на диалогах: разное среднее число запросов в диалогах двух групп искажает агрегированные метрики.
Пример: в группе B диалоги в среднем длиннее на 2 запроса → агрегаты «удовлетворённость на диалог» несравнимы без корректировки.

Социально желательные ответы — респонденты дают ответы, которые считают «правильными» с точки зрения исследователя или нормы, а не реальные.
Пример: в опросе про Copilot 90 % разработчиков отвечают «использую регулярно», логи показывают — только 35 %.

Парадокс отрицательных весов — в стандартной TWFE-регрессии для staggered DiD «ранние» когорты используются как контроль для «поздних» с отрицательными весами, что искажает оценку.
Пример: ранние +30 %, поздние +5 %. TWFE даёт средневзвешенную оценку с возможной сменой знака на отрицательную.

Опорные источники

Фундамент причинного выводаPearl & Mackenzie (2018) «The Book of Why». Rubin (1974, 1980) — потенциальные исходы и SUTVA. Hernán & Robins (2020) «Causal Inference: What If» — современный стандарт методологии.

Индустриальный стандарт A/BKohavi, Tang, Xu (2020) «Trustworthy Online Controlled Experiments» — синтез Microsoft, Google, LinkedIn (более 20 000 тестов в год). Стр. 1–50: терминология; глава 5: типичные ошибки.

Квазиэкспериментальные методыAngrist & Pischke (2009) «Mostly Harmless Econometrics». Abadie (2010, 2021) — синтетический контроль. Imbens — Нобелевская премия 2021. King & Nielsen (2019) — критика PSM.

CausalImpact и ITSBrodersen, Gallusser, Koehler, Remy, Scott (2015) — Google CausalImpact; байесовские структурные временны́е ряды (BSTS).

Доказательная база ИИ-инструментовPeng et al. (2023) — GitHub Copilot РКИ (+55 %, ДИ 21–89 %). Cui et al. (2024) — полевой эксперимент с 4 000+ разработчиков. Noy & Zhang MIT (2023). Dell'Acqua et al. BCG (2023). Aiello et al. (2024) — Microsoft Copilot.

CUPED и снижение дисперсииDeng, Xu, Kohavi, Walker (Microsoft, 2013) — оригинальный CUPED. LinkedIn (2019) — обзор техник снижения дисперсии. Многомерный CUPED++ (последующие работы Microsoft).

Современный DiDCallaway & Sant'Anna (2021). de Chaisemartin & D'Haultfœuille (2020). Sun & Abraham (2021). Goodman-Bacon (2021) — декомпозиция TWFE. Roth, Sant'Anna, Bilinski, Poe (2023) — практический обзор.

Последовательное тестированиеJohari, Pekelis, Walsh (Optimizely, 2017) — mSPRT. Wald (1945) — классический последовательный критерий. O'Brien & Fleming (1979) — alpha spending для клинических испытаний.

IV и RDDImbens & Angrist (1994) — LATE. Angrist, Imbens, Rubin (1996) — фреймворк потенциальных исходов для IV. Lee & Lemieux (2010) — RDD. Cattaneo, Idrobo, Titiunik (2020) — современный стандарт RDD. Lee, McCrary, Moreira, Porter (2022) — порог F > 104,7 для IV.

Практика в отраслиNetflix Causal Inference Summit. Microsoft ExP. DoorDash (свитчбэк, blogs). Uber Engineering (синтетический контроль, гео-эксперименты). Bojinov, Simchi-Levi, Zhao (2020) — академический анализ свитчбэка.

DML и причинный MLChernozhukov et al. (2018) — Double/Debiased ML. Athey & Imbens (2016) — causal forests для HTE. Wager & Athey (2018) — статвывод для random forests.

Кластерные SE и bootstrapCameron & Miller (2015) — практический обзор кластерных SE. Cameron, Gelbach, Miller (2008) — wild cluster bootstrap. Roodman, MacKinnon, Nielsen, Webb (2019) — современная реализация.

Перемежение (interleaving)Chapelle, Joachims, Radlinski, Yue (2012) — обзор методов перемежения. Радлинский и Крафт — теоретическая база метода.

Многорукий бандитThompson (1933) — оригинальная работа. Lattimore & Szepesvári (2020) «Bandit Algorithms» — современный учебник. Bietti, Agarwal, Langford (2018) — практика contextual bandits.

Дельта-метод для ratio-метрикDeng, Knoblich, Lu (Microsoft, 2017) — дельта-метод для ratio-метрик в онлайн-экспериментах.

Sensitivity к ненаблюдаемымRosenbaum (2002) «Observational Studies» — Rosenbaum bounds. VanderWeele & Ding (2017) — E-value как мера устойчивости.

Качественные методыBraun & Clarke (2006) — тематический анализ как стандарт кодирования. Microsoft Developer Velocity Lab — дневниковое исследование Copilot.

ИнструментыPython: statsmodels, EconML, causalml, dowhy, SyntheticControlMethods, linearmodels (для IV). R: did (Callaway–Sant'Anna), rdrobust, MatchIt, sandwich, lme4, fixest, synth. Google CausalImpact (R и Python).

Карта методов
экспериментирования

С чего начать

Карта 16 методов

Как устроен раздел

Выбрать метод

Калибровка строгости

Усилить дизайн

Запустить корректно

Чек-лист эксперимента

Строгость по цене ошибки

Формулы расчёта выборки

Формулы первого порядка

Шпаргалка для типовых случаев

Защитить решение

Принципы зрелого подхода

Антипаттерны

Источники путаницы

Образцы применения

Основы причинности

Лестница причинности

Хронология идей

Волна I — эксперимент в науке (1748—1925)

Волна II — эксперимент в крупной индустрии (1948—2010)

Волна III — эксперимент массово (2012—сейчас)

Глоссарий и источники

Карта методовэкспериментирования

С чего начать

Карта 16 методов

Как устроен раздел

Выбрать метод

Калибровка строгости

Усилить дизайн

Запустить корректно

Чек-лист эксперимента

Строгость по цене ошибки

Формулы расчёта выборки

Формулы первого порядка

Шпаргалка для типовых случаев

Защитить решение

Принципы зрелого подхода

Антипаттерны

Источники путаницы

Образцы применения

Основы причинности

Лестница причинности

Хронология идей

Волна I — эксперимент в науке (1748—1925)

Волна II — эксперимент в крупной индустрии (1948—2010)

Волна III — эксперимент массово (2012—сейчас)

Глоссарий и источники

Карта методов
экспериментирования