01Метод
Классический A/B-тест
внутр.·внешн.
Назначение
Средний эффект воздействия (ATE — Average Treatment Effect) от внедрения варианта B по сравнению с вариантом A для заранее выбранной метрики.
Когда применять
Полная рандомизация по пользователям; достаточный объём выборки (обычно — тысячи участников на группу, но зависит от дисперсии и минимально обнаруживаемого эффекта, MDE); отсутствие перетекания эффекта между тестовой и контрольной группами.
Единицы анализа
Воздействие, рандомизация и анализ должны проводиться на одном уровне. Если анализ выполняется на более низком уровне — требуются кластерные поправки.
Главный риск
Недостаточная статистическая мощность или высокая шумность метрики — из-за этого незначимый результат могут ошибочно принять за отсутствие эффекта.
Как избежать
CUPED, стратификация, последовательное тестирование, проверка соотношения групп (SRM), защитные метрики (guardrail).
Длительность
До достижения необходимой мощности и покрытия недельной цикличности. Обычно — 2–4 недели; для оценки удержания — 6–12 недель.
Примеры
Google Поиск, Booking.com, Netflix (UI), Microsoft Office, Яндекс.
Не применять: если невозможно обеспечить рандомизацию без перетекания эффектов; если MDE при доступной выборке превышает бизнес-значимый эффект; для оценки долгосрочных метрик при коротком периоде наблюдения.
Как объяснить
Готовая формулировка«Это золотой стандарт причинного вывода в продукте: полная рандомизация по пользователям, ATE как оценщик, проверки SRM и баланса до интерпретации. Главный риск — не сам метод, а недостаточная мощность; поэтому до запуска фиксируем MDE и считаем выборку».
Острые вопросы«Что если SRM провалился?» / «Чем CUPED отличается от стратификации?» / «Как оценить долгосрочный эффект коротким A/B?» / «Почему незначимый результат ≠ нет эффекта?» / «Что делает p-value 0,049 после 10 проверок?»
Ключевые источникиKohavi, Tang, Xu (2020) «Trustworthy Online Controlled Experiments» — синтез Microsoft, Google, LinkedIn (20 000+ тестов в год). Deng, Xu, Kohavi, Walker (Microsoft, 2013) — CUPED.
02Метод
A/B-тест на уровне запросов
для компонентов
Назначение
Средний эффект на уровне отдельного запроса. Подходит для компонентных метрик (латентность, релевантность, точность ранжирования), но не для оценки сквозного пользовательского опыта.
Когда применять
Большое количество запросов; изменения скрыты от сквозного UX; рандомизация по пользователям или по сессиям, анализ на уровне запросов с обязательной кластерной поправкой стандартных ошибок по пользователю.
Главный риск
Псевдорепликация — запросы от одного пользователя коррелируют между собой; без кластерной поправки это создаёт иллюзию большой выборки и приводит к ложно значимым p-value.
Как избежать
Кластерные стандартные ошибки с группировкой по пользователю; стратификация по типу запроса и интенсивности использования; при малом числе кластеров — wild cluster bootstrap.
Примеры
Google Поиск, Bing, кредитный скоринг, внутренние компоненты поиска в Copilot.
Не применять: если запросы связаны в рамках одного диалога (выбор — карточка 3); для оценки пользовательского опыта; без кластерной поправки при неравномерной активности пользователей.
Как объяснить
Готовая формулировка«Запросный A/B даёт огромную статистическую мощность для компонентных метрик, но запросы внутри пользователя коррелированы — без кластерных SE по пользователю получаем псевдорепликацию и ложные позитивы. Анализ ниже уровня рандомизации — только с кластерной поправкой».
Острые вопросы«Почему нельзя считать каждый запрос независимым?» / «Что такое ICC и как он влияет на мощность?» / «Когда выбор перейти на уровень диалога?» / «Что если кластеров меньше 30?»
Ключевые источникиCameron & Miller (2015) — практический обзор кластерных SE. Roodman et al. (2019) — wild cluster bootstrap для малого числа кластеров.
03Метод
A/B-тест на уровне диалогов / сессий
Назначение
Средний эффект на уровне изолированного диалога или сессии.
Когда применять
Запросы зависят друг от друга в рамках одного диалога, но диалоги одного пользователя относительно независимы; есть чёткие границы диалога; метрика естественно агрегируется по диалогу.
Главный риск
Различная длина или плотность диалогов между группами; перенос опыта между диалогами одного пользователя (learning effect).
Как избежать
Дельта-метод для ratio-метрик (например, «успешные диалоги / все диалоги»); стратификация по типу задачи; кластеризация по пользователю при большом числе диалогов на одного человека.
Примеры
Copilot для SQL, диалоговые помощники, чат-боты поддержки.
Не применять: если границы диалога размыты; если навыки или опыт необратимо переносятся между диалогами (валиден кластерный РКИ или DiD).
Как объяснить
Готовая формулировка«Когда запросы внутри диалога зависимы, но сами диалоги достаточно независимы, единица анализа — диалог. Для ratio-метрик типа „успешные диалоги / все“ нужен дельта-метод, иначе обычный CLT даёт смещённые доверительные интервалы».
Острые вопросы«Чем дельта-метод отличается от бутстрепа?» / «Что если диалоги разной длины?» / «Когда учитывать обучение пользователя как смешивающий фактор?»
Ключевая ссылкаDeng et al. (2017) — дельта-метод для ratio-метрик в онлайн-экспериментах (Microsoft).
04Метод
Лабораторный РКИ
внутр.·внешн.
Назначение
Эффект в контролируемых условиях. Обеспечивает высокую внутреннюю валидность причинного вывода, но результаты могут плохо переноситься на реальную среду использования.
Когда применять
20–100 участников; задачи сопоставимы по сложности; контролируемая среда проведения.
Варианты
Межсубъектный: разные участники — разные условия. Внутрисубъектный: каждый участник проходит через оба условия. Важно: «лабораторный РКИ» — это условие проведения; «внутрисубъектный» — это схема распределения условий. Понятия независимы.
Главный риск
Слабая внешняя применимость; эффект наблюдения (эффект Хоторна); для внутрисубъектного дизайна — необратимый эффект обучения (learning effect), особенно при ИИ-инструментах.
Как избежать
Контрбалансирование порядка (ABBA / BAAB); период очистки между условиями, если эффект обратим; слепая оценка результата; пилотное тестирование на понятность задач; контрольная задача.
Примеры
Peng et al. (2023): GitHub Copilot, сокращение времени выполнения задачи примерно на 55 % (точечная оценка; 95 % ДИ примерно от 21 % до 89 %). Dell'Acqua et al. BCG (2023). Noy & Zhang MIT (2023). При защите вывода всегда упоминать диапазон доверительного интервала, а не только точечную оценку.
Не применять в одиночку: для принятия решений о масштабном запуске; при наличии необратимого обучающего эффекта внутрисубъектный дизайн невалиден — используйте межсубъектный или комбинируйте с долгим A/B.
Как объяснить
Готовая формулировка«Лабораторный эксперимент даёт максимальную внутреннюю валидность при малой выборке, но слабую внешнюю. Цифру „+55 %“ из Peng et al. всегда даю с доверительным интервалом 21–89 % — точечная оценка без него вводит в заблуждение. Для решения о масштабировании одного лабораторного эксперимента недостаточно: нужна триангуляция с данными из реальной эксплуатации».
Острые вопросы«Почему ваши участники не репрезентативны?» / «Что с эффектом наблюдения?» / «Можно ли использовать внутрисубъектный дизайн для ИИ-помощника?» (нет — learning effect необратим) / «Почему вы поверили Peng et al., если выборка 95 человек?»
Ключевые источникиPeng et al. (2023) — GitHub Copilot RCT. Dell'Acqua et al. (2023) — BCG. Cui et al. (2024) — 4000+ разработчиков в полевом эксперименте.
05Метод
Кластерный эксперимент
Назначение
Средний эффект воздействия (ATE) при рандомизации на уровне кластеров — команд, городов, регионов.
Когда применять
Наличие локального эффекта перетекания (spillover) внутри групп; для надёжной классической оценки желательно 40+ кластеров; при 10–40 — со специальными поправками (бутстреп с кластерной перестановкой, wild cluster bootstrap); ниже 10 кластеров метод теряет мощность критически.
Главный риск
Катастрофическая потеря мощности из-за внутрикластерной корреляции (ICC). Эффективный размер выборки определяется числом кластеров, а не количеством людей внутри них.
Как избежать
Стратификация кластеров по размеру и характеристикам при рандомизации; смешанные модели с случайными эффектами кластера; кластерные стандартные ошибки; wild cluster bootstrap при малом числе кластеров.
Примеры
Гео-эксперименты DoorDash и Uber; внедрение Copilot по командам разработки; A/B-тесты по магазинам у ритейлеров.
Не применять: если число кластеров менее 10 (тест теряет мощность; альтернатива — синтетический контроль); без стратификации при сильно разнородных группах.
Как объяснить
Готовая формулировка«Когда внутри группы есть эффект перетекания, рандомизировать ниже уровня группы нельзя. Эффективная выборка — число кластеров, а не пользователей. При 40+ кластерах работают классические кластерно-устойчивые SE; при 10–40 — бутстреп с кластерной перестановкой (wild cluster bootstrap); ниже 10 — лучше синтетический контроль».
Острые вопросы«Что такое ICC и как он влияет на расчёт мощности?» / «Почему 1000 пользователей в 10 кластерах ≠ 1000 пользователей в 1000 кластерах?» / «Чем бутстреп с кластерной перестановкой лучше обычного при малом числе кластеров?»
Ключевые источникиCameron, Gelbach, Miller (2008) — bootstrap для кластерных данных. Athey & Imbens (2017) — обзор гео-экспериментов.
06Метод
Свитчбэк-эксперимент (временно́е переключение)
Назначение
Средний эффект воздействия (ATE) при глобальном перетекании, когда в каждый момент времени вся система работает в одном условии (A или B).
Когда применять
Глобальное перетекание эффектов (общий кэш, пул ресурсов, маркетплейс, динамическое ценообразование); 20+ переключений для минимальной мощности, 50+ — для надёжных оценок; длительность одного окна больше времени затухания carryover-эффекта.
Главный риск
Carryover-эффект — влияние условий периода T на период T+1; систематические эффекты времени суток и дня недели, маскирующие сигнал.
Как избежать
Увеличение длины окна наблюдения до времени затухания carryover; введение «промывочных» периодов (wash-out); случайный порядок переключений; блокировка по часу / дню; учёт календарных эффектов в модели.
Примеры
Логистика DoorDash, ценообразование Uber, ИИ-системы с общим кэшем.
Не применять: при долгом или необратимом carryover-эффекте; при слишком малом числе переключений (< 20); при сильной нестационарности системы.
Как объяснить
Готовая формулировка«Когда A/B-группы не изолированы (маркетплейс, общий кэш, ценообразование), классический A/B даёт смещённую оценку — обе группы влияют друг на друга через систему. Свитчбэк делает условием весь рынок целиком в каждый момент времени; главный враг — carryover, поэтому окна должны быть длиннее периода затухания эффекта».
Острые вопросы«Как выбрать длину окна?» / «Что делать с сезонностью в часе и дне?» / «Какая минимальная мощность при 20 переключениях?» / «Чем свитчбэк отличается от ITS?»
Ключевые источникиBojinov, Simchi-Levi, Zhao (2020) — анализ свитчбэк-экспериментов. Кейсы DoorDash и Uber Engineering blogs.
07Метод
Перемежение (interleaving)
для ранжировщиков
Назначение
Относительное предпочтение одного ранжировщика над другим в рамках единой выдачи (доля побед). Не измеряет абсолютный эффект на бизнес-метрики.
Когда применять
Задача — ранжирование (поиск, рекомендации); результаты двух алгоритмов перемешиваются в единую выдачу; есть надёжный сигнал кликов или взаимодействия.
Варианты
Team-draft: алгоритмы «выбирают» результаты по очереди, метим, чей вклад выше. Balanced: сравнение долей побед при балансировке позиций.
Главный риск
Смещение по позиции (position bias) — пользователи чаще кликают на верхние результаты; выигрыш по кликам не означает выигрыш по выручке или удержанию.
Примеры
Netflix, Bing, Яндекс Поиск, Spotify.
Не применять: для задач вне ранжирования; для абсолютной оценки влияния на бизнес-метрики (всегда сочетать с классическим A/B на ключевой метрике).
Как объяснить
Готовая формулировка«Перемежение быстрее и чувствительнее, чем A/B, для сравнения ранжировщиков: пользователь сам „голосует“ кликом в общей выдаче. Но это только доля побед — для решения о масштабировании нужен A/B на бизнес-метрике, потому что выигрыш по кликам не равен росту удержания или выручки».
Острые вопросы«Чем team-draft отличается от balanced?» / «Как боретесь с position bias?» / «Почему алгоритм выиграл interleaving, но проиграл A/B?»
Ключевые источникиChapelle et al. (2012) — обзор методов перемежения. Радлинский и Крафт — теоретическая база метода.
08Метод
Многорукий бандит
оптимизация·— не оценивает размер эффекта
Назначение
Это метод адаптивной оптимизации, а не метод оценки размера эффекта. Минимизирует упущенную выгоду (regret), направляя трафик к лучшему варианту по мере набора данных.
Когда применять
Три и более вариантов; быстрый и надёжный отклик; цель — выбрать лучший вариант в реальном времени; нет требования к строгой оценке размера эффекта.
Главный риск
Смещённые оценки нелидирующих вариантов — трафик уходит к победителю, проигравшие варианты не получают достаточной оценки. Для статистического вывода после адаптивного распределения требуются специальные методы (off-policy evaluation, doubly robust).
Как избежать
Гибридный дизайн: фиксированная доля трафика на классический A/B + бандит на остальном; off-policy evaluation для пост-анализа; ограничение скорости адаптации.
Примеры
Рекомендательные системы, персонализация заголовков, выбор баннера; Pinterest, Spotify.
Не применять: когда нужна точная оценка эффекта; при отложенном отклике (delayed feedback); для принятия решения «масштабировать ли решение» — дополнять классическим A/B на фиксированной доле трафика.
Как объяснить
Готовая формулировка«Бандит — это про оптимизацию во время эксперимента, а не про оценку эффекта после. Если задача — найти лучший вариант из десяти заголовков с быстрым откликом, бандит идеален; если нужно сказать, насколько B лучше A, — нужен A/B. Часто комбинируют: фиксированная доля на classic A/B + бандит на остальном».
Острые вопросы«Чем Thompson Sampling отличается от UCB?» / «Что делает бандит при отложенном отклике?» / «Как оценить ATE после адаптивного распределения?» / «Почему нельзя „бандитом всё“?»
Ключевые источникиThompson (1933) — оригинальная работа. Lattimore & Szepesvári (2020) — современный учебник. Bietti, Agarwal, Langford (2018) — практика contextual bandits.
09Метод
Метод «разность разностей» (Difference-in-Differences, DiD)
Назначение
Средний эффект для группы, получившей воздействие (ATT — Average Treatment Effect on the Treated): сравнение изменения метрики «до → после» в группе с вмешательством и в контрольной группе.
Когда применять
Рандомизация невозможна; одна группа получила изменение, похожая — нет; доэкспериментальная история не менее 8 точек для проверки трендов (12+ — для надёжной оценки); состав групп стабилен в течение периода наблюдения.
Главный риск
Нарушение допущения о параллельности доэкспериментальных трендов; одновременные шоки в момент вмешательства; упреждающие эффекты (anticipation); перетекание между группами.
Как избежать
Визуальная и статистическая проверка трендов; плацебо-тесты на доэкспериментальном периоде; построение event-study графика (событийный анализ); включение ковариат при подозрении на дисбаланс по характеристикам.
Примеры
Card & Krueger (1994) — эффект минимальной зарплаты в Нью-Джерси относительно Пенсильвании. Запуск UberX в одном городе vs соседний без сервиса. Внедрение Copilot в одном подразделении компании vs аналогичное без внедрения.
Не применять: если доэкспериментальные тренды непараллельны (нужны DML/синтетический контроль); при крупных одновременных событиях, затрагивающих только одну из групп; при сильном перетекании между группами.
Как объяснить
Готовая формулировка«DiD — квазиэксперимент, когда рандомизация невозможна и есть похожая контрольная группа. Главное допущение — параллельные доэкспериментальные тренды; проверяем его на event-study графике и плацебо-тестами. Оцениваемая величина — ATT, эффект для тех, кто получил воздействие, а не общий ATE».
Острые вопросы«А если тренды непараллельны?» / «А если воздействие изменило сам состав группы?» / «Чем DiD отличается от простой регрессии с дамми?» / «Почему ATT, а не ATE?» / «Что делать при одновременном шоке только в treated-группе?»
Ключевые источникиCard & Krueger (1994) — каноническая работа. Roth, Sant'Anna, Bilinski, Poe (2023) — современный обзор: где DiD ломается и как это лечить.
10Метод
Поэтапное внедрение (Staggered DiD)
Назначение
Средний эффект по когортам внедрения с учётом гетерогенности эффекта во времени и между когортами.
Когда применять
Инструмент или функция внедряется по группам в плановой последовательности. Порядок внедрения должен быть либо случайным, либо явно учитываться как источник смещения; для каждой когорты есть период «до» и «после».
Главный риск
Парадокс отрицательных весов в стандартной TWFE-регрессии: «ранние» когорты используются как контроль для «поздних», что усредняет эффекты с неверными весами и иногда меняет знак итоговой оценки.
Как избежать
Современные оценщики: Каллауэй–Сант'Анна (2021), де Шазмартен–Д'Олтфёй (2020), Сан–Абрахам (2021); event-study график для проверки доэкспериментальных трендов и динамики эффекта по когортам; декомпозиция Гудмана-Бэйкона для диагностики «больных» сравнений.
Примеры
Расширение продукта по странам (запуск Uber по городам); поэтапное внедрение Copilot по отделам крупной компании; внедрение функции по регионам с разными датами начала.
Не использовать стандартную TWFE-регрессию при гетерогенных эффектах — только современные оценщики (Callaway–Sant'Anna и аналоги). Это та ошибка, на которой ловят 90 % аналитиков, не знакомых с обновлениями 2020–2021 гг.
Как объяснить
Готовая формулировка«Когда внедрение идёт волнами, стандартный TWFE даёт смещённую оценку — это известный с 2020 года парадокс отрицательных весов. Использую современные оценщики типа Callaway–Sant'Anna, которые корректно строят группы сравнения по когортам и моментам времени, и проверяю динамику через event-study».
Острые вопросы«Что такое парадокс отрицательных весов?» / «Чем Callaway–Sant'Anna отличается от Sun–Abraham?» / «Что делать, если порядок внедрения неслучайный?» / «Зачем декомпозиция Goodman-Bacon?»
Ключевые источникиCallaway & Sant'Anna (2021); Goodman-Bacon (2021) — декомпозиция; de Chaisemartin & D'Haultfœuille (2020); Sun & Abraham (2021).
11Метод
Метод синтетического контроля
Назначение
Эффект для одной уникальной единицы (региона, страны, крупной компании) через сравнение с «синтетической копией» — взвешенной комбинацией единиц из пула аналогов, точно воспроизводящей доэкспериментальную динамику целевой единицы.
Когда применять
Одна единица получила изменение; пул из 5+ аналогов (20+ — для надёжной оценки), не затронутых вмешательством; доэкспериментальная история не менее 12 точек данных; известные характеристики единиц для подбора весов.
Суть метода
Строится взвешенная комбинация единиц пула, которая воспроизводит предысторию целевой единицы. В отличие от DiD, метод не предполагает строго параллельные тренды, но требует хорошего качества доэкспериментальной подгонки (pre-fit) — это более сильное требование, а не более слабое. Плохой pre-fit делает метод неприменимым.
Главный риск
Плохая доэкспериментальная подгонка (высокая MSPE) — синтетическая копия не воспроизводит реальную единицу до вмешательства, поэтому разница «после» не интерпретируется как эффект; переобучение на короткой истории; перетекание эффекта на единицы пула.
Как избежать
Статистический вывод через плацебо-перестановки (permutation tests) по единицам пула; проверка отношения MSPE «после/до»; визуальная проверка качества подгонки; исключение из пула единиц со схожим вмешательством.
Примеры
Abadie, Diamond & Hainmueller (2010) — антитабачный закон в Калифорнии. Запуск Uber/Lyft в новых городах. Оценка эффекта Brexit на ВВП Великобритании.
Не применять: при пуле аналогов менее 5 единиц; при плохом качестве доэкспериментальной подгонки; при перетекании эффекта на единицы пула; для краткосрочных эффектов на коротких рядах.
Как объяснить
Готовая формулировка«Когда есть всего одна единица с вмешательством и пул аналогов, синтетический контроль строит „синтетическую копию“ — взвешенную комбинацию аналогов, воспроизводящую предысторию. Часто думают, что метод слабее требует параллельных трендов, но это наоборот: он требует хорошей доэкспериментальной подгонки, а это более сильное условие. Статвывод — через плацебо-перестановки».
Острые вопросы«Чем синтетический контроль отличается от DiD?» / «Что такое MSPE и как её интерпретировать?» / «Что делать с короткой предысторией?» / «Как доказать значимость эффекта без классических p-value?»
Ключевые источникиAbadie, Diamond, Hainmueller (2010) — каноническая работа. Abadie (2021) — современный обзор методологии и расширений.
12Метод
Прерванный ряд (ITS / CausalImpact)
простой ITS·BSTS + ковариаты
Назначение
Отклонение наблюдаемого временного ряда от прогноза контрфакта после момента вмешательства. CausalImpact (Google) использует байесовскую структурную модель временного ряда (BSTS) с ковариатами.
Когда применять
Изменение затрагивает одну единицу; доэкспериментальная история не менее 12 точек; желательно наличие контрольных временных рядов (ковариат), не затронутых вмешательством. Без контрольных рядов метод плохо защищён от одновременных событий.
Главный риск
Смешивающие факторы в момент внедрения — их влияние приписывается эффекту вмешательства; возврат к среднему; ложная сезонность.
Как избежать
Включение контрольных рядов в качестве регрессоров; проверка стабильности модели на доэкспериментальной части; плацебо-моменты вмешательства; сравнение с альтернативными моделями (с / без сезонности).
Примеры
Анализ рекламных кампаний Google AdWords (CausalImpact). Оценка эффекта от ограничения курения в общественных местах. Оценка влияния маркетинговых акций на продажи бренда.
Не применять в одиночку для решений с высокой ценой ошибочного решения; при доэкспериментальной истории менее 12 точек; без контрольных рядов вывод существенно слабее (по сути — простой анализ прерванного временного ряда, ITS).
Как объяснить
Готовая формулировка«CausalImpact — это байесовский ITS с ковариатами: строит контрфакт по доэкспериментальной части ряда и контрольным рядам, оценивает разницу „факт − контрфакт“ с 95 % CI. Без контрольных рядов метод не отличает эффект от одновременных шоков; с ними — становится защитимой оценкой, особенно для маркетинговых кампаний».
Острые вопросы«Чем CausalImpact отличается от обычной ARIMA?» / «Что если контрольные ряды сами затронуты?» / «Как выбрать момент окончания эффекта?» / «Почему байесовский подход здесь удобнее?»
Ключевой источникBrodersen, Gallusser, Koehler, Remy, Scott (2015) — оригинальная работа Google по CausalImpact и BSTS.
13Метод
Метод регрессионного разрыва (RDD)
у порога
Назначение
Локальный средний эффект для единиц, находящихся вблизи порога (LATE — Local Average Treatment Effect). Эффект не переносится далеко от порога — это локальная оценка по построению.
Когда применять
Доступ к программе или услуге определяется строго по непрерывной переменной (бегущей переменной) и жёсткому порогу; единицы вблизи порога сопоставимы между собой; нет манипуляции значениями переменной у порога.
Главный риск
Манипуляция бегущей переменной — участники искусственно подгоняют значение к порогу; чувствительность оценки к выбору ширины окна; малое число наблюдений у порога.
Проверки
Тест МакКрэри (McCrary density test) — отсутствие скачка плотности у порога; непрерывность ковариат у порога (плацебо-проверка); анализ чувствительности оценки к ширине окна; визуализация скачка в самой метрике.
Примеры
Стипендия по баллу ЕГЭ (порог = N баллов). Кредитный скоринг (одобрение при score ≥ X). Программы лояльности с порогом по сумме покупок.
Не применять: для оценки эффекта далеко от порога; при подозрении на манипуляцию бегущей переменной; при разрывной плотности у порога; на малых данных у порога (менее 100 наблюдений в узком окне).
Как объяснить
Готовая формулировка«RDD работает, когда статус „получил/не получил“ определяется жёстким порогом по непрерывной переменной. Заёмщик со скорингом 649 почти идентичен заёмщику с 651, но их судьбы разные — это даёт квазислучайность у порога. Оцениваю LATE именно у порога, обязательно проверяю McCrary density test и чувствительность к ширине окна».
Острые вопросы«Почему эффект только локальный?» / «Что такое sharp vs fuzzy RDD?» / «Как выбрать ширину окна?» / «Что если есть манипуляция у порога?»
Ключевые источникиLee & Lemieux (2010) — каноническая работа. Cattaneo, Idrobo, Titiunik (2020) — современный стандарт практики (rdrobust в R/Python).
14Метод
Метод инструментальных переменных (IV)
слабый инструмент·сильный инструмент
Назначение
LATE / CACE — локальный средний эффект для комплаеров (тех, чьё поведение фактически изменил инструмент), а не общий ATE. Это разные величины: один и тот же продукт может иметь разный LATE и ATE.
Когда применять
Есть инструмент, влияющий на участие в программе, но не на исход напрямую. Три ключевых допущения: связь с участием (relevance — инструмент значимо влияет на участие), условие исключения (exclusion restriction — инструмент влияет на исход только через участие), монотонность (monotonicity — инструмент не создаёт «дефаэров»).
Суть метода
Случайно распределяем не само воздействие, а приглашение воспользоваться им. Применимо там, где нельзя обязать участвовать (опт-ин, рассылка, добровольная программа).
Главный риск
Слабый инструмент — даёт неустойчивые оценки и смещение в сторону OLS даже при малом нарушении exclusion. Современный стандарт после Lee, McCrary, Moreira, Porter (2022): F-статистика первой ступени должна быть не ниже 104,7 для надёжного 5 %-доверительного интервала (старый порог F > 10 устарел и больше не считается достаточным).
Как избежать
Проверка F-статистики первой ступени по новому стандарту; тесты на нарушение exclusion restriction; sensitivity analysis к слабому нарушению exclusion; явное обсуждение, для каких комплаеров справедлив эффект.
Примеры
Случайное email-приглашение попробовать новый продукт. Расстояние до колледжа как инструмент для эффекта высшего образования на зарплату (Angrist–Krueger). Лотерея зачисления в школу как инструмент для эффекта школы.
Не применять: при F-статистике первой ступени ниже современного порога; при сомнениях в выполнении exclusion restriction; без чёткого понимания, что оценка относится только к комплаерам и не равна общему ATE.
Как объяснить
Готовая формулировка«IV — это про ситуацию „пригласить можно, обязать нельзя“. Случайно распределяем приглашение, оцениваем эффект для комплаеров. Главное — три допущения: связь с участием, условие исключения и монотонность. Современный стандарт силы инструмента — F > 104,7 после Lee et al. (2022), старый порог F > 10 уже не считается надёжным».
Острые вопросы«Чем LATE отличается от ATE?» / «Что такое exclusion restriction и как его проверить?» / «Почему слабый инструмент опасен?» / «Кто такие always-takers, never-takers, compliers?» / «Что если инструмент сам коррелирует с конфаундером?»
Ключевые источникиImbens & Angrist (1994) — определение LATE. Angrist, Imbens, Rubin (1996) — фреймворк потенциальных исходов для IV. Lee, McCrary, Moreira, Porter (2022) — современный порог F > 104,7.
15Метод
DML и мэтчинг по склонности (PSM)
DML·PSM
Назначение
ATE или ATT на наблюдательных данных с поправкой на наблюдаемые ковариаты. DML использует две ML-модели (одна предсказывает воздействие, другая — исход) и соотносит остатки для оценки эффекта. PSM подбирает пары «лечение–контроль» по вероятности попадания в группу.
Когда применять
Имеются только наблюдательные данные (рандомизация невозможна или этически недопустима); подробные характеристики участников; добровольное участие; достаточное пересечение распределений ковариат между группами (область пересечения, common support).
Главный риск
Ненаблюдаемые смешивающие факторы — оба метода контролируют только то, что измерено; никакие ML-фокусы не решают проблему ненаблюдаемого. King & Nielsen (2019) критикуют именно мэтчинг по индексу склонности (PSM) за рост дисперсии и парадоксальное усиление дисбаланса после мэтчинга — критика не относится к мэтчингу в целом (например, mahalanobis matching и coarsened exact matching этой проблемы не имеют).
Как избежать
Для DML: перекрёстная подгонка (cross-fitting) для предотвращения переобучения; проверка области пересечения (common support). Для PSM: проверка баланса ковариат после мэтчинга; sensitivity-анализ. Для обоих методов: анализ чувствительности к ненаблюдаемым конфаундерам (например, Rosenbaum-bounds или E-value).
Примеры
Оценка эффекта образовательных программ. Эпидемиология. Наблюдательный анализ долгосрочных эффектов фичей у Netflix. Оценка эффекта Copilot по логам без A/B.
Не применять: для решений с высокой ценой ошибки в одиночку; вместо рандомизированного эксперимента, когда он возможен. PSM — только при невозможности применения DML или других современных методов; никогда — как метод первого выбора.
Как объяснить
Готовая формулировка«DML — современный стандарт для наблюдательных данных: две ML-модели, перекрёстная подгонка, оценка чистого эффекта по остаткам. Главное ограничение — корректирует только наблюдаемые конфаундеры, поэтому всегда добавляю анализ чувствительности к ненаблюдаемым. PSM держу в уме как ограниченную альтернативу: King–Nielsen (2019) показали, что PSM может усиливать дисбаланс — это критика конкретно propensity score matching, а не идеи мэтчинга в целом».
Острые вопросы«Чем DML отличается от обычной OLS с ковариатами?» / «Что такое перекрёстная подгонка и зачем она нужна?» / «Почему PSM критикуют?» / «Как делать sensitivity к ненаблюдаемым?» / «Что такое common support?»
Ключевые источникиChernozhukov et al. (2018) — Double/Debiased ML. King & Nielsen (2019) — критика PSM. Athey & Imbens (2017) — обзор для прикладников.
16Метод
Качественные исследовательские методы
причинный вывод·понимание механизма
Назначение
Не размер эффекта, а механизм: почему и для кого работает решение, какие есть барьеры, как меняется восприятие. Незаменимы для генерации гипотез, объяснения аномалий и интерпретации количественных результатов.
Когда применять
Необходимо понять то, что плохо измеряется количественно: качество суждений, изменение восприятия, причины отказа от использования, паттерны взаимодействия с инструментом.
Главный риск
Субъективное смещение исследователя и социально желательные ответы; низкая воспроизводимость; малая выборка не позволяет оценить распределение явления в популяции.
Как избежать
Структурированный гайд интервью; независимое кодирование транскриптов несколькими исследователями; триангуляция с количественными данными; контрольные вопросы для выявления социально желательных ответов.
Примеры
Дневниковое исследование Microsoft Copilot (более 200 инженеров) — выявило паттерны использования и барьеры. UX-тесты на этапе прототипа. Опросы разработчиков (Stack Overflow, GitHub Developer Survey).
Не применять в одиночку для обоснования размера эффекта или решений о масштабном внедрении. Всегда сочетать с количественными методами в рамках триангуляции методов.
Как объяснить
Готовая формулировка«Качественные методы — это не „слабый эксперимент“, а другой инструмент: они отвечают на „почему и как“, а не на „насколько“. В зрелой триангуляции дневники и интервью объясняют расхождения между лабораторным и реальным эффектом, генерируют гипотезы для следующего A/B и помогают понять, какие сегменты теряем».
Острые вопросы«Как защищаетесь от субъективности интервью?» / «Почему 30 интервью — это не выборка?» / «Когда качественное исследование уместнее количественного?» / «Как кодировать транскрипты воспроизводимо?»
Ключевые источникиMicrosoft Developer Velocity Lab — дневниковое исследование Copilot. Braun & Clarke (2006) — thematic analysis как стандарт кодирования.