Статистическая значимость не имеет юридической силы или Как появляется воображаемый прирост (Часть 1)
проводите A / B тестирование, выбираете победителя и планируете изменения в
работе ресурса. Несмотря на то, что лучший вариант продемонстрировал 25%
прирост, вы не получаете таких результатов после редизайна. В лучшем случае, вы откатываетесь к начальным
показателям.
прироста, невзирая на высокий уровень статистической значимости, полученные
результаты не были достаточно обоснованы, что сделало их шаткой опорой для
обновления вашего ресурса.
статистической значимости не является причиной для прекращения теста
еще не означает, что вы владеете выигрышным вариантом. Вот один из таких
примеров:
провал Варианта 1: получив на 90% меньше посетителей, этот вариант имеет ровно
ноль шансов победить контрольную версию.
результат обладает высоким уровнем статистической значимости (99,4%), что вы
можете легко проверить на любом калькуляторе A/B тестов. Например, на этом:
уверенностью позволяет утверждать, что контрольный вариант демонстрирует
конверсию на 800% большую, чем вариант 1. Но давайте дадим тесту немного
времени:
мы помним, не имел ни одного шанса, теперь лидирует со значимостью в 95% и
демонстрирует на 25% прирост количества покупателей. Что из этого следует?
вероятности выберите неправильный вариант. Время все равно возьмет свое, ведь
испытание для варианта, который вы выберете, продолжится и после окончания
теста. В итоге, 800% прирост превратится в потерю 25% клиентов. Но не думайте,
что Вариант 1 обязательно победит. Прошло всего 10 дней, и было заключено около
190 сделок. Это все еще недостаточный объем статистических данных.
Вы должны знать, что остановка теста, основанная на
достижении какого-либо уровня статистической значимости, является смертным
грехом A / B-тестирования №1. 77% из A / A-тестов (тестирование двух
абсолютно одинаковых страниц) покажет превосходство одного варианта над другим
с высоким уровнем статистической значимости.
достаточно времени
серьезную ошибку. Время имеет первостепенное значение, даже если ваш сайт может
похвастаться 10 000 уникалов ежедневно.
Одна из трудностей, тестов в Интернете заключается в том,
что довольно сложно контролировать посетителей. Активность пользователей может
меняться в течении дня, недели и месяца. Именно поэтому, мы должны убедиться,
что наши данные актуальны для любого случайного отрезка времени.
развивается следующим образом:
Первых
пару дней вариант B выигрывает из-за фактора новизны;
После
первой недели второй вариант продолжает закреплять свои позиции;
К
концу второй недели тестирования он все еще впереди, но уже не так
уверенно;
На
исходе четвертой недели результативность выравнивается.
месяц. Если вы закончите его раньше, опираясь на преждевременные результаты, вы
получите эффект «мнимого прироста». Вы будете уверены, что конверсия вырастет,
но, в лучшем случае, не изменится ничего.