Что такое статистическая мощность
Оценка статистической мощности t-критерия Стьюдента
Допустим, что минимальная разница в среднем весе жуков, которую мы хотим выявить в ходе эксперимента, составляет 3 мг. При уровне значимости \(\alpha = 0.05\) желаемая мощность теста должна составить 80%. Вопрос заключается в том, сколько животных мы должны задействовать в эксперименте для того, чтобы перечисленные условия были выполнены. Как следует из приведенного выше списка, для определения оптимального размера выборки нам необходимо знать стандартное отклонение веса изучаемого вида жуков. К сожалению, до проведения эксперимента мы не можем точно оценить этот параметр. Вариантов решения этой проблемы два: 1) основываясь на своем экспертном мнении, исследователь может дать примерную оценку стандартного отклонения; 2) можно попытаться найти соответствующие литературные данные. Предположим, что мы воспользовались вторым вариантом и выяснили, что стандартное отклонение веса для изучаемого вида жуков составляет 1.8 мг.
Теперь у нас есть вся необходимая информация для расчета минимального объема выборки. В R соответствующие вычисления можно выполнить при помощи базовой функции power.t.test() :
Зная число наблюдений, величину эффекта, стандартное отклонение и уровень значимости мы можем рассчитать мощность теста. Например:
При необходимости выполнить вычисления для парного критерия Стьюдента, в вызов функции power.t.test() достаточно добавить аргумент type = «paired» :
Наконец, при необходимости выполнить одновыборочный t-тест аргументу type следует присвоить значение «one.sample» :
В заключение следует еще раз подчеркнуть, что если в ходе выполнения t-теста проверяемая нулевая гипотеза не отклонена, это не значит, что эффект в действительности остутствует. Возможно, объемы выборок были просто недостаточно велики для этого. Поэтому рекомендуется приводить в отчетах (статьях, презентациях, и т.п.) не только результаты статистического теста как такового, но еще и информацию о его мощности. Это позволит читателям отчета сформировать четкое представление о том, носколько полученные данные поддерживают сделанные по результатам анализа выводы.
9.Что такое статистическая мощность исследования и от чего она зависит?
Нужно ли исследователю учитывать её при планировании исследования, и
если да, то как это сделать?
Статистическая мощность анализа (1-β): вероятность того, что мы на выборке примем гипотезу H1, если на самом деле она верна (= шанс обнаружить эффект, если он на самом деле есть).
• Размер эффекта, пример: Корреляция между приёмом аспирина и снижением риска сердечного приступа: r = 0.034, r2 = 0.0012. Но это значит, что 34 человека из 1000 могут предотвратить приступ, принимая аспирин.
Статистическая мощность зависит от…
– объёма выборки: чем он больше, тем она выше;
– размера эффекта: чем он сильнее, тем она выше;
– от используемого статистического критерия: для разных статистических критериев, проверяющих одну и ту же гипотезу, она будет разной.
• Является критерием для определения объёма выборки с учётом размера ожидаемого эффекта.
• Важно! Только высокая мощность (0,95 и выше) даёт нам возможность делать достоверный вывод о том, что искомый эффект отсутствует (верна H0).
• При недостаточной статистической мощности подобный вывод является необоснованным (правильный вывод: мы не обнаружили эффект, но не можем сказать, есть он или нет).
Анализ статистической мощности и оценка объема выборки являются важным этапом планирования эксперимента, так как без этих вычислений объем данных может быть слишком большим, либо, напротив, слишком маленьким, чтобы получить надежные результаты. Если объем выборки слишком мал, то у вас имеется небольшая вероятность того, что проведенное вами экспериментальное исследование (массовый опрос и др.) даст надежный результат. Напротив, если объем выборки слишком большой, то время, потраченное на сбор данных и большие финансовые расходы, связанные с этим, не принесут ожидаемого эффекта.
Нулевая гипотеза либо справедлива, либо ошибочна, и статистическая процедура недвусмысленно указывает на это. Нулевая гипотеза либо отвергается, либо не отвергается. Следовательно, до проведения эксперимента вы постулируете, что имеют место только 4 возможности, показанные ниже:
HO | H1 | |
H0 | Правильное принятие | Ошибка II рода |
H1 | Ошибка I рода | Правильное отвержение |
В таком исследовании ошибка II рода является трагедией, потому что теория, которая действительно верна, ошибочно отвергается. Очевидно, мы должны действовать так, чтобы уменьшить эту ошибку, т.е. максимизировать мощность критерия. К сожалению, нельзя одновременно уменьшать обе ошибки, и на практике приходится находить компромисс между ними.
С другой стороны, возможно, мощность оказывается слишком большой. Например, можно проверять гипотезу о равенстве двух средних в популяции (Mu1 = Mu2), основываясь на миллионе наблюдений в каждой из сравниваемых групп. В такой ситуации даже при тривиальных (почти нулевых) различиях между группами нулевая гипотеза по существу всегда будет отвергнута.
Оценка мощности. При планировании эксперимента нужно помнить, что мощность должна быть разумно высокой, чтобы обнаружить разумные отклонения от нулевой гипотезы
Факторы, влияющие на мощность статистических тестов. (повторение мать учения): Важно какой именно статистический критерий применяется. Некоторые статистические тесты по своей природе имеют большую мощность, чем другие. Важен объем выборки (количество наблюдений, на основании которых делается вывод). Вообще говоря, чем больше объем данных, тем больше мощность. Однако увеличение числа наблюдений связано с финансовыми и временными затратами. Следовательно, важно сделать объем выборки «разумно большим». Величина экспериментальных эффектов. Уровень ошибки в экспериментальных измерениях. Ошибка измерения интерпретируется как «шум», который может скрыть «сигнал» в реальных экспериментах. Следовательно, все действия, улучшающие точность и надежность измерения, могут увеличить статистическую мощность.
r_statistics
Язык и среда R
Статистическое программное обеспечение
Мощность статистического критерия представляет собой вероятность отвержения нулевой гипотезы, когда она фактически неверна. Иными словами, мощность говорит нам о том, насколько вероятно в данном исследовании получить статистически значимый результат, если искомая закономерность действительно имеет место в генеральной совокупности. Из этого определения следует, что любой исследователь кровно заинтересован в высоком значении мощности используемого статистического критерия.
Мощность критерия является функцией трех вещей: 1) степени, в которой проявляет себя искомая закономерность («величина эффекта»), 2) избранного исследователем уровня статистической значимости (альфа, вероятность ошибочного отбрасывания нулевой гипотезы), 3) объема выборки из генеральной совокупности.
Каждую из этих четырех величин можно выразить через три оставшиеся. Джейкоб Коэн, энтузиаст анализа мощности в психологических исследованиях, в своей монографии [1] приводит огромное количество таблиц, с помощью которых можно определять мощность и необходимый объем выборки, не прибегая к трудоемким вычислениям. По мнению Коэна, трудности, которые возникают у исследователей при анализе мощности, частично объясняются тем, что в психологии в целом отсутствует четкое представление о степени выраженности исследуемых феноменов. Поэтому еще одним немаловажным достоинством его работы является разработка показателей величины эффекта и операционализация понятий «слабый», «средний» и «выраженный» эффект для наиболее распространенных статистических критериев.
К настоящему времени разработано большое количество статистических программ, предназначенных для анализа мощности. Данное сообщение посвящено пакету pwr, которым можно воспользоваться в рамках среды R.
При вызове функции только один из аргументов n, r, sig.level или power должен быть опущен, чтобы его можно было вычислить на основании оставшихся. Исключение составляет лишь аргумент sig.level, имеющий значение по умолчанию 0.05, поэтому ему передают значение NULL, если функция должна вычислить уровень значимости.
Рассмотрим такую задачу. Пускай предполагаемая исследователем сила связи в генеральной совокупности описывается как средняя, при этом он хочет обеспечить вероятность обнаружения этой зависимости на уровне 0.8, уровень статистической значимости установлен им в 0.05 и альтернативная гипотеза является ненаправленной:
Таким образом, чтобы с высокой вероятностью обнаруживать среднюю по величине связь, нужно иметь не менее 85 испытуемых. Если повысить уровень статистической значимости до 0.01, то объем выборки возрастет до 125 человек. Если связь между переменными предполагается слабой (самый распространенный в психологии вариант вследствие невысокой валидности измерения и комплексного характера взаимосвязей), то понадобится 1163 испытуемых. Используя рассмотренные вычисления на этапе планирования исследования, ученый может составить четкое представление о том, какой объем выборки ему может понадобиться, чтобы обнаруживать искомую закономерность с заданной величиной эффекта. Важно подчеркнуть, что необходимость представлять себе величину эффекта перед началом исследования существенно меняет акценты по сравнению с обычной практикой.
Рассматриваемая функция помогает отвечать и на другие вопросы. Например: если я располагаю выборкой в 30 человек и собираюсь обнаружить связь средней силы при установленном уровне значимости в 0.01, то какой будет мощность критерия? Оказывается, она в этом случае составит всего 0.156, т.е. существует крайне незначительная вероятность обнаружения данной закономерности.
Помимо функции pwr.r.test, в пакете pwr имеется богатый набор инструментов для работы с наиболее распространенными статистическими критериями:
pwr.p.test: критерий для одной доли
pwr.2p.test, pwr.2p2n.test: критерий значимости различия двух долей
pwr.t.test, pwr.t2n.test: критерий Стььюдента
pwr.anova.test: однофакторный дисперсионный анализ для сбалансированных планов
pwr.chisq.test: критерий хи-квадрат
pwr.f2.test: регрессионный анализ
Ряд функций предназначен для вычисления величины эффекта: ES.h (доли), ES.w1 (критерий согласия), ES.w2 (меры связи). Функция cohen.ES дает возможность вывести величину эффекта для заданного критерия и уровня.
1. Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale, NJ: Lawrence Erlbaum
2. Бююль А., Цефель П. SPSS: искусство обработки информации, изд-во DiaSoft, 2005
Почему A/B-тесты уменьшают конверсию — опыт российской компании Driveback
Сотрудники компании Driveback, которая занимается повышением конверсии интернет-магазинов, рассказали о том, почему результаты A/B-тестирования не всегда показательны и что следует делать, чтобы избежать бесполезной траты времени и денег.
В Driveback мы постоянно сталкиваемся с необходимостью проведения A/B-тестов для проверки тех или иных гипотез. На проведении многих A/B-тестов настаивают наши клиенты. Нередко мы тратим по несколько часов, чтобы объяснить, почему тот или иной тест делать абсолютно бессмысленно.
В своей практике мы крайне редко встречали маркетологов, которые бы до конца осознавали, как правильно делать A/B-тесты. Хуже того, большинство из них делают тесты абсолютно неправильно.
В этой статье мы постараемся показать, как неправильно проведенные A/B-тесты c виду могут показать превосходные результаты, которые, однако, будут всего лишь иллюзией успеха. В лучшем случаев, это приведет к бесполезным изменениям на сайте, и потере времени и денег. В худшем — к изменениям, которые в действительности могут повредить конверсии и прибыли.
Базовые понятия
Начать стоит прежде всего с базовых понятий, которые известны каждому математику, но забыты многими новоиспеченными специалистами по модному нынче A/B-тестированию.
Это такие понятия, как « статистическая мощность», «статистическая значимость», «множественные сравнения» и «регрессия». Понимая эти принципы вы сможете защититься от дезинформации и заблуждений, которые наводнили индустрию A/B-тестирования, и отличать иллюзорные результаты от реальных.
Статистическая мощность
Статистическая мощность — это всего-навсего вероятность (в процентах) того, что тест определит разницу между двумя вариантами, если эта разница действительно существует.
Предположим, вы хотите определить, есть ли разница между ростом женщин и мужчин. Если вы измерите всего лишь одну женщину и всего лишь одного мужчину, может оказаться так, что вы не заметите того факта, что мужчины выше женщин. Быть может вам попалась волейболистка и мужчина роста ниже среднего.
Однако, измерив достаточное количество разных мужчин и женщин, вы придете к выводу, что на самом деле мужчины выше. Все это потому, что статистическая мощность увеличивается при увеличении размера выборки.
Абсолютно таким же образом это работает и в применении к конверсии интернет-магазинов и других веб-сайтов. Допустим, мы хотим проверить, увеличится ли конверсия, если интернет-магазин будет давать скидку 10% на определенный вид товаров. Будет ли виден прирост в конверсии, зависит от статистической мощности теста. Чем выше мощность — тем выше вероятность, что вы увидите реальный результат.
В своей практике мы неоднократно сталкивались с ситуацией, когда в первую неделю A/B-теста со значительным перевесом «выигрывал» вариант №1.
Результат после двух дней тестирования и 33 тысячи посетителей в каждую ветку
Однако после достижения достаточной статистической мощности результат выравнивался, и далее уже с абсолютным постоянством выигрывал вариант №2.
Результат после двух недель тестирования и 400 тысяч посетителей в каждую ветку
Какой же размер выборки можно считать достаточным
Достаточный размер статистической выборки напрямую зависит от следующих величин:
Мы рекомендуем не доверять тестам, статистическая мощность которых ниже 80-90%. Полагаясь на результаты таких тестов вы можете существенно навредить своей конверсии.
Для подсчета оптимального размера выборки можно использовать калькулятор на нашем сайте.
Важно. Размер выборки в каждую ветку A/B-теста необходимо определить еще до начала теста и не менять до его окончания! Ниже мы опишем, почему это крайне важно.
Статистическая значимость
Допустим, что A/B-тест был проведен в соответствии с требованиями, описанными выше. Достигнута необходимая статистическая мощность и, наконец, можно посмотреть на результаты теста. Теперь необходимо определить, является ли тот результат, который показывает тест, статистически значимым. Простыми словами это означает: каков шанс того, что разница видна там, где ее на самом деле нет.
Или еще проще — какова вероятность того, что мы бы увидели подобный результат, если бы вместо A/B-теста проводили A/A-тест (тестирование варианта сайта против себя же самого).
Если такая вероятность мала — результаты теста можно считать статистически значимыми. Если она велика — результат может быть чистой случайностью (погрешностью) и ему не стоит доверять.
Мы придерживаемся строгого мнения, что уровень статистической значимости должен быть минимум 95%. Таким образом, шанс увидеть результат там, где его на самом деле нет — всего 5% (p-value = 5%).
Именно проверка статистической значимости результата помогает определить настоящего «победителя».
Для определения статистической значимости можно использовать множество калькуляторов. Один из них вы можете найти у нас на сайте.
Самая критическая и распространенная ошибка в A/B-тестировании — останавливать тест, как только становится заметно, что один из вариантов побеждает с существенным отрывом.
Даже если результат при этом является статистически значимым — это верный путь получить false-positive (ложноположительный) результат. Как мы уже писали ранее, несмотря на то, что результат проходит тест на статистическую значимость, это не значит, что он верный. Вполне возможно он ошибочен, так как не достигнут необходимый размер выборки.
Мы понимаем, что крайне сложно удержаться вдали от Google Analytics и подождать месяц, пока тест не будет завершен, не заглядывая в результаты раньше времени. Однако именно это спасет вас от серьезных ошибок.
Это легко проверить проводя A/A-тест (тестирование одной и той же версии сайта против себя же). Допустим, мы запустили на сайте A/A-тест и проверяем его результаты каждый день, вплоть до завершения, каждый раз останавливая тест в случае достижения статистической значимости (p-value = 5%).
Вы увидите, что почти каждый день вы будете получать статистически значимый результат того или иного варианта. И это будет продолжаться до тех пор, пока выборка не станет достаточно большой. Если действовать описанным выше способом в A/B-тесте — 80% ваших результатов будут абсолютной чушью. Только вдумайтесь — 80%.
Рассмотрим важность статистической значимости на одном из реальных примеров. На изображении ниже показан пример результатов A/B-теста одного из наших клиентов. Конверсия вариант DRIVEBACK_OFF оставляет 1,47%, конверсия варианта DRIVEBACK_ON — 1.21%. Какой, по вашему мнению, вариант выигрывает?
Пример результата А/Б-теста, который не является статистически значимым.
Предполагаем, что вы убеждены, что вариант DRIVEBACK_OFF лучше. Вы будете удивлены, что на самом деле это результаты не A/B-теста, а A/A-теста. Если вы внесете эти значения в любой калькулятор, он сообщит вам, что результат не является статистически значимым. Таким образом, на самом деле, этот результат является всего-навсего большим куском бессмысленной информации.
Множественное сравнение
Еще одна очень опасная ошибка, которую допускает большинство маркетологов — проведение сразу нескольких A/B-тестов одновременно. Выделим несколько разновидностей такого тестирования:
Ответ, почему такое проведение тестов является плохой идеей лежит в простой арифметике и в понимании такого термина как коррекция на множественное тестирование.
Каждый тест имеет шанс 5% (если мы выбрали p-value = 0.05) показать победителя там, где его в действительности нет. Это довольно маленькая вероятность, которая является удовлетворительной в большинстве случаев. Однако при проведении n таких тестов, вероятность того, что хотя бы один из них будет неверным, равна 1 — (1 — 0.05) n , что велико уже даже при небольших n (например, при n = 5 она равна примерно 23%).
Таким образом, проводя много тестов вы несомненно найдете победителя, однако ваша «победа» будет всего лишь иллюзией.
Регрессия
С большим сомнением относитесь к тестам, которые были крайне успешными, но при повторном проведении не подтвердили свои результаты. Вы можете подумать, что просто со временем результат пропал. Но настоящая правда заключается в том, что, скорее всего, этого результата вовсе и не было, и в первый раз вы просто получили false-positive результат.
Это хорошо известный феномен, который в статистике называется регрессией. Этот термин общеизвестен среди статистиков, но многие специалисты по A/B-тестированию едва ли о нем слышали.
Возьмем простой пример. Допустим, есть класс студентов, которые выполняют тест из 100 пунктов, где возможны только два варианта ответа — «да» и «нет». Предположим, что все студенты выбирают ответы абсолютно случайным образом. В итоге, каждый студент получит за тест случайный бал — от 0 до 100 со средним баллом по классу примерно 50.
Теперь возьмем 10% из тех студентов, которые набрали максимальный бал и назовем их «отличниками». После чего дадим им тот же самый тест, в котором они опять же ответят на вопросы случайным образом. В итоге, результат при второй попытке у них будет ниже, чем в первый раз.
Все это связано с тем, что абсолютно не важно, какую оценку они получили в первый раз. Они все равно наберут в среднем 50 баллов. Отсюда появится ложное впечатление, что «отличники» резко стали менее умными. Однако правда заключается в том, что они никогда не были умнее, чем остальные.
В A/B-тестировании происходит абсолютно также. Если ваш первый тест был false-positive, то все последующие тесты, конечно же, покажут уменьшение «разницы», которой на самом деле не было. И причиной этому будет регрессия к среднему значению.
Поэтому, если ваш повторный тест через какое-то время не показал прироста к конверсии — задайте себе вопрос: а был ли мой первоначальный тест проведен правильно? Если вы хотите быть уверены в результатах своего тестирования — всегда проводите контрольное тестирование через некоторое время, чтобы убедиться в том, что результаты первого теста были верными.
10 советов правильного A/B-тестирования
На этом мы закончим изучение скучной «математической части» и перейдем к выводам, которые следуют из всего описанного выше. Мы составили список из 10 основных советов, которые помогут вам правильно проводить тесты и быть уверенными в их результатах.
1. Определите минимальный размер выборки до начала теста
Всегда определяйте количество посетителей сайта, которые необходимы для каждой ветки теста, заранее. Не стоит просто запускать тест в надежде, что быть может через неделю результат будет статистически значимым и вы сможете принять решение в пользу той или иной альтернативы. Даже если он и будет статистически значимым — это ни о чем не говорит, если выборка не достигла определенного заранее размера.
Можно встретить много статей, где пишут «вам нужно минимум 1000 конверсий каждой ветки для проведения теста» или «примерно 3000 наблюдений на каждую вариацию в большинстве случаев достаточно».
Не существует никаких магических цифр.
Все зависит исключительно от цели вашего теста, базовой конверсии вашего сайта и величины видимого эффекта.
Для определения размера выборки в каждую ветку теста вы можете воспользоваться нашим калькулятором.
2. Игнорируйте результаты A/B-теста, пока он не завершен
Заведите привычку даже не заглядывать в результаты теста до его окончания.
Даже если в первой ветке вы видите 100 конверсий из 1000 посетителей, а во второй всего лишь 50 из 1000 — игнорируйте этот результат. Он совершенно ни о чем не говорит и еще много раз может измениться в любую сторону до окончания теста.
3. Проверяйте статистическую значимость результата лишь после проведения теста
Статистическую значимость результата необходимо проверять только после окончания теста. Для этого существует множество инструментов, таких как калькулятор у нас на сайте.
Если результат не является статистически значимым, не стоит пытаться подобрать сегмент, где он является значимым, или пробовать менять другие параметры. У вас остается только два выбора:
4. Тестируйте все дни недели и все бизнес-циклы
Ваш тест должен проходить в течение одного, а лучше двух полных бизнес циклов и должен включать:
5. Используйте сегментирование
Заранее определите сегмент пользователей, для которых проводится тест.
Допустим, вы хотите протестировать, влияет ли специальное предложение на карточке определенного товара на вероятность его покупки.
Не стоит проводить тест между всей аудиторией сайта. Его стоит проводить среди тех пользователей, кто теоретически мог увидеть скидку (был на карточке товара «Х»). Все остальные пользователи для нас просто не представляют интереса и лишь будут уменьшать величину видимого эффекта.
6. Забудьте про A/B-тесты, если у вас нет трафика
Если вы делаете одну-две продажи в неделю и проводите тест, где «B» в действительности конвертируется на 15% лучше, чем «А» — как вы об этом вообще узнаете? Мало того, если каким-то случайным образом в сегмент «А» попадет залетный «шопоголик» — он испортит вам статистику на много месяцев вперед.
Как бы вы не любили A/B-тестирование, это явно не то, что вы должны использовать для оптимизации конверсии при маленьком трафике. Даже если вариант «B» значительно лучше, у вас могут уйти месяцы (а иногда и годы!) чтобы достигнуть статистической значимости результата.
Таким образом, если вы будете проводить тест пять месяцев — вы просто-напросто выбросите на воздух кучу денег. Вместо этого, нужно идти на более значительные и радикальные изменения и просто реализовать вариант «B» без какого-либо тестирования. Никаких A/B-тестов, просто переключайтесь на «B» и наблюдайте за своим счетом в банке.
Дело в том, что если вы собираетесь вносить какие-то изменения на сайт без трафика — вы ожидаете большого подъема в прибыли или генерации лидов: 50% или 100%. Вы легко заметите этот подъем на вашем счете в банке даже без каких-либо тестов уже в первую неделю (либо это может быть резкое увеличение количества собранных email или полученных звонков).
Время — деньги. Не тратьте зря время на ожидание результатов, которые займут многие месяцы.
7. Проводите тесты только на основе гипотез
Гипотеза — недоказанное утверждение, предположение или догадка. Как правило, гипотеза высказывается на основе ряда подтверждающих её наблюдений (примеров), и поэтому выглядит правдоподобно. Гипотезу впоследствии или доказывают, превращая её в установленный факт, или же опровергают, переводя в разряд ложных утверждений.
«Я думаю, что на синюю кнопку будут нажимать чаще, чем на зеленую» — адекватной гипотезой не является.
Начинать тестирование, не привязанное к какой-либо гипотезе — это тоже самое, что садиться за руль и просто ехать не понимая того, куда вы едете и почему. Возможно, в итоге вы куда-то и приедете, вот только какой опыт вы от этого получите и к каким выводам придете?
Вы можете потратить кучу времени и ресурсов, меняя цвета кнопок, шрифты, размер текста. Однако такое тестирование будет бессмысленно, если в основании не лежит рациональная гипотеза, подкреплённая весомыми аргументами.
Поэтому мы настоятельно не советуем проводить бессмысленные A/B-тесты, не подкрепленные никакими данными — они никак не повлияют на вашу прибыль.
А даже если каким-то случайным образом вы и получите положительный результат — какой урок вы из него вынесете? Никакого. Ведь куда важнее то, что вы узнаете о своей аудитории. Это поможет вам изучать поведение посетителей вашего сайта и в будущем планировать более успешные тесты.
8. Не проводите несколько тестов одновременно
Проведение одновременно нескольких тестов — верный путь получить false-positive, о чем мы подробно описали в разделе про множественное сравнение.
Допустим, вы тестируете, как на покупку вещи «Х» отразится баннер на главной странице. При этом вы также тестируете, как на все покупки отразится скидка 10% за подписку на рассылку. В итоге, вы случайным образом разделите всех ваших посетителей на следующие сегменты:
Проведение одновременно двух A/B-тестов
Создав три одновременных A/B теста — вы получите уже восемь сегментов. Даже если вы все-таки сумеете правильно сгруппировать сегменты для определения результатов каждого теста в отдельности — следует учесть поправку на множественное тестирование. Если в каждом отдельном тесте уровень статистической значимости был 95%, то при проведении двух одновременных тестов (четыре сегмента) одновременно — уровень статистической значимости станет всего 81.4% для каждого теста. Это значит, что в 18.6% случаев вы будете видеть результат там, где его в действительности нет. Как мы уже говорили ранее, минимальный уровень значимости для правильного проведения A/B-тестов должен быть минимум 95%.
Поэтому, никогда не проводите более одного A/B-теста, если вы понимаете, что дополнительные тесты затронут тот же сегмент пользователей. В самом же A/B-тесте никогда не используйте более двух вариаций, забудьте про мультивариативное тестирование.
9. Не ожидайте большого увеличения конверсии
Мы часто встречаем клиентов, которые видят увеличение конверсии на 2% и говорят что-то вроде: «Всего 2%? Это слишком мало! Даже не хочется заморачиваться с реализацией этого изменения».
Но вот в чем правда. Если ваш сайт хорош, вам вряд ли стоит ожидать больших скачков в в конверсии. Если кто-то показал вам результаты A/B-теста, согласно которому вашу конверсию увеличили на 20-30% это может означать только две вещи:
Большинство выигрышных тестов дают небольшое увеличение конверсии — 1%, 2%, 5%. Для некоторых крупных интернет-магазинов, увеличение конверсии даже на 1% может стать результатом увеличения выручки на миллионы рублей. Тут уже все зависит от абсолютных цифр. Но посмотрите на все это в перспективе 12 месяцев.
Один тест — это один тест. Но вы собираетесь делать множество тестов. Даже увеличивая конверсию на 1% каждый месяц — это уже 12% в течение года! 12% к выручке — это уже значительный результат.
Поэтому, стремитесь к маленьким победам. Ведь в конце концов каждая из них внесет вклад в общее увеличение прибыли.
10. Всегда проводите повторный тест спустя некоторое время
Тут правило простое. Ваш тест показал впечатляющие результаты, но вы не до конца уверены в природе столь хороших результатов? Мало того, после реализации изменений на сайте вы не видите существенного изменения в прибыли?
Обязательно проведите повторный тест спустя несколько месяцев. Может оказаться так, что в прошлый раз вы всего лишь получили false-positive.
Присылайте собственные кейсы, в результате которых вам удалось заметно улучшить (или, наоборот, ухудшить) показатели проекта. Интересные эксперименты обязательно попадут на страницы рубрики Growth Hacks.