Как провести A/B тестирование

6 сентября 2018

22 мин на чтение

23264

аналитика

Елизавета Теряева

Редактор блога Calltouch

Содержание

Нет времени читать?

A/B-тестирование — это метод исследования в маркетинге, когда сравнивают два варианта чего-либо (например, веб-страниц), чтобы выяснить, какой работает лучше. При этом, чтобы определить «лучший» вариант, используются объективные количественные метрики.

С помощью A/B-тестирования изучают, как разные элементы влияют на продажи или другие целевые показатели. Обычно версии А и В в таких тестах очень похожи и отличаются только одним элементом.

Например, маркетолог сравнивает две веб-страницы: на одной кнопка «купить» расположена сверху, на другой — снизу. Разные пользователи видят разные версии страницы. По истечении срока тестирования маркетолог подводит итоги: по какой кнопке больше кликнули — та версия и лучше.

A/B-тестирование позволяет принимать решения, основанные на объективных данных.

Прокачайте свой маркетинг еще сильнее с базой знаний Calltouch.

Для чего нужно A/B тестирование?

Любой интерфейс, рассылка, веб-страница состоят из множества компонентов. Иногда изменение одного из компонентов влияет на пользовательский опыт.

Допустим, мы говорим о сайтах. Есть базовые правила дизайна и верстки, чтобы собрать крепкий макет, не отталкивающий пользователя. Но чем дальше рост, тем меньше универсальных решений.

Нет волшебного рецепта, как сделать сайт, который будет приносить максимум конверсий. Улучшения достигаются методом проб и ошибок.

Собственно, A/B тестирование и является таким методом, который позволяет отследить влияние изменений и отобрать лучшие. Он нужен, чтобы понять, как сказались конкретные изменения на целевых показателях бизнеса — количестве кликов, продаж или регистраций.

Кейс AW-Agency: как корректировали рекламную стратегию, используя A/B тесты.

В каких случаях стоит проводить A/B тестирование?

Проведите A/B тест, если:

Нужно объективно оценить изменения.
У вас достаточно пользователей и данных.
Хватает времени и ресурсов для дизайна, выполнения и анализа итогов тестирования.
Нужно принять взвешенное решение быстро.

Если у вас мало пользователей и данных, тестирование может оказаться неэффективным.

У такого теста низкая статистическая мощность. Допустим, у вас всего 10 пользователей. После изменений конверсия выросла на 20% — это выглядит, как статистически значимый результат. Но на практике это только 2 человека. Нельзя точно сказать, повлияли ли на их действия внесенные изменения. Разница в 2 человека с высокой вероятностью случайна. Из результатов такого теста нельзя сделать достоверные выводы.
Чтобы повысить статистическую мощность, придется проводить тест долго — принять решение быстро не получится. Так как изменения внедряются через A/B тесты по одному, то внедрение нескольких небольших изменений растянется на неопределенный срок.

Если соблюдены условия, при которых итоги тестов будут статистически достоверными, A/B тестирование поможет:

Сделать сайт удобнее. Когда добавляете новые функции или упрощаете существующие, A/B тест поможет оценить, насколько это изменение улучшило пользовательский опыт.
Персонализировать общение с пользователями. A/B тестами часто проверяют разные версии текстов на сайте, включая описания на кнопках, уведомлениях и формах обратной связи.
Увеличить конверсии. Иногда дизайн формы подписки или кнопки «Купить» влияет на количество конверсий сильнее, чем кажется.
Подхватить актуальные требования целевой аудитории. Предпочтения пользователей меняются, поэтому важно время от времени обновлять систему.
Сократить отказы на сайте. A/B тестирования помогают выявить причины, по которым посетители покидают сайт, и исправить проблемы.
Внедрить новшества с минимальными рисками. Плюс метода в том, что продажи не снижаются, так как половина посетителей видит оригинальную версию сайта.

Другой способ улучшить воронку продаж — подключить систему омниканального маркетинга Calltouch.

Calltouch

Привлекайте, конвертируйте
и анализируйте ваших клиентов

Платформа омниканального маркетинга

Подробнее

Что можно тестировать?

Практически все компоненты веб-сайтов, рассылок, контекстной рекламы, интерфейсов приложений. Вот неполный список для ориентировки:

Заголовки, тексты и изображения — какие лучше привлекают и удерживают посетителей.
Дизайн и макет: концепция, расположение элементов, цветовая схема — какие воспринимаются проще и улучшают пользовательский опыт.
Кнопки и элементы управления: стиль, цвет, текст и расположение кнопок — какие стимулируют действия пользователей.
Ценовая стратегия — какие цены на товары и услуги оптимальны.
E-mail маркетинг — какие заголовки, тексты и изображения увеличивают открываемость писем и количество переходов.
Функциональность продукта — как новые функции влияют на вовлеченность пользователей.
Время и дни недели — когда пользователи чаще совершают покупки или открывают рассылки.
Способы оплаты — как клиентам проще расплачиваться.
Корзина и оформление заказа — как упростить процесс и снизить количество брошенных корзин.
Системы рекомендации — какие алгоритмы подбора товаров лучше попадают в потребности пользователей.
SEO и контент — как повысить поисковую видимость.

Что именно тестировать, зависит от целевого показателя и гипотезы. Об этих аспектах поговорим чуть ниже.

Как проводится A/B тестирование?

Определение метрик

Прежде всего определите, на какую метрику хотите повлиять. Выбирайте метрики, которые сообразны общим целям бизнеса или проекта — то есть влияние на них напрямую поможет развитию. Тогда результаты A/B тестирования будут релевантны и полезны.

Метрики помогут точно сформулировать гипотезу, определят дизайн эксперимента и позволят точно понять, подтвердилось ли предположение, которое легло в основу теста.

Как определять метрики?

Давайте рассмотрим интернет-магазин рок-атрибутики в качестве примера. Когда вы готовитесь к A/B тестированию, есть несколько важных шагов:

Определите цели. Для магазина главная цель — повысить продажи.
Выберите метрику, которая лучше всего отражает достижение цели. Для нас это конверсионный коэффициент, который показывает, сколько посетителей сайта совершают покупки.
Добавьте второстепенные метрики для контекста. Например, средний чек покажет, увеличивается ли сумма покупок. Показатель отказов и время на сайте дадут понять, стал ли сайт привлекательнее для пользователей. Важно, чтобы все эти метрики измерялись численно.
Анализируйте исторические данные по выбранным метрикам. Это поможет лучше понять, с чем вы начинаете и как оценить результаты после теста.
Установите ожидания. Основываясь на исторических данных и ваших целях, определите, какие изменения ожидаете увидеть в метриках после внесения изменений. Это поможет интерпретировать результаты.

Формулирование гипотезы

Для выбора гипотезы используем формулу «если сделать так, то получится так». В гипотезе нужно отразить, как изменения повлияют на основную метрику.

Основная метрика в нашем тесте — конверсия. Пример гипотезы может звучать так:

Если заменить прямоугольные кнопки на круглые, то конверсия увеличится с 3–5% до 8–10%.

Гипотезы бывают двух видов:

Нулевая гипотеза — это своего рода «стандарт». Она нужна, чтобы не соблазниться увидеть статистически значимые изменения там, где их нет. В нашем случае она звучит так: «если заменить прямоугольные кнопки на круглые, то конверсия не изменится и останется в пределах 3–5%».Проводя тест, мы хотим опровергнуть эту гипотезу.
Альтернативная гипотеза предполагает, что изменения повлияют на целевой показатель. Эту гипотезу мы хотим подтвердить.

Создание эксперимента

Чтобы результаты A/B тестирования были точными, сделайте вот что:

Разработайте альтернативный вариант (версию B) продукта или веб-страницы с изменениями, которые хотите протестировать.
Сформируйте группы тестирования. Выберите, какие пользователи будут участвовать в тесте.

Чтобы эксперимент был объективным, используйте репрезентативную выборку. Репрезентативность означает, что характеристики участников теста соответствуют характеристикам всей целевой аудитории.

Продолжим пример с интернет-магазином рок-атрибутики. Его целевая аудитория состоит преимущественно из молодых людей от 18 до 35 лет, причем 60% из них — мужчины. Чтобы наша выборка была репрезентативной, она должна состоять из 60% мужчин и 40% женщин в указанном возрастном диапазоне. Мы должны сформировать две такие группы: одну для тестирования версии сайта интернет-магазина A и другую для версии B.

Рассчитайте размер выборки и длительность теста. Чтобы упростить процесс, воспользуйтесь специальными калькуляторами. О них чуть ниже. В расчетах участвует коэффициент статистической значимости (α).

Чаще всего α устанавливают на уровне 5%. Это значит, что при анализе результатов мы допускаем 5-процентную вероятность, что отклонения от изначальных показателей случайны.

Проще говоря, если итоги эксперимента показывают что-то важное и этот результат имеет менее 5% шанс быть случайным, мы считаем это «статистически значимым». Но если есть больше 5% шанса, что результат мог случиться просто так, без какой-либо реальной причины, мы не можем быть уверены в своем выводе.

Мы используем α, чтобы понять, можем ли отвергнуть нулевую гипотезу: если вероятность случайных результатов больше α, то нулевая гипотеза остается в силе. А если меньше — можно ее отвергнуть.

Проведите тест. Постарайтесь избежать распространенных ошибок — о них расскажем чуть ниже.

Инструменты для настройки тестов

Описать какие инструменты можно использовать в эксперименте. Тут можно взять в качестве подпунктов информацию из оригинальной статьи.

Optimizely

Самый известный инструмент для аналитики в любой плоскости — в том числе A/B тестирования. Optimizely гибкий, удобный и мощный: пользователи могут проверить практически любую гипотезу и масштабировать тесты для малых и больших бизнесов. Визуальный редактор позволяет настраивать тесты, не трогая код.

Настройка A/B тестирования в Optimizely.

VWO (Visual Website Optimizer)

VWO — популярная платформа для A/B-тестирования и оптимизации конверсии. Позволяет проводить A/B тесты, мультивариантные тесты, тесты по разделению URL. Также есть визуальный редактор и интеграции с маркетинговыми инструментами. Преимущество — 30 дней бесплатной пробной версии с доступом к большинству функций.

Функции, которыми можно воспользоваться в бесплатный пробный период.

Калькулятор достоверности A/B тестирования Яндекса

Простой калькулятор быстро сравнит результаты A/B теста двух или более рекламных стратегий.

Анализ результатов A/B тестирования

Анализ результатов A/B тестирования кажется простым. В некотором смысле так и есть — у какого варианта показатели лучше, тот и выбираем. Но важно учитывать ошибки I и II рода.

Ошибка I рода — ложно-положительный результат. Нам кажется, что мы видим разницу, которой на самом деле нет. Это как ложная тревога.

Представьте, что есть новое лекарство от гриппа. Вы предполагаете, что оно лечит грипп лучше, чем старое. Чтобы убедиться, вы проводите научное исследование: берете две группы пациентов, одной группе даете новое лекарство, а другой — старое.

Обнаруживаете, что у группы, которой давали новое лекарство, больше случаев выздоровления. Вы считаете, что новое лекарство действительно эффективнее и начинаете его продвигать.

Однако разница в выздоровлениях между группами может оказаться случайной. Например, из группы нового лекарства трое выздоровели потому, что закалялись в течение года перед тестом. То есть на самом деле новое лекарство не эффективнее.

Если на основании такого эксперимента мы сделаем вывод об эффективности нового лекарства, это и будет ошибкой I рода.

Ошибка II рода — ложно-отрицательный результат. Связана с тем, что мы не видим эффект, который действительно существует. Это как упущенная возможность.

Тот же пример с лекарством. После исследования вы не видите статистически значимой разницы в выздоровлении между группами. Решаете, что нет оснований считать новое лекарство эффективнее старого, и отказываетесь от его продвижения.

Ошибка II рода может произойти, если в исследовании участвовало слишком мало пациентов. Тогда статистической мощности эксперимента недостаточно, чтобы обнаружить реальную разницу. Новое лекарство могло быть эффективным, но исследование не доказало этого из-за недостаточной выборки.

Если мы не учитываем недостаточность выборки и заключаем, что разницы между первым и вторым лекарством нет — мы совершаем ошибку II рода.

Ошибки I и II рода происходят по разным причинам, но оба вида связаны с понятием статистической мощности. Коэффициент значимости (α) нужен, чтобы управлять этими ошибками.

При слишком высоком коэффициенте статистической значимости, недостаточном размере выборки и недостаточных данных итог эксперимента может оказаться случайным. Если мы признаем его, как достоверный — происходят ошибки I или II рода.

Увеличение размера выборки, уменьшение уровня статистической значимости и более чувствительные статистические методы могут помочь уменьшить риск.

Какие ошибки можно допустить при проведении A/B тестирования?

На достоверность результатов A/B тестирования также влияют погрешности при дизайне и проведении эксперимента.

Одновременная замена нескольких элементов. Если в версии B вы заменили не только кнопку «Купить», но и форму регистрации, то итоги теста не скажут, какое именно изменение повлияло на показатели.

Чтобы точно понимать, какие именно новшества оказали эффект, меняйте только один элемент за раз.

Множественное сравнение. Возникает, когда мы анализируем множество разных метрик или вариантов при проведении теста.

Когда мы устанавливаем уровень значимости (например, 5%), то рассчитываем вероятность ошибки I рода для одной метрики. Для каждой метрики вероятность увеличивается. Например, вероятность совершить хотя бы одну ошибку I рода при 10 метриках составит 40%.

Чтобы повысить достоверность результатов множественного сравнения, учитывайте поправку Бонферрони.

Проблема подглядывания (ранняя остановка теста). Иногда тест завершают до того, как выйдет положенное время, потому что результаты кажутся очевидными. Но это может привести к ошибке I рода из-за случайных факторов или нерепрезентативной выборки.

Чтобы избежать этого, придерживайтесь предварительно установленного срока тестирования и не принимайте окончательных решений до его истечения.

Недостаточная практическая значимость. Статистическая значимость связана с тем, что результаты теста статистически отличаются от нулевой гипотезы. Но это не всегда означает, что у изменений есть практическое значение. Например, даже если новая версия приложения демонстрирует статистически значимые изменения, это может быть неощутимо для пользователей.

Чтобы не внедрять бесполезные изменения, учитывайте не только статистическую, но и практическую значимость новшеств. Подумайте, как изменения могут повлиять на общие цели бизнеса.

Заключение

Подведем итоги:

A/B тестирование представляет собой метод проб и ошибок, подкрепленный статистическими данными. Он помогает принимать решения о внедрении изменений на основе объективных данных.

Прежде чем начинать эксперимент, определите метрики, на которые вы хотите повлиять в результате теста, и сформулируйте гипотезу, которую будете проверять.

Чтобы результаты теста были достоверными, необходимо располагать достаточной статистической мощностью — то есть участвовать должно много людей в течение достаточного времени.

Чтобы избежать ошибок, аккуратно выставьте коэффициент статистической значимости α. Он показывает, какой риск случайности вы готовы принять. Обычно α = 5% — то есть вы принимаете 5-процентную вероятность, что итоги теста могут быть случайны.

Пока разрабатываете эксперимент, учитывайте, что множественное сравнение влияет на α — вероятность погрешности сильно возрастает.

Во время эксперимента не подглядывайте и не останавливайте тест раньше положенного срока.

Когда принимаете решение, внедрять ли изменения, оцените не только статистическую значимость, но и практическую — то есть как изменения повлияют на достижение целей бизнеса.

Еще больше знаний про аналитику и маркетинг — в юнитах Calltouch.