Для начала я кое-что проясню — я большой поклонник А/В тестирования. Это отличный способ постоянного улучшения вашего веб-сайта/приложения, и увеличения вашего дохода.

Однако, я думаю, что мы неправильно его используем. Мы верим, что А/В тестирование может решить все проблемы нашего дизайна и бизнеса, и полагаемся на его результаты не задавая вопросов.

 

А/В тестирование не совершенно, как несовершенны и инструменты для его проведения

Эффект йо-йо — очень хороший пример. Представьте, что вы только что закончили A/B тест. Его результаты сулят 7% подъем уровня конверсии. Инструмент, которым проводилось тестирование утверждает, что это «Статистически значимо». Вы прекращаете тестирование, и внедряете этот опыт. Через неделю, вы смотрите на аналитику, и не видите обещанных 7%. Всё либо осталось по-старому, либо ухудшилось. Вам конечно же интересно почему.

Звучит знакомо?

В этой статье, я изложу ключевые проблемы A/B тестирования, которые мы часто игнорируем, или недооцениваем. Эти проблемы часто ведут к принятию плохих решений, которые в последствии приводят к ухудшению производительности бизнеса.

Мне бы хотелось, чтобы после прочтения этой статьи, вы стали больше задумываться о том, как вы используете A/B тестирование. Чтобы понять его несовершенства, правильное использование метода, и чтобы лучше анализировать результаты.

Я начну с самой распространенной ловушки, попадание в которую ведет к неправильным решениям: вашей попытки достичь статистически значимых результатов.

 

Статистическая значимость

Когда вы думаете о статистической значимости результатов вашего теста, не доверяйте инструменту A/B тестирования. По моему опыту, они называют статистически значимого победителя слишком рано.

Лучше перепроверьте свои результаты в хорошем калькуляторе A/B тестирования. Мой самый любимый – калькулятор с AB Testguide. Один, из немногих, которые показывают результаты так, как они должны выглядеть: в виде интервалов. Большинство инструментов всё упрощают, и показывают уровень конверсии, как одно число (например, 2.7%). Но в реальности — это интервал, например, 2.7% ±0.8%. Имеют значение и среднее значение, и величина интервала. Вы можете быть уверены, что тестируемый опыт будет лучше, если его интервал не противоречит интервалу начального опыта.

Пример ниже, показывает, что существует лишь небольшая вероятность того, что опыт В, с уровнем конверсии 2.7% (среднее значение), будет хуже, чем опыт А. Интервалы почти не противоречат друг другу, и есть только 1% вероятность того, что В хуже, чем А.

Статистическая значимость

Сезонность и смешивание траффика

Результаты вашего A/B тестирования основываются на входящем траффике. Не забывайте об этом. Если у вас сезонный бизнес, то скорее всего у вас будет разная аудитория в разные периоды времени. Например, результаты вашего зимнего A/B теста, не обязательно будут применимы летом.

То же самое применимо к смешиванию траффика. Проводите A/B тестирование в периоды широчайшего смешения траффика. Избегайте тестирования во время Рождества, внезапных спадов экономики, и т.д. В это время люди ведут себя иначе, и результаты, полученные в эти периоды будут неправильными в остальное время.

Лучше всего переделывайте тест в разные периоды времени, чтобы быть уверенным, что вы принимаете правильное решение.

 

Cookies

Большинство инструментов, для проведения A/B тестирования основано на использовании cooky. А это приводит к многим потенциальным проблемам. Потенциальный клиент, видит ваш продукт, и решает его купить. Но он находится в офисе, и у него нет времени сделать заказ. Когда он наконец-то приходит домой, он садится за свой компьютер, и оформляет заказ. Но дома у него другой компьютер, с другим браузером, а, следовательно, он видит другой опыт (дефолтный опыт). Поэтому конверсия присваивается дефолтному опыту, хотя именно тестируемый опыт убедил его сделать покупку.

Cookies

В наше время это еще более актуально с мобильными устройствами. Большинство из нас работает с множеством устройств. Мы читаем о продукте на iPad, проверяем его цену и доступность на мобильном телефоне, и в итоге делаем заказ на PC или Мас. К сожалению, инструменты тестирования, которые имеются на рынке, не могут предоставить непрерывное тестирование на всех устройствах, которыми клиент может пользоваться. Я думаю, что в будущем эта ситуация исправится, и инструменты найдут способ отображать один опыт на множестве устройств.

Но сегодня, в мире множества девайсов, проводить A/B тесты очень сложно. Вы можете изолировать тест, и проводить его только с определенным устройством, но это не решит проблему. Чтобы минимизировать риск, вы можете собрать большое количество данных. Но насколько большое количество данных будет необходимо? Будет ли правильным такой долгий тест? Тут же появятся разные периоды времени, истекшие куки.

 

Эффект ROPO

У вас все еще есть много клиентов, которые проводят исследование онлайн, а покупают оффлайн? В таком случае у вас есть еще одна проблема, с которой придется справляться при A/B тестировании.

Тут, как и с множеством устройств, только в этом случае, другим устройством, которое будут использовать ваши клиенты, принимая решение по покупке будет ваш магазин.

Если эта проблема для вас важна, я рекомендую сделать разные купоны для скидок, что бы вы могли понять какой именно опыт привел их в ваш магазин.

 

Длинный процесс принятия решения о покупке

Эта проблема часто встречается, хотя в большинстве случаев игнорируется. Узнайте (либо используя аналитику, либо при разговоре с клиентом) как долго ваши клиенты принимают решение о покупке. Ведь разница между одной неделей и 4 месяцами — существенна. Я объясню почему.

 

Чем короче процесс принятия решения о покупке, тем проще вам будет при A/B тестировании

Представьте, что вы продаете онлайн ипотечные кредиты. По таким вопросам, обычно, решения принимаются довольно долго. Когда вы тестируете вашу главную лендинговую страницу, вы должны знать, что вы будете получать траффик от широкого спектра клиентов. Возможно кто-то из них только начинает исследование по этому вопросу, а кто-то уже принял решение.

Если вы будете проводить A/B тестирование на протяжении двух недель, то вы получите результаты по тем клиентам, которые уже приняли решение. А люди, которых вы убедили купить, появятся только через 2 месяца, или позже.

Помните об этом, устанавливайте правильные ожидания и цели. Если ваш бизнес требует от клиентов длительного принятия решений — тестируйте на уровне микро-конверсий.

 

Оптимизация для Customer Lifetime Value

Если вы занимаетесь электронной коммерцией, то вы не просто хотите привлечь больше клиентов. Вы хотите привлечь больше отличных клиентов. Тех, что будут лояльными, постоянно делать покупки, и рекомендовать вас своим друзьям.

Представьте, что ваш последний A/B тест показал, что тестируемый опыт привлечет на 15% больше клиентов. Не плохо. Но что, если эти 15% — это плохие клиенты, те, кто не купит у вас ничего в будущем, и никому вас не порекомендует. Что, если дефолтный опыт привлекает меньше клиентов, но высокого качества? Не будет ли лучше и дальше использовать дефолтный опыт?

Если вы стремитесь достичь долгосрочных целей, то однозначно будет лучше использовать дефолтный опыт. Но сейчас вы наверно спрашиваете себя, как при помощи A/B тестирования отличить отличного клиента от плохого.

Это непросто. Что вы можете сделать сейчас, так это добавить к электронному письму, которое вы вышлете клиенту после того, как он произведет покупку, опрос по «вероятности рекомендации». Высокий уровень рекомендаций не будет автоматически значить, что это всё клиенты высокого качества, но это уже начало.

Через 3 месяца проверьте сделали ли клиенты из тестируемого опыта и клиенты из дефолтного опыта повторные покупки. Если сделали, то посмотрите, что именно они купили, и по какой цене. Не бойтесь применять результаты теста трех месячной давности, если вы видите, что дефолтный опыт привлекает больше ценных клиентов!

 

Принимайте лучшие решения

Цель этой статьи — не добиться вашего разочарования в A/B тестировании. Ее цель заключается в том, чтобы показать вам менее известные его ловушки. Поэтому в следующий раз хорошенько думайте о ваших тестах, их результатах, и принимайте лучшие решения.

Ведь по существу главной целью A/B тестирования является принятие лучших решений. Выйдите за рамки инструментов и основных отчетов. Добавьте конкретные детали вашего бизнеса, опыта и знания. Прежде, чем начать тест, убедитесь, что вы всё наилучшим образом подготовили, и тогда, в последствии, вы сможете принять правильное решение.

Перевод статьи Микала Парижека