Главное Авторские колонки Вакансии Образование
Выбор редакции:
6 470 39 В избр. Сохранено
Авторизуйтесь
Вход с паролем

A/B-тесты сайтам не нужны

Вас всех обманывают. Наглый миф IT-индустрии — утверждение, что А/В-тестирование универсальное и полезное средство для оптимизации.
Мнение автора может не совпадать с мнением редакции

Привет, меня зовут Чудинов Денис, и сегодня у нас непопулярная тема.

Мой путь в IT начинался с UX-специалиста (да-да), то есть с проектирования решений и аналитики. Потом я уже стал менеджерить проекты и продукты. По своему опыту и опыту коллег, могу сказать, что почти ни у одной компании нет нормального А/В тестирования, поставленного на поток. Говорят, кто-то где-то видел, но, по сути, честное А/В-тестирование не найти.

Почему так? Давайте разбираться.

Однажды, на одном проекте (суточный трафик порядка 800 000 уникальных пользователей) мы задались целью внедрить А/В тестирование.

Вот с чем мы столкнулись:

1. Трудно с точки зрения «чистоты эксперимента»

Пока не берем А/В-тестирование, а разберем «простой» пример, когда вы добавили еще один рекламный баннер себе на сайт и измерили показатели.

На него кликают, начали капать деньги.

Что стало с другими баннерами и их конверсией? Если вам не повезло, то, скорее всего, суммарный доход не изменился или вообще упал.

А теперь представьте, что вам повезло и доход вырос. Разве дело только в баннере? Может изменился трафик? Сработала сезонность или разовый вирусный эффект в соц.сетях? Пока вы тестируете, продукт живет и развивается, очень трудно найти «чистый» месяц, который был бы «без влияния» маркетинга, портящего эксперимент.

Нужно хорошо разобраться в возможных внешних причинах, а это почти всегда гадание на кофейной гуще. Конечно, вы можете маниакально принять во внимание все показатели продукта... чтобы гадание на кофейной гуще было чуточку научнее.Как действовать в подобной ситуации? Следовать простому алгоритму:

  1. Придумали гипотезу.
  2. Внедрили изменение.
  3. Измерили главные показатели через месяц (или другой период: день или квартал).
  4. Стало лучше? Можно оставлять.
  5. Стало хуже? Верните как было.
  6. Повторите.
  7. Go to 1.

Увидеть улучшение или ухудшение просто. Объяснить причину изменений и масштабировать ее — ой какое неблагодарное занятие.

2. Нужна крутая аналитика. Или аналитик

Мы в своем проекте помимо Google Analytics и Яндекс.Метрики еще использовали самописную аналитику и выгружали сырые данные в Excel для ручного подсчета. Как мне известно, крупные e-commerce проекты живут примерно так же (по крайней мере жили). Они измеряют все в нескольких системах, так как они считают по разному и дают разную погрешность. У одного и того же сайта данные посещений по ЯМ и GA могут сильно отличаться. Увы, если бы это было главной проблемой: системы аналитики не очень полезны, когда вам нужно одновременно уметь считать коммерческие и продуктовые показатели.

Может так получиться, что с новым баннером доход за месяц вырос. Только возвращаемость (или ретеншен) стал падать. Ядро аудитории стало больше «раздражаться». То есть, через несколько месяцев вы потеряете в трафике и, опять же, «на круг» заработаете меньше.

К чему я веду? К тому, что чисто статистически, учесть все причины и правильно измерить результат изменения фактически невозможно. Методологически (математически) правильно считать естественную погрешность показателей, и если эксперимент дает рост больше погрешности — то только тогда можно подумать о том, стоит ли оставлять новое решение.

Естественные колебания показателей могут достигать 10%-20%, так что если вы поставили баннер и получили изменение прибыли на 5% — это ничего не значит. Вообще ничего.

Перекрасили кнопку в розовый? Конверсия выросла на 9%?

Ха-ха ;)

3. А/В-тестирование очень дорогое

А давайте одновременно показывать разные варианты дизайна разным людям, но из одинакового источника? Тогда мы не будем зависеть от изменчивости трафика, а также исключим сезонность и маркетинг.

Отличная идея (нет).

Если продукт с историей, high-load, настроено кэширование, разные сервера для контента и еще много всяких радостей, то вряд ли этот проект изначально затачивался на разветление продкашена. То есть архитектурно, проект не готов к тесту. Это значит что если вы придете к backend-программисту и скажете:

— Коля, а давай мы на 8% аудитории будем показывать другую верстку страницы регистрации, причем они еще там должны регистрироваться. Да, поля другие. Да, еще надо, чтобы страница персонализировалась, если он вернется. А я уже говорил что статистику надо модифицировать? Ээ, чо я такого сказал, что ты кипятишься?!

Ваш первый А/В-тест будет полон технических сюрпризов и веселья, особенно если что-то отвалится и вы «перемешаете» аудиторию. Конечно, в идеальных проектах такого нет, но в реальности встречается постоянно.

Когда вы с этим справитесь и даже потестируете что-нибудь, вы поймете что небольшие изменения дают небольшой результат. То есть, если на кнопке сделать скругление краев и поменять цвет с синего на зеленый — большинство пользователей не заметят этого. Если вы хотите ощутимый результат — делайте «крупные» изменения. Было 12 полей ввода для регистрации, а осталось 4? Это существенно.

Главный вопрос в том, что если вы можете обойтись 4 полями, вместо 12... почему вы это еще не сделали?

Разве вам нужно подтверждение А/В-тестом или мнением авторитетного UX-специалиста для правильного вывода в этой ситуации?

И даже если вы все равно решили сделать A/B тест.... готовьтесь выложить минимум половину первоначальной стоимости страницы для подготовки второго, тестового, варианта.

А вы как думали? Еще не верите, что выхлоп очень сомнителен по сравнению с затратами?

4. Другие действия дают больше пользы.

Окончательным гвоздем в крышку А/В-тестирования является тот интересный факт, что вам проще поменять рекламодателя, провести конкурс в соц.сети, купить трафик в другом месте, оптимизировать кампанию в директе, запилить новую фичу в продукте или поправить баги — в общем заняться чем-то полезным, не трогая продукт. По себестоимости времени и денег вы окупите свои действия с большей эффективностью, чем занимаясь А/В тестами.

Почему А/В-тесты так популярны?

Думаю, потому что крупные компании их используют и непроизвольно пиарят. Для них они необходимы, так как они уже попробовали все для своих продуктов и теперь вынуждены «выжимать камень» в поисках крупиц пользы. У них есть на это ресурсы, деньги и желание.

Например, Яндекс.Музыка использует eye-tracking (целый набор инструментов, который изучает куда смотрит глаз человека во время использования мобильного приложения). Да, штука полезная, когда у тебя есть бюджет. Не рекомендовать же теперь это всем?

А/В-тест легко продается некомпетентным людям. Можно что-то сделать и сказать в отчете, что «возвращаемость аудитории из камчатского региона выросла на 8%». Как это влияет на прибыль? Такой вопрос редко ставят. В общем, аналитики и проектировщики хотят есть свой хлеб ;)

Главный вывод про кнопки и интерфейсы

Делайте аккуратно, удобно и со вкусом. Этого будет достаточно. Если ваш продукт так себе и call-центр хамит клиентам — ни один интерфейс не исправит ситуацию.

Сделали нормальный дизайн, продумали сценарии использования, посидели над текстами, нарисовали приятную графику? Круто, вы уже достигли 96% эффективности!

Достичь оставшиеся 4% за счет интерфейсных улучшений — утопия. Не живите в утопии.

p.s. в комментариях мне напомнили что мир живет не только сайтами и мобильными приложениями, поэтому, я решил дописать небольшой кусочек ;)

Получается, A/B-тесты — мертвая история?

Нет, конечно! Сама методология прекрасна, если вы работаете в более контролируемых условиях, например, во время тестирования контекстной рекламы или e-mail рассылок. Тексты, в принципе, легко тестировать, в отличии от дизайна. Лэндинги или интерфейсы игр тоже хорошо поддаются экспериментам, но будьте внимательны с интерпретацией результатов ;)

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем
Комментарии
Lean Peaks
Мы создаем крутые мобильные приложения
Dmitry Guselnikov
Очень громкий заголовок, а сама статья - огонь!
Ответить
werqwer qwer
Статья для тех кто не понимает что такое АБ тестирование, зачем оно надо, и как использовать . ИМХО
п.с покупать рекламку в вк в пабликах ваш потолок
Ответить
Lean Peaks
Мы создаем крутые мобильные приложения
Dmitry Guselnikov
В любом случае основная мысль очень хорошо передана - вы вряд ли сможете правильно использовать результаты А/Б-тестирования. В запущенном проекте (если вы не яндекс и не вк) нереально сделать достаточную чистоту эксперимента.
Ответить
Lean Peaks
Мы создаем крутые мобильные приложения
Денис Чудинов
Я с радостью послушаю другую точку зрения. Где я был неправ? ;)
Ответить
Starter
Экспертная помощь стартапам
Prolis Labkk
Это перепись полуночников.
Ответить
Źmicier Žaleźničenka
Вы в первом пункте неправы, например. Изменения траффика и сезонности учитываются по контрольной группе (группе А), она для этого и нужна.

По второму пункту - перед введением А/В тестов необходимо определиться с основными KPI проекта, и затачивать эксперименты под их улучшение. Этих KPI не должно быть много, в идеале - один единственный показатель. Разумеется, это работает с оговорками.

С остальными пунктами согласен.
Ответить
Challe.ng
Наполни жизнь и ленту яркими впечатлениями
Anton Chirkov
Автору спасибо за правду! А то у меня был комплекс, что я один ничего в этом не понимаю. =) Я конечно в маркетинге не силен, но, если в случае с лендингом, где по сути единственным важным показателем является конверсия, примерно понятно. То в случае с многостраничным сайтом вообще жуть. Ну увеличилось допустим время просмотра, но упала глубина, выросли возвраты, но упала конверсия… И что с этой информацией делать?
Ответить
Марина Шинкаренко
А/Б тестирование для email, контекста и лендинга - да, да и еще раз да! Да и расходы не будут велики:)
Но для многостраничного сайта, где нужно учитывать больше факторов - реально неприемлимо
Ответить
Lean Peaks
Мы создаем крутые мобильные приложения
Денис Чудинов
Контекст и e-mail — конечно мастхэв! ;)
«Продающие» страницы и лэндинги — тоже неплохо, если есть желание и время.

Проще всего оптимизировать тексты, поэтому A/B-тесты бывают полезны ;)
Ответить
Павлов Константин
В точку. Заголовок необходимо уточнить. Если не получается провести А/Б тест рассылки, то это исключительно беда того, у кого не получилось. И тогда он уже придумает все эти - разная теплота базы, сезонность, внешний инфошум. А на практике, А/Б тест это первое для email-маркетинга
Ответить
Lean Peaks
Мы создаем крутые мобильные приложения
Денис Чудинов
Согласен. Поправил заголовок и немного дописал в конце текст ;)
Ответить
Evan Sliv
Бред конечно редкостный)
1) Не так много трафика (сотни и тысячи тут не в счет)? Отлично, используйте модели расчета с бета-функций и играйтесь с альфой и бетой в зависимости от перекоса результатов.
2) Сложный стек? Еще лучше, используйте для запуска тестов GTM и влияйте на клиент как хотите.
Искать минусы в процессе основываюсь на собственной некомпетентности - это очень странно.
Ответить
Lean Peaks
Мы создаем крутые мобильные приложения
Денис Чудинов
1. Причем тут трафик? ;) В статье ничего не аппелируется к объемам трафика.
Хех, мне что-то подсказывает, что из веб-аналитиков, проектировщиков, UX-специалистов и продуктовых менеджеров менее 10% знают что такое бета-функция. И менее 1% в состоянии ей правильно воспользоваться.
А для реального проекта, я полагаю, в СНГ не более 5-10 человек этим занимались на полном серьезе.
Крутые штуки предлагаете.
2. Как с помощью GTM я могу влиять на клиент как хочу? Я не понял мысль, будьте добры, раскройте ;)
Ответить
Evan Sliv
1. Ну тут я соглашусь, не так много специалистов используют нормальную статистику. Я лично все считаю через R и радуюсь. Ну а равняться на тех, кто не понимает - не повод ругаться на метод)
2. GTM позволяет не только настраивать системы аналитики, но и влиять на фронт сайта. Изменение текста, форм, кнопок, pop-up и тп. Все, что ней касается бэка и можно делать при помощи JS. В GTM пишется своя делилка трафика через куки и рандомайзер и в не же пишется изменение цепляясь к классам, айди, датаатрибутам и тп.
Ответить
Lean Peaks
Мы создаем крутые мобильные приложения
Денис Чудинов
1. Я не равняюсь ;) Я борюсь с мифом что A/B-тесты нужны в каждом проекте. Вы, не побоюсь этого словам, настоящий гик статистики. В большинстве проектов это просто не нужно.
2. О, спасибо. Не знал что GTM это умеет 0_о
Ответить
Evan Sliv
1. Увы, и тут не соглашусь. Аналитика не может жить вне законов статистики.
У вас две воронки (мобилки и десктоп), как вы узнаете, какая из них лучше и достаточно ли вам данных, чтобы принять верное решение? Верно, только основываясь на известных законах статистики.
Вы принимаете решение на данных, но не знаете, чистые ли они или в них 80% шума, который не подходит не под один из известных видов распределения. Аналогично, только статистика тут поможет.

Если кто то занимается просто переборов данных - это не аналитика.
Ответить
Ekaterina Andreeva
Отличная статья, спасибо, Денис! :) все так и есть.
Ответить
Дима Венглинский
Что за бред. У меня два собственных SaaS которые активно развиваются и используют A/B тестирование постоянно (и оно показывает свою состоятельность). Может просто проблема не в методологии, а в том что у кого-то руки кривые?

1. Сегментируем по 1-10-100 тыс. трафика в отдельные потоки с помощью UTM-меток для каждого эксперимента (в зависимости от того какая нужна выборка и сколько есть траффика), и замеряем результаты. Применяем коефициент сезонности с прошлого года, и у вас чистый эксперимент. Разумеется я тут упрощаю, но если вы говорите о сложных больших проектах, то я думаю не проблема посадить аналитика который будет забодится о чистоте сравниваемых данных.

2. Mixpanel, KissMetrics, продолжать? Писать свою аналитику вместо того чтобы погуглить это конечно нужно быть очень упоротым.

3. Отмазки. Если это проект с архитектурой и high-load, то понятие "дорого" уже должно быть сильно размыто, и вложение каких-то 50к в увеличение прибыли на 2% является вполне целесообразным. А если это проект попроще, то и тестирование будет стоить дешевле. Для начинающих проектов без истории так и вообще граничит с бесплатным.

4. Вы видимо не понимаете зачем нужно тестирование. Оно даёт вам относительный результат, к примеру LTV был $200 а после тестирования вырос на 10% и стал $220. Представим что у вас 500 тыс. пользователей (вы ж там про хай-лоад говорили), это увеличит доход на 10 лямов сразу, и ещё на 10 за каждые новые 500к пользователей.
Допустим даже вы потратили 50к на тестирование (нет). Проведя конкурс в соцсети на такую сумму вы получите единоразово 50 тыс. пользователей и как следствие 10 лямов, но это единоразово, не масштабируемо, и в дальнейшей перспективе вам ничего не даст.
А оптимизировать кампании надо не ВМЕСТО тестирование, а ВМЕСТЕ с ним, это ж как хлеб с маслом.
Ответить
Lean Peaks
Мы создаем крутые мобильные приложения
Денис Чудинов
В методологии нет никаких проблем, я же не отрицаю ее. Я привожу доводы про то, что у A/B-тестирования есть минусы и вам нужно принять их во внимание, перед тем как, вывалив язык, вваливаться к менеджменту: «Мы должны срочно запилить A/B-тесты!»

1. Погрешность считали или на глазок? :)
2. Систем аналитик очень много, но они очень плохо «дружат» с тем, когда вам нужно считать все в разрезе доходов. Вы не сможете все запихать в Google Analytics Ecommerce, например, если у вас рекламная модель зарабатывания денег.
3. Это не отмазки, а расходы о которых часто забывают, когда говорят собираются сделать A/B-тест.
4. По какому моему предложению вы сделали вывод что я не понимаю зачем нужно тестирование? ;)
Ответить
Дима Венглинский
Я вот не вижу минусов которые вы говорите якобы есть, в этом суть.

1. Погрешность на что? А если вы говорите про погрешность просто так, то надо выборку брать нормальную.

2. Какие конкретно из этих "очень много" вы лично пробовали? Потому что из тех что пробовал я, все как раз с доходом дружат. Вот к примеру в Микспанели я могу сделать даже выкладки доходов по сегментам, периодам, тегам, чему угодно - https://www.youtube.com/watch?v=ABSeOR1vEZo
А гугл-аналитикс и яндекс метрики это вообще не те инструменты которые используются у продуктовых стартапов, только как поддержка SEO и Adwords как правило.

3. У любого действия есть цена, и у тестирования, и у проведения конкурса в vk. Если кто-то цену не учитывает, то он идиот. Идиотизм изполнителя - не минус и не проблема методологии.

4. Собственно, по всему абзацу который вы там накатали. Или даже по всей статье, затрудняюсь ответить.
Ответить
Lean Peaks
Мы создаем крутые мобильные приложения
Денис Чудинов
Знаете, я только что полчаса вам писал длинный комментарий о том, как доказать свои слова, но сейчас подумал, что лучше я напишу следующий пост, где я приведу пример с вычислениями ;)

А вы выразите свое мнение новым комментарием и голосом за или против поста ;)
Спасибо что поучаствовали в дискуссии и навели меня на мысль ;)
Ответить
Lean Peaks
Мы создаем крутые мобильные приложения
Денис Чудинов
Как и обещал, я написал пост про использование мат. статистике в аналитике. Приглашаю вас к обсуждению!
https://spark.ru/startup/lean-peaks/blog/27646/kak-perestat-gadat-i-nachat-schitat
Ответить
Oldrige 65875
А вы не могли бы тезисно (очень поверхностно хотя бы) описать - каким образом вы проводите А/В тестирование при помощи Mix Panel
Очень интересно стало, что за набор (стандартного функционала) фишек позволяет для SaaS это выполнить.
Буду признателен!
Ответить
Evan Sliv
Мне кажется проще сойтись на том, что вы совершено не разбираетесь в вопросе и просто решили набрать лайки "пройдясь" по популярному вопросу.
Релевантного опыта у вас судя по всему нет, как и технического/математического бэкграунда. Мнение и примеры взяты с потолка.
А в целом конечно грустно, такие статьи только способствуют полному непониманию нормальных процессов и стагнации.
Ответить
Lean Peaks
Мы создаем крутые мобильные приложения
Денис Чудинов
С вами сойтись на этом не могу, но, безусловно, уважаю ваше мнение ;)
Ответить
Dmitriy Novikov
Яркий заголовок, унылая статья :) Желтая пресса прямо.
Ответить
Andreas Elbeso
Тот случай, когда автор не разобрался и путает даже разные виды экспериментов.
Ответить
Notifications.bar
Бары с уведомлениями вверху сайта
Vlad Mira
Согласен в том, что интегрировать полноценный A/B-тест на работающий сайт с корзиной, шагами оформления и прочими вещами очень сложно и да - всему свое время. Должен пройти минимум год после наладки основных процессов проекта, прежде чем переходить на ювелирную работу в виде абэ.
Ответить
Евгений Стоичков
Все верное. АБ тестированием злоупотребляют и обычно это Пустое против порожнего. Точнее применяют его там где это совсем не надо. Там где вместо волевого решения знающего, что ему надо размазывают сопли куча безвольных фантазеров.
Ответить
Лена Марьина
Почему автор во всех комментариях ставит подмигивающий смайлик?
Ответить
Lean Peaks
Мы создаем крутые мобильные приложения
Александр Пеня
Видно, что автор не глубоко копал и не разобрался в этой теме. Бывают случаи когда АБ тест сложно и дорого провести, но это редкость. В основном всё просто, и даже можно менеджеру не трогая бекендщика сделать изменения. А для сложных многостраничных сайтов хорошо работает серверное АБ. И каждая новая фича внедряется только через тестирование, потому что эти самые 5% конверсии это огромная сумма денег, отслеживается конверсия по всей воронке, и длится тест до получения статистически достоверного результата и еще несколько нюансов. Читайте зарубежные блоги, и будет счастье. Поймете как надо и как не надо тестировать, когда оно необходимо, а когда будет лишним.
Ответить
Oldrige 65875
Ссылки на "зарубежные блоги" озвучьте пожалуйста здесь.
Ответить
Oldrige 65875
премного благодарен, буду изучать материалы
Ответить
Кудренко Юрий
Отличная статья. Можно с фазой луны не угадать... и оп, конверсия в полнолунье выше чем в среднем по больнице. И дело не в цвете кнопки купить, а просто людей сильнее прёт. :-)
А вот таким бывают А-Б тесты в оффлайне. Все персонажи реальные, любое несовпадение с действительностью - случайность. Если фотка не кликается, см. тут http://webdela.ru/blog/ppp/marketolog-80-lvl/
Ответить
Показать следующие
Выбрать файл
Блог проекта
Расскажите историю о создании или развитии проекта, поиске команды, проблемах и решениях
Написать
Личный блог
Продвигайте свои услуги или личный бренд через интересные кейсы и статьи
Написать

Spark использует cookie-файлы. С их помощью мы улучшаем работу нашего сайта и ваше взаимодействие с ним.