Главное Авторские колонки Вакансии Образование
8 939 19 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Сожгите свою аналитику

Потратьте десять минут, чтобы разобраться, почему подавляющее большинство аналитических отчетов, которые вы используете для принятия важных управленческих решений, годится максимум для растопки камина.
Мнение автора может не совпадать с мнением редакции

Все отчеты лгут

Я ежедневно читаю статьи по продвижению в интернете, маркетинговым акциям, A/B-тестированию и другим подобным штукам. И регулярно натыкаюсь на полное непонимание авторами влияния на их результаты небольшой, но очень важной детали под названием «дисперсия». Между тем, она может полностью разрушить всю логику исследования и даже выдать результаты прямо противоположные тому, что случилось на самом деле.

Для того, чтобы всерьез поговорить о дисперсии, придется дать ей определение. Это будет единственный сложный абзац в статье, обещаю.

Дисперсия – это мера разброса случайной величины вокруг математического ожидания. Когда мы подбрасываем монетку, то знаем, что получим «орел» или «решку» в каждом отдельном испытании с вероятностью в 50%. С другой стороны, каждый понимает, что при серии в 100 подбрасываний мы вряд ли получим 50 раз «орел» и 50 раз «решку». Результат каждый раз будет находиться где-то около ожидаемого значения, но будет отличаться. Величина этого разброса и определяется дисперсией.

b_58f07fe55a856.jpg

В онлайн-сервисе castlots.org мы «подбросили» пять рублей сто раз. Результат: 54/46 в пользу «орла».

Все гипотезы лгут

То, что интуитивно понятно с монеткой, почему-то перестает восприниматься, когда речь идет о других процессах, где случайность также присутствует.

Давайте я опишу сейчас типичную и, наверное, самую частую ошибку такого типа, а потом попробуем применить её к вашей деятельности.

Представьте предпринимателя Ивана, который дает рекламу в гугле с целью привлечь покупателей в интернет-магазин. Он настроил объявление, проплатил его. Кампания работает. Один клик на объявление стоит Ивану в среднем от 1 до 2 долларов, а прибыль от каждой продажи составляет 150 долларов.

b_58f080329446c.jpg

Мы были очень голодны, когда заливали эту колонку на Spark.ru

10 показов. 30. 100. Продаж пока нет. 300 показов. 500 показов. К этому моменту две продажи. Иван потратил 750 долларов.

Реклама вырубается в гневе как неэффективная. Вся история начинается сначала. Запускается другое объявление...

500 показов. Пять броней. Делается вывод - хм, эта кампания в два с половиной раза эффективнее предыдущей. Зальем туда денег побольше.

100 показов, 500. 1000 показов. 4 брони. Результат внезапно упал, до результата прошлой кампании. Черт, оно перестало работать.

Где логическая ошибка Ивана? Иван принял решение об эффективности рекламы на основе слишком малой выборки. И дисперсия, которая безусловно присутствует в этом процессе, обманула его.

Вот пример не "потенциального Ивана", а из нашего бизнеса. Наши партнеры в США дают рекламу своих квестов на гугле. Цена клика для них получается около 30 центов, а средняя продажа приносит 25 долларов. Конверсия сайта из посетителя в покупателя составляет около 3%, т.е. каждый гость сайта с вероятностью в 3% становится покупателем. Мы покупаем трафик в 100 человек и ведем их на сайт.

b_58f08094bd88a.jpg

Реклама как бы намекает о нашей международной экспансии

Как может выглядеть график такого процесса? Как будут выглядеть наши конкретные прибыли (или убытки)? Я не стал откладывать все это в долгий ящик и с помощью экселя визуализировал результаты такого эксперимента.

Я провел четыре эксперимента и вот такие у меня получились графики:

b_58f081060b492.jpg

Разброс результатов в случайных процессах может превышать десятки раз

Еще раз обращаю ваше внимание - это один и тот же процесс. Все параметры у него одинаковые.

Но разброс случайной величины превращает наш итоговый результат то в 150 долларов (верхний правый график), то в 20 долларов. Разница больше чем в семь (!) раз.

В чем беда? Что не так? Проблема в системе? Может быть, 3% конверсии – это мало? Сразу предупрежу – теоретически тут все нормально. Построенная нами система имеет положительное матожидание (не буду объяснять, что это такое и почему так, просто примите на веру).

Проблема в том, что мы использовали слишком маленькую выборку.

На сто испытаний влияние дисперсии столь велико, что мы можем получить катастрофически разные результаты.

b_58f08162c184d.jpg

Мы снова зашли на симулятор и подбросили пять рублей еще сто раз. Результат: 49/51 в пользу... "решки".

Давайте увеличим дистанцию. Итак, еще четыре эксперимента, на этот раз по 1000 испытаний в каждом:

b_58f081c819bc2.jpg

Вроде бы, все уже не так плохо. Лучший и худший результаты различаются всего в два раза. Пойдем до предела и проведем 10.000 испытаний:

b_58f081e0cb486.jpg

Ну наконец-то. За четыре эксперимента мы получили разброс всего в 10%. 10.000 испытаний. Один и тот же случайный процесс. И разброс 10%.

По секрету скажу, что для идеального совпадения результатов нужно примерно 100.000 испытаний.

И что с того?

Когда вы оцениваете результат некоторого процесса с низкой вероятностью успеха, например, изменения дизайна на сайте с конверсией 3%, необходимо использовать достаточно БОЛЬШУЮ выборку испытаний, чтобы доверять итоговому результату. Как видно из примеров выше, выборка должна быть в районе 100.000 испытаний.

Если вы пытаетесь понять, как текст или картинка на лендинге влияют на продажи, необходимо провести достаточное количество испытаний.

Оценивать эффективность изменений на выборке в 1000 посетителей – значит изучать белый шум.

Важно, что это правило работает также и вне интернета. Если вы раздаете в городе флаеры или клеите афиши, их надо раздавать и клеить очень много. Подозреваю, что конверсия у флаера в продажи будет куда меньше 3%, а потому количество в 10 - 30 тысяч штук – минимальный порог, при котором можно оценить эффективность канала. Все остальное - случайность. Дисперсия.

b_58f082117fb84.jpg

Фото: Snob.ru

Чем выше вероятность наступления нужного вам результата, тем меньшая выборка нужна, чтобы оценить результат. Например, если вы тестируете на сайте кнопки двух цветов, и одна дает конверсию на 40% больше, выборки в 10.000 испытаний будет, думаю, достаточно.

Теперь вспомните все тысячи исследований и примеров, которые вы видели в интернете, где данное правило не выполняется. И смело отправляйте их в мусорную корзину. Глядишь, освободится место для чего-то реально полезного.

Артем Крамин, основатель сети "Выйти из комнаты".

Фото на обложке: предприниматели, недооценившие силу дисперсии, жгут аналитику на улицах Асунсьона, Парагвай. (С) www.thequint.com

+7
В избр. Сохранено
Авторизуйтесь
Вход с паролем
Комментарии
Михаил Волосовский
Отличная статья! не так давно думал что-то похожее написать. Но вы меня опередили)
Ответить
Артем Крамин
я эту мысль уже пару лет в себе ношу ;)
Ответить
Никита Катаев
Типа если трафик маленький, то влияние изменений на сайте (редизайн или фича новая какая) на конверсию смысла замерять нет?
Ответить
Konstantin Zaostrovtsev
Вы получите "белый шум" - не релевантную выборку, которая может только навредить.
Ответить
Никита Смахтин
Где там моё увожение? Да вот же оно! Прекрасная статья.
Ответить
Hands4U
Вся ручная работа. Продавай, покупай, обучайся, общайся!
Стас Соколов
1 клик Ивану стоит 1-2 доллара, а дальше вы оперируете показами объявления и ценой этих показов в 750 долларов. Знающие люди поймут, не специалистам, думаю нужно уточнить этот момент.
Ответить
Михаил Великий
Сделали анонс на главной vc.ru
Ответить
Meddy 69537
Это не отчеты надо сжигать, а псевдоаналитиков, которые делают какие-то выводы на недостаточной выборке. Неужели кто-то реально так делает?
Ответить
Артем Крамин
колонка написана под влиянием сотен статеек на тему "как мы увеличили конверсию на сайт, поменяв цвет кнопки с синей на красную, на основе выборки в 1000 посетителей"
Ответить
Arseny Kravchenko
Автор сам не очень умеет в статистику, узнал про один подводный камень и теперь утверждает, что аналитика не нужна. П - Профессионализм.
Ответить
Леван Какубава
Иногда не надо измерять результат 10000 раз, чтоб получить 99,99% результат вероятности выпадания решки, если приклеим на орле перышко. Я к тому что, если маркетолог гарантирует увеличение какого то показателя изменив цвет кнопки, значит он таких измерении совершал еще 1000 раз на других проектах, и он по опыту знает, что "приклеив перо к одной стороне монетки", может повлиять на исход в свою пользу, и вряд ли разумный человек станет измерять результат тыс раз для оценки следственно-причинных связей и сомневаться в компетентность менеджера (по простому - сколько не кидай монету, вероятность все равно будет 0.5 и тупо увеличиванием количества подкидывания исход не поменять, хотя набить руку можно, но это чисто теоретический). Я не очень в маркетинге, но в статье явно что то упущено
Ответить
Андрей Жеглов
В том то и проблема, что таких однозначных "перьев" в маркетинге крайне мало. Что работает на одном трафике, то легко перестает работать на другом. Не говоря уже о разности ценностных предложений и так далее. Мести все под одну гребенку - дилетантство.
Разве что у нас совсем нет времени и денег на тесты - тогда да, лучше уж опыт, чем просто рандом.
Ответить
Vladimir Zubkov
Когда ты рассуждаешь о статистике и аналитике, не умея в тервер.
И рассуждаешь о необходимом размере выборки вот так: "Чем выше вероятность наступления нужного вам результата, тем меньшая выборка нужна, чтобы оценить результат. Например, если вы тестируете на сайте кнопки двух цветов, и одна дает конверсию на 40% больше, выборки в 10.000 испытаний будет, думаю, достаточно."
Открою для восхитившихся материалом, что есть формулы для вычисления необходимого размера выборки.
Ну если вы всё же слабы в тервере, то в интернете много калькуляторов статистической значимости, например: http://getdatadriven.com/ab-significance-test
Как видите из примера, установленного на приведённом сайте по умолчанию, разницы в 33% бывает достаточно чтобы с 99% вероятностью утверждать что один вариант значимо превосходит другой хватает выборки в 2 тысячи пользователей.
Ответить
Tony Stark
Ну напишите там https://yadi.sk/i/YjfUXwNm3HDBpL - он и это посчитает и не скажет что выборка мала.
Ответить
Vladimir Zubkov
Ну почему, он говорит что из этих данных можно сделать сделать вывод с достоверностью 74% (обычно всё-таки берут 90 или 95%).

В целом, это просто один из подобных калькуляторов в сети, при желании можно найти и получше.
Ответить
Art Bor
Прикольный слог.
Молодцы, что делитесь опытом.

Но суть статьи – вредна и ошибочна, так как вы просто похоже не в курсе про то, что такое статистическая значимость и не пользуетесь калькулятором примитивным для ответа на вопрос "достаточно ли данных для принятия решения".
Ответить
Deal Session
Система дистанционного заключение договоров
Евгений Липкин
Расскажите подробнее, пожалуйста, про такие калькуляторы
Ответить
Кораблев Егор
"Если вы раздаете в городе флаеры или клеите афиши, их надо раздавать и клеить очень много. "
Что мешает?
1. Указать другой телефон и по нему отслеживать звонки от флаеров.
2. Указать другой сайт в другой доменной зоне и отслеживать посетителей по оффлайн рекламе.
Ответить
Выбрать файл
Блог проекта
Расскажите историю о создании или развитии проекта, поиске команды, проблемах и решениях
Написать
Личный блог
Продвигайте свои услуги или личный бренд через интересные кейсы и статьи
Написать

Spark использует cookie-файлы. С их помощью мы улучшаем работу нашего сайта и ваше взаимодействие с ним.