редакции
Предиктивная аналитика: как увеличить прибыль и повысить эффективность вложений в маркетинг
Александр Вахтин, аналитик больших данных в MediaNation, рассказывает про нее в статье на примере построения предиктивной аналитики для компании ЛитРес.
В рамках проекта StreamMyData мы разработали систему, которая способна достоверно предсказать вероятность совершения покупки в будущем каждым из посетителей интернет-ресурса. При этом горизонт предсказания будет связан со сроком принятия решения о покупке, который характерен для конкретного бизнеса. Например, клиенту на рынке недвижимости требуется значительно больше времени, чтобы решиться на покупку, чем покупателю книг.
Данная статья является логическим продолжением рассказа о построении сквозной аналитики для ЛитРес, лидера рынка цифровых книг в России и странах СНГ, и обогащает её новой главой о предиктивной аналитике.
Первым шагом было построение системы сквозной аналитики, которая детально описана в кейсе «Объединили экосистему сайта и приложений с многочисленными рекламными каналами и системами аналитики» на нашем сайте.
Зачем нужна предиктивная аналитика?
Система с предсказаниями была необходима для разработки индивидуальных стратегий в отношении каждой группы целевой аудитории и увеличения общей эффективности маркетинга.
Существует множество вариантов использования этих данных — ремаркетинг на поиске и рекламных системах, push-уведомления, email-рассылки, специальные предложения на веб-сайте или в приложении, персональные скидки и обзвоны и другое специфическое для каждого бизнеса применение.
Например, мы можем использовать предсказания в реальном времени и корректировать стоимость товара или услуги в зависимости от вероятности покупки, или создать аудитории в Яндекс.Аудитории, Google Analytics или VK и использовать их в таргетированной рекламе, варьируя величину корректирующей ставки таким образом, чтобы добиться поставленных целей, которыми могут быть:
- Увеличение количества и/или доли конверсий.
- Увеличение эффективности рекламных вложений.
- Увеличение прибыли.
Во время работы с ЛитРес мы использовали предсказания для ремаркетинга в Яндекс.Директе. Для каждого из сегментов использовалась своя корректирующая ставка, которая позволяла эффективно расходовать бюджет и увеличивать процент конверсии.
В данной статье мы рассмотрим фактическое качество работы системы и сегментацию на основе поведенческих факторов на примере аудитории сайта крупнейшего книжного сервиса в России и странах СНГ ЛитРес . Модели обучались на данных о действиях пользователей за два месяца. Тестовая выборка состоит из двух миллионов уникальных пользователей, которые посещали сайт в течение последней недели. Мы предсказали вероятность совершения покупки на семь дней в будущем для каждого из них, наблюдали в течение месяца и теперь готовы поделиться результатами.
Этапы предиктивной аналитики
Силами StreamMyData можно реализовать методы предиктивной аналитики. Мы собираем данные, анализируем их и делаем какие-то предположения для каждого пользователя или для групп пользователей. В процессе работы системы можно выделить пять главных этапов (рис. 1):
- Сбор данных — выгрузка данных из систем аналитики, рекламных систем, внутренних CRM-систем и любых других источников, которые находятся в доступе клиента и хранят полезные данные (рис. 2). Осуществляется при помощи собственных коннекторов StreamMyData от агентства MediaNation. Данный этап подробно расписан в кейсе по сквозной аналитике для сервиса ЛитРес.
- Анализ данных — интеллектуальный анализ данных, который включает в себя исследование данных на наличие ошибок и аномалий, выдвижение гипотез и их проверку, поиск и конструирование потенциально полезных параметров для моделей. В ходе разработки системы предсказаний для ЛитРес мы изучили и обработали сотни миллионов действий пользователей.
- Обучение (разработка) моделей машинного обучения — создание ансамбля моделей машинного обучения, которые работают с данными разного характера и направлены на выявление собственных признаков, обучение и валидация результатов. Для вычислений мы используем выделенные сервера с конфигурациями по восемьдесят ядер CPU и 128 ГБ оперативной памяти на каждом.
- Создание предсказаний и сегментирование результатов — использование обученных моделей для создания предсказаний и разбивка пользователей на группы.
- Выгрузка — отправка полученных предсказаний и групп пользователей в CRM-системы, рекламные системы и тому подобные. У некоторых систем есть ограничения на размеры сегментов. Например, Яндекс.Аудитории не позволяют создавать сегменты, в которых меньше 100 человек.

Процесс цикличный: данные постоянно загружаются, анализируются, используются для обучения и предсказания, а затем выгружаются для применения в различных сторонних системах. В статье мы частично затронем этап сегментирования и проанализируем результаты. Итак, для каждого пользователя было сделано предсказание и сопоставлена группа в зависимости от предполагаемой вероятности покупки. Всего таких групп пять: Именно такое количество групп обусловлено двумя факторами: Сегментирование позволит нам посмотреть, как средняя вероятность покупки внутри каждой группы соотносится с фактическим процентом людей, совершивших покупку в этой группе. Диаграмма 1 дает ответ на вопрос о точности предсказаний в каждом из пяти сегментов пользователей. Мы можем посмотреть, выше или ниже реальный процент людей, совершивших покупку за первую неделю, по сравнению с тем, что предсказала наша система. По оси X отложены группы пользователей, по оси Y — вероятность покупки, выраженная в процентах. Эта диаграмма подтверждает нашу гипотезу — пользователи из группы с высокой вероятностью покупки, в самом деле, совершают покупки значительно чаще, чем пользователи из группы с низкой вероятностью покупки. В среднем наши предсказания ошибаются в группах всего на 3,6 процентных пункта, что говорит о высокой точности прогноза. Такой результат обеспечивается в том числе тем, что система постоянно обучается, используя новые данные, которые поступают в нее ежедневно. Корреляция между фактом и предсказаниями видна невооруженным глазом. Также стоит отметить, что между каждой из групп есть значительная разница в относительном количестве купивших людей. Сегментирование пользователей — это опция, которая позволяет нам работать единым образом сразу с большим количеством клиентов. Однако к каждому клиенту, будь их тысяча или миллиард, можно подходить индивидуально, например, варьируя величину скидки в зависимости от величины предсказания. В данном случае мы пошли по пути сегментации, поэтому и оценка эффективности происходит в группах. Выше были рассмотрены сходства и различия пользователей, настало время анализа консистентности данных во времени. Мы уже убедились в согласованности данных на целевом горизонте предсказания, одной неделе, но что происходит с фактическим процентом купивших пользователей внутри групп дальше? Ниже представлена диаграмма 2, на которой отражено изменение доли пользователей, которые совершили покупку, начиная с первой недели и заканчивая четвертой. Данный показатель является накопительным. Например, формулировка вопроса относительно второй недели будет звучать следующим образом: «Какая доля пользователей совершила покупку к концу второй недели?» То есть учитываются люди, которые совершили покупку и первую неделю, и во вторую. Аналогичным образом задаются вопросы для третьей и четвертой недели. Мы можем сделать несколько выводов из полученных данных: Ниже представлены две диаграммы, которые иллюстрируют абсолютное (диаграмма 3) и относительное (диаграмма 4) изменение доли купивших пользователей по группам неделя к неделе. Тот факт, что абсолютный процент пользователей так стремительно увеличивается во всех группах, кроме околонулевой, говорит о том, что алгоритм смог корректно распознать ту аудиторию, которая на самом деле будет совершать покупки. И наоборот, отсутствие увеличения доли в околонулевой группе говорит о том, что мы смогли корректно выявить тех людей, которые пока что покупку совершать не планируют. То, что относительное увеличение доли купивших обратно пропорционально средней вероятности конверсии в группе — неудивительно. Чем меньший процент купивших был в группе изначально, тем проще наращивать относительное увеличение в будущем. Интереснее дела обстоят с абсолютным увеличением. Видно, что «Высокая» и «Средняя» группы, обладая высоким потенциалом для покупки, больше других не смогли в полной мере реализовать его в первую неделю. То есть, на момент предсказания, люди в этих категориях были уже «горячие» для покупки, но в среднем по 12% пользователей из каждой группы совершили покупку в первую же неделю после целевого горизонта предсказаний. Учитывая, что результаты работы алгоритма обновляются ежедневно, эти люди несомненно попали бы в более «горячую» группу в новом предсказании. Бизнесу важно знать, кто из его пользователей и с какой вероятностью совершит покупку. Описанная система способна автономно выгружать данные, анализировать их, создавать предсказания и выгружать их в CRM клиента, рекламные кабинеты или просто базы данных. По результатам исследования можно сделать вывод о том, что система корректно распознает намерения пользователя, а её предсказания являются верными. Гипотеза о распределении пользователей на сегменты подтверждается фактическими данными о совершении ими покупок. С одной стороны, в каждом сегменте можно выделить особый шаблон поведения пользователей, с другой стороны, сегменты схожи динамикой роста доли конверсии. В следующей статье, мы расскажем, как работа системы значительно увеличила долю конверсий, при этом сильно снизив их стоимость. Больше про интернет-маркетинг рассказываем в нашем Telegram-канале, присоединяйтесь, будем на связи.

Сегментация пользователей на основе вероятности покупки
Оценка качества предсказаний для каждого сегмента

Анализ консистентности данных



Заключение
Коллеги из MediaNation в очередной раз нестандартно подошли к решению нашей задачи по увеличению эффективности рекламных активностей. Дальнейшие шаги — это работа с аудиторией во всех доступных системах, не только с существующими клиентами, но и с новыми пользователями. В этом случае предиктивная аналитика позволит значительно оптимизировать расходы и увеличить конверсию как в перфоманс, так и в охватных рекламных кампаниях.
На сегодняшний день мы продолжаем разрабатывать систему StreamMyData, которая должна стать решением, позволяющим любым интернет-магазинам на территории России и за ее пределами максимально быстро выкачивать все необходимые данные в единую базу и использовать их для построения прогнозов о поведении клиентов. Это позволит бизнесу увеличить эффективность вложений в маркетинг и продажи.
Мы искренне рады, что наши разработки уже активно применяют лидеры рынка, такие как ЛитРес, и они разделяют нашу веру в то, что будущее маркетинга — это предсказание поведения потребителя и направление потребителя через сбор, подготовку и изучение больших объемов данных при помощи математических моделей.