11 текстов, которые помогут разобраться в больших данных
Что это такое?
Почему компания Amazon стала онлайн-ритейлером №1 и стоит сегодня более $300 миллиардов, а Google сделал остальные поисковики и чуть ли не правит миром? Краткая история big data и успешные кейсы их использования доходчиво описаны в двух переводных статьях, опубликованных на «Хабре»:
Что такое большие данные, часть 1
Что такое большие данные, часть 2
"Давайте вначале взглянем на масштабы сегодняшнего Google. Когда вы ищете что-то через их поисковик, вы сначала взаимодействуете с тремя миллионами веб-серверов в сотнях центров обработки данных по всему миру. Всё, что делают эти серверы — посылают образы страниц на экран вашего компьютера, в среднем, 12 миллиардов страниц в день. Веб-индекс хранится дополнительно на двух миллионах серверов, а еще три миллиона серверов содержат фактические документы, объединённые в систему. Всё вместе — восемь миллионов серверов, без учёта YouTube".
Еще короче: в статье на «ПостНауке» научный сотрудник Университета Иннополис Станислав Протасов объясняет, почему анализ больших данных – важная часть нашей жизни:
Разбираемся в терминах
В любых статьях о big data для профессионалов вам непременно встретятся словосочетания вроде «машинное обучение» и «озеро данных». Поэтому стоит потратить несколько минут на изучение терминологии с помощью публикации на Rusbase:
«Озера» хранят данные из разных источников и разных форматов. Это обходится значительно дешевле традиционных хранилищ, в которые помещаются только структурированные данные. Data lake позволяют анализировать большие данные в исходном виде. К тому же пользоваться «озерами» могут сразу несколько сотрудников».
Большие данные в рекламе
Работа с big data помогла Бараку Обаме одержать победу на выборах в 2012 году. В предвыборной гонке штаб президента США активно использовал возможности рекламного таргетинга. Таргетирование рекламы осуществляется на основе данных о предыдущей активности и предпочтениях пользователей. Но это только малая часть того, как современные рекламщики используют большие данные:
Чем полезны большие данные для рекламного бизнеса?
Время старого доброго CPM, когда рекламодатели платили за тысячу показов, как известно, уходит. Просто продать кому-то баннер с каждым годом становится все сложнее. Теперь рекламщики делают упор на Programmatic, Real-timeBidding, DSP. Что это значит, объясняют на MediaToolbox.ru:
Всё что вы хотели знать о Programmatic рекламе
"Ключевая особенность программатика – оперирование многофакторными алгоритмами при продаже и покупке рекламного инвентаря (рекламных мест, попросту говоря). Всё это происходит на огромных массивах данных, в плане анализа аудитории, площадок, цен.
Только роботы за доли секунд могут обработать такие большие данные: проанализировать площадку на состав аудитории, соотнести эти данные с таргетингом клиента, выбрать соответствующий рекламный формат и уложиться в заявленную цену, которая регулируется принципом аукциона".
Продавать рекламу без анализа big data в современном мире настолько сложно, что издатели по всему миру начали объединять информацию о своих читателях, чтобы получить достаточно большие и качественные базы данных. Разбор кейса с немецкими издателями:
Как большие данные меняют рынок рекламы в СМИ
"Данные имеют решающее значение», - говорит руководитель проекта Pangaea, директор по доходам Guardian News & Media Тим Джентри. По его словам, обмениваясь первичной информацией об их пользователях, медиа-компании создают «уникальные и привлекательные сегменты аудитории». Например, информация о подписке от одного издателя может быть объединена с поведенческой информации, полученной от другого. В результате создается подробный профиль пользователя, за который рекламодатели готовы платить".
От теории к практике
Данные нужно собирать, хранить и уметь использовать. Как это делают – в публикации Mebius.io:
Насколько трудно работать с большими данными?
"Допустим мы собрали всю необходимую информацию в озере данных, но как все это свести воедино? Преобразовывать и согласовывать данные, обеспечивать согласованность всех источников, проверять качество данных в действительности и является самой сложной частью в процессе работы с большими данными".
Какая информация собирается с помощью big data? Откуда она берется и каким образом обрабатывается? Как эффективно использовать большие данные для развития сайта? Об этом рассказывают на Cossa.ru:
Как большие данные помогают повысить продажи с сайта
О том, к кому идти за «железом», алгоритмами, консультацией и готовыми решениями в России, рассказывается здесь:
Как устроен рынок big data в России
"Известно, что большие данные существовали задолго до появления самого термина. Поисковики и соцсети изначально строили свои сервисы на технологиях обработки big data. Сегодня к большим данным обратился и традиционный бизнес. Прежде всего, в датамайнинге заинтересованы представители зрелых и высококонкурентных рынков — им очень нужны новые инструменты повышения эффективности. Из 108 компаний, опрошенных в феврале агентством СNews Analytics, 40 уже приступили к работе с большими данными".
В качестве бонуса рекомендуем почитать о том, как большие данные и таргетинг используются в порноиндустрии.