Реинкарнация больших данных: какие преимущества есть у Big Data
Анализ больших данных могут позволить себе только самые крупные компании. Так ли это на самом деле? Разберем несколько устойчивых стереотипов о технологии, которую некогда назвали новой нефтью, затем лишили титула популярного тренда и снова «короновали» на фоне развития искусственного интеллекта и машинного обучения.
На самом деле с большими данными не все однозначно. Про их безусловное благо для улучшения работы с клиентами и оптимизации операционной деятельности в теории знают многие. Однако на практике реализовать стремятся далеко не все. Даже среди крупнейших корпораций Америки, по данным опроса NewVantage Partners, большие данные и AI используют чуть более половины участников рынка. В России масштаб внедрения в enterprise-сегменте и того меньше. И, естественно, существенно реже большие данные применяются среди компаний среднего масштаба из-за серьезных инвестиций инфраструктуру: аппаратного обеспечения и лицензий, а также привлечения специалистов для работы с этими данными. Несмотря на то, что внедрение полноценной big data в B2C-сегменте помогает увеличить средний чек, на подобные проекты решаются единицы. Все дело в высокой стоимости. По нашим оценкам, она составляет от десятков до сотен миллионов рублей в зависимости от масштаба компании, также нужно учитывать ежегодную поддержку с учетом того, что специалисты будут работать в штате. В первую очередь это касается комплексных систем корпоративного класса с длительным циклом внедрения, типа экосистемы Hadoop.
Но есть и альтернативы для тех, кто хотел бы сэкономить.
Об облачных инструментах работы с Big Data стали говорить в конце 2000-х. Несмотря на то, что в целом массивно-параллельные вычисления, которые характерны для этого класса систем, эффективно работают в первую очередь on premise (в локальной инфраструктуре заказчика), модель начала завоевывать рынок. Причем настолько успешно, что Gartner еще в 2017 году начала «списывать» классические дистрибутивы. Аналитики компании утверждали, что продукты не достигнут «плато продуктивности» и проиграет своим облачным аналогам. И, напротив, BDaaS (Big data as a service) стали пророчить светлое будущее. Так, ResearchAndMarkets считает, что этот сегмент мирового облачного рынка к 2026 году вырастет более чем на 36%.
Big Data — это всегда высокая стоимость как барьер для старта проекта?
Своей популярности BDaaS обязана облачной модели оплаты вычислительных ресурсов. По объему первоначальных инвестиций в инфраструктуры Big Data классические решения не идут ни в какое сравнение с облачными продуктами. Стоимость лицензий и в том, и в другом случае примерно одинакова, но она составляет всего от 10 до 30% от всех затрат на проект. Значительную долю финансовых средств съедает железо. Часто его нужно очень много. Кроме того, буквально в каждом первом проекте возникает проблема сайзинга — невозможно сразу понять, сколько ресурсов потребуется. В итоге компании либо покупают оборудования больше, чем нужно. Либо же сталкиваются с нехваткой мощности.
В облаке эту проблему легко решить. Во-первых, необходимый объем ресурсов оплачивается строго по мере потребления, без значительных инвестиций на старте. Во-вторых, существуют различные схемы для оптимизации стоимости услуг. Например, некоторые клиенты предпочитают короткие пилоты. Их цель — проведение разового исследования, проверка гипотезы. В этом случае провайдер может предоставить не только инфраструктуру с почасовой тарификацией, но и временные лицензии на сам программный продукт (что-то типа community edition). Компании, которые с Big Data всерьез и надолго, оплачивают годовую стоимость лицензий. Но и тут есть возможность для экономии: часть заказчиков запускает виртуальные машины в облаке, когда хотят сгенерировать отчет. Они же «гасят» эти виртуальные машины в выходные дни. Таким образом получается уменьшить стоимость облачных услуг до 30%.
Big Data — это всегда долгая реализация?
Модель работы с ИТ — будь они облачными или локальными — принципиально не влияет на сроки разработки архитектуры и настройки системы для анализа больших данных. В среднем по масштабу проекте это длится от 1-2 месяцев на пилот до нескольких лет, если речь идет о полномасштабном проекте для крупного предприятия. Подводным камнем тут, как и в вопросе стоимости всей инфраструктуры, становится железо. Компания крупная, со сложной структурой и большим количеством ответственных? Прибавляйте к срокам проекта минимум полгода. Например, в одной нефтегазовой компании одно лишь согласование бюджета на закупку нужного оборудования занимает не менее двух месяцев. Система класса Big Data горизонтально масштабируемая, то есть если вдруг ИТ-специалисты промахнулись с нужным объемом ресурсов, всегда можно докупить недостающие. И если в облаке добавление мощности происходит по клику в течение нескольких минут (максимум часов), с классическими Big Data процесс может затянуться.
Сложно ли найти квалифицированных специалистов для создания и поддержки Big Data?
В России, как и во всем мире, существует дефицит дата-сайнтистов и тем более дата-инженеров. На одну вакансию, по данным HeadHunter, приходится шесть резюме, в то время как на другие более популярные среди соискателей предложения — восемь и более. Несмотря на то, что такие специалисты очень востребованы в банках, ритейле, госсекторе и промышленности, нужные компетенции накапливаются в основном внутри ИТ-компаний. В целом это совсем не плохо. У клиентов, которые обращаются ко внешней экспертизе, не болит голова, где искать персонал, как его удерживать и платить ФОТ. За последние полгода к нам обращались заказчики, которые могли лишь сформулировать бизнес-задачу. Например, повысить продажи на основе исходных данных. Ни как правильно построить модели прогнозирования спроса, ни тем более какое оборудование выбрать для этого, они не знали. Мы в свою очередь, собирали информацию, строили архитектуру решения, подбирали нужные компоненты инфраструктуры, консультировали и оказывали сервисные услуги. По сути были супермаркетом, в котором клиент мог взять с полки 3 кг облака, 2 часа архитектора, 1 час программиста, взвесить и оплатить все на кассе.
Нужна облачная Big Data: основные шаги
По этому пути компания может пройти самостоятельно, если есть желание и внутренние ресурсы. В ином случае всегда есть возможность привлечь провайдера, который проделает основную часть трудозатратных и рутинных работ.
- Формирование предельно конкретной и понятной бизнес-задачи с возможными результатами на выходе;
- Проектирование бизнес- и технической архитектуры;
- Выделение вычислительных ресурсов, сайзинг решения;
- Создание спроектированной инфраструктуры;
- Все получилось? Бинго! Вывод в продуктив и эксплуатация.