Профессии Big Data: кто здесь работает и как сюда попасть
Экскурс: больше data science
Наука о данных ведет свою историю с 1966 года. Именно тогда в Париже появился Комитет по данным для науки и техники при Международном научном совете. Однако, долгое время выражение «data science» можно было услышать только в узких кругах статистиков и ученых. Лишь в начале 2000-х термин стал общепризнанным в Америке и Европе, а с появлением и распространением хайпа вокруг Big Data традиционная наука о данных получила новое дыхание.
Внезапно аналитики стали нужны всем: бизнесу и государству, интернету и сельскому хозяйству. В 2011 году McKinsey подливает масла в огонь: по их предсказаниям, к 2018 году только в США потребуется больше 400 тысяч аналитиков данных. Где же их столько взять? В 2013 году университеты запускают магистратуру по data science, а бизнес-школы плодят курсы для Big Data специалистов.
В России происходит все то же самое, но чуть медленнее. На сегодняшний день количество вакансий, связанных с big data, на hh.ru переваливает за тысячу. При этом, отрасль остается новой и загадочной: большие данные притягивают специалистов и одновременно отпугивают. Сегодня будем развеивать страхи и изгонять жаждущих легких денег. Если вы до сих пор думаете, что работа с big data – это нечто, связанное со сверхспособностями и единорогами, приготовьтесь к погружению в реальность.
Big data профессии по полочкам
Добро пожаловать в отдел социальной аналитики Eastwind. Здесь наши коллеги создают и развивают платформу Social Analytics. Этот продукт помогает телеком-операторам и бизнесу собирать сырые неструктурированные данные и преобразовывать их в инсайты о клиентах. За удобными юзер интерфейсами и результатами кейсов, скрывается большой труд ребят из отдела социальной аналитики.
Заметим, что в зависимости от страны, компании и специфики бизнеса профессии подобного отдела могут называться по-разному. Некоторые (больше принято на зарубежном рынке) дробят функции big data специалистов и получают узконаправленных экспертов. Но в общем, все профессии, тесно связанные с Big Data, можно разделить на два основных направления: анализ данных и разработка.
В соответствующих рабочих группах Eastwind мы попросили рассказать: в чем суть работы аналитиков и разработчиков отдела, какие технологии они используют, с каким бэкграундом люди обычно приходят в big data и что нужно специалистам для успеха в этой индустрии.
Data scienist или аналитик big data
Суть работы:
– Человек продуцирует много фиксируемых событий. Например, у операторов это звонки и трафик, у банков – транзакции, в ритейле – посещения и покупки. Мы выявляем закономерности в этих данных, чтобы использовать их для бизнеса, – рассказывает Андрей Плющенко, руководитель группы анализа данных в Eastwind. – Работаем с сырой информационной историей. Из необработанных данных нам нужно убрать мусор и оставить то, что позволит лучше охарактеризовать людей, предсказать их поведение. Все это помогает бизнесу понять: какой товар или услуга вероятнее всего заинтересуют клиента. А также: когда это произойдет, стоит ли предоставлять ему кредит доверия и так далее. В нашей группе мы строим поведенческие модели, тестируем их и настраиваем алгоритмы machine learning – все кодим на python.
Бэкграунд и технологии:
– Обычно в анализ больших данных приходят математики. Я сам математик, –продолжает Андрей. – Также нужно разбираться в программировании, понимать, что такое big data в принципе, а главное – быть творческим человеком. Нам ведь постоянно приходится что-то придумывать, генерировать идеи, искать инсайты. Если говорить о технологиях, то для работы достаточно знать python, что-нибудь о распределенных вычислениях и устройстве кластеров данных.
– Я пришла в big data из java-разработки, – делится Ольга Анненкова, группа анализа данных Eastwind. – Просто плавно перешла из одной группы в другую, вместе со своими задачами. Сейчас сама разработка стала более аналитической. Сложность нашей работы в том, что постоянно появляются новые продукты, нам нужно очень быстро внедрять их и разбираться, как они работают, несмотря на баги. Интересно, потому что мы работаем с настоящими конфиденциальными данными и можем видеть результат своих вычислений и верность предсказаний в реальной жизни. Аналитика big data – это труд программиста, математика и исследователя в одной специальности.
Важно для успеха:
– Чтобы работать в анализе больших данных, нужно иметь скилы из разных областей, – добавляет Михаил Чернышев, группа анализа данных Eastwind. – Уметь делать визуализации, обладать фантазией и терпением. Не факт, что модель, которую ты придумаешь, сработает с первого раза.
– Самое сложное и начинается, когда тебе нужно тюнинговать созданную модель, – подтверждает Дмитрий Журавлев, группа анализа данных Eastwind. – Для создания и улучшения метрик важно с разных сторон смотреть на проблему.
– Главные компетенции рождаются при решении промышленных задач. Нельзя пройти курсы, почитать теорию, вдохновиться модой и стать успешным big data аналитиком, – объясняет Андрей Плющенко. – С сырой историей работать всегда сложнее, чем с готовыми фичами, которые дают на конкурсах. В каждой компании – свои специфические задачи, к решению которых нужно подходить индивидуально. Нужно приготовиться, что в работе с big data нет шаблона. Поэтому, после освоения базы, вам придется постоянно совершенствоваться. Но будет интересно.
Data engineer или разработчик в сфере big data
Суть работы:
– Мы занимаемся структурным обеспечением группы аналитиков. Другими словами, делаем так, чтобы им было проще работать с большими объемами данных, с кластерными и операционными системами, – рассказывает Шерзод Гапиров, руководитель группы разработки в отделе аналитики Eastwind. – В идеале, аналитики не должны углубляться в программирование. Им это не особо интересно и отвлекает от основного – построения моделей и работы с вычислениями.
– Разработчики в big data – это саппорт аналитикам, – дополняет Сергей Сычев, разработчик в отделе аналитики Eastwind. – Мы оптимизируем рутинные процессы, разрабатываем приложения для работы с данными. Решаем технические задачи, вроде шифрования информации. Так как область новая, зачастую нам приходится изобретать какие-то «костыли», писать новые скрипты и сразу вводить в работу.
Бэкграунд и технологии:
– В отдел аналитики мы берем людей из любой области разработки, - делится Шерзод Гапиров. – Важно, чтобы был хороший опыт программирования, понимание реляционных баз данных и работы систем – Linux, Hadoop. Еще хорошо бы знать языки java и scala. Если такая база есть, специфике big data мы обучаем с нуля.
– У нас есть кластер Cloudera, в его стеке – Oozie, HDFS, Spark. Во фронтенде мы используем React, – перечисляет технологии Сергей Сычев. – Но самое главное, в работе нашей группы – постоянно следить за новинками, внедрять их, быть на волне. Способность к обучению в big data разработке я бы поставил выше всего.
Важно для успеха:
– Наш человек – технарь. Тот, кто любит покрутить гаечки или разобрать технику, чтобы понять, как она работает, - говорит Шерзод Гапиров. – Чтобы преуспеть в этом, нужно просто проявлять упорство. Со стороны Big Data кажется сложной и возвышенной областью, потому что люди мало с ней знакомы. По факту, когда разберешься и вникнешь – big data разработка становится обычной инженерной работой и не отличается от любого другого программирования.
Профессии около big data
Рассказывая о специальностях отрасли, нельзя не упомянуть некоторые «вспомогательные» профессии. Это люди, которые напрямую не работают с большими данными, но тесно связаны с развитием многих аналитических платформ. Это тот случай, когда вы не математик и не технарь, но все-таки можете похвастаться, что крутитесь в сфере Big data. ;)
Дизайнер интерфейсов. Этот человек упаковывает все сложные вычисления и технологии в простую форму.Особенность создания интерфейсов аналитических платформ – большое количество параметров данных. Дизайнер делает так, чтобы пользователь по ту сторону экрана мог легко во всем разобраться и запускал собственные исследования без глубокого погружения в предметную область big data.
«Для создания интерфейсов к аналитическим платформам нужно разбираться в web-разработке, UX-дизайне и обладать чувством прекрасного, – объясняет Александр Иноземцев, руководитель группы веб-интерфейсов в Eastwind. – Нужно уметь поставить себя на место человека, который будет пользоваться интерфейсом, и сделать процесс управления максимально удобным и простым для него».
Продакт-менеджер. Этот человек продвигает аналитическую платформу в живой бизнес-среде: участвует во внедрении, развивает систему по потребностям заказчика и требованиям рынка. Он должен хорошо разбираться в продукте и быть связующим звеном между разработчиками и компанией.
«Для нашего технического отдела – я менеджер, который работает с клиентом. А клиенты часто считают меня технарем, - рассказывает Александр Павлов, менеджер продукта Eastwind Social Analytics. – Это отражает особенность профессии менеджера big data продукта: быть в равной степени погруженным в коммерческие нужды и технические возможности, понимать логику исследований данных и быть первым объективным тестировщиком UI».
Где учиться, чтобы взяли на работу
Если вы не передумали погружаться в Big Data, и готовы разбираться в теме: поищите подходящие программы на Coursera, послушайте, что рассказывают в Школе анализа данных от Яндекс и рассмотрите курсы от Open Data Science. Также сейчас ведут онлайн-курсы многие зарубежные университеты: например, введение в big data от Калифорнийского Berkeley или введение в data science от Массачусетского института технологий. Этот вариант подойдет, если ваш английский выше технического. Есть магистерские программы и в российских ВУЗах.
«Мы берем людей после таких курсов. Их большой плюс в том, что они уже понимают специфику отрасли, – говорит Андрей Плющенко, руководитель группы анализа данных в Eastwind. – На собеседовании я обычно задаю базовые вопросы по machine learning. Например, что такое классификация, регрессия и кластеризация? Или: что сделать, чтобы не переобучиться? Есть и вопросы с подвохом, но даже если человек на них не ответил – не значит, что его не возьмут. Намного важнее, чтобы специалист понимал, что сейчас он на старте, и был готов к прокачке.Почему глупо требовать большой опыт в этой области? На Урале сильная математическая и программистская школа, а вот применить свои знания ребятам, которые решили стать аналитиками данных – почти негде. Даже Яндекс сократил своих местных дата сайнтистов. Поэтому многие уезжают в Москву, более амбициозные – за рубеж. В Екатеринбурге мы – одни из немногих, у кого есть полноценный аналитический отдел».
Big data – работа «что надо»?
Мы выяснили, что в отрасли больших данных нет ничего магического и, при желании, – туда не так трудно попасть, как кажется. Потребуются лишь способности к математике, логике и программированию. А еще умение творить, видеть задачи под разным углом и понимать людей и бизнес одновременно. Ну и в идеале – нужно быть терпеливым, настойчивым, всегда готовым к новому и проходить сквозь стены. Ой, последнее – лишнее. :)
В общем, берем свои слова насчет «не так трудно» обратно. Уровень сложности зависит исключительно от ваших индивидуальных способностей и желаний. Примеряйте на себя профессии, проверяйте свои скилы и ищите то, что вам подходит. Нашли? Тогда спасибо за внимание и добро пожаловать в Big Data