Начнём мы с одной из самых интересных новых должностей — Data Scientist. Разные эксперты и компании дают разное пояснение того, чем же занимается этот специалист. Давайте спросим у профессионалов, которые дадут нам четкие пояснения, чтобы у нас с вами сформировалось понимание сферы занятий по должности и может быть кто-то из вас решит перейти на новое поприще для себя.
Например, Александр, дата-аналитик IT-компании SimbirSoft даёт такое прочтение:
Data Scientist — это специалист, который создает инструменты для решения задач бизнеса, используя навыки анализа данных и построения моделей машинного обучения. Одна из основных задач такого специалиста — перевод бизнес-задачи в математическую плоскость, построение оптимальной модели с наилучшим прогнозом бизнес-событий и возможностью оценивать риски и результаты.
Такой специалист должен, во-первых, уметь быстро и эффективно обучаться, в том числе самостоятельно, ориентироваться в новых подходах и понимать, что может пригодиться на практике. Во-вторых, он должен знать современные методы эконометрики, теории вероятностей, математической статистики, уметь анализировать и моделировать данные и информацию посредством языков программирования. В-третьих, он должен знать методы и алгоритмы машинного обучения, при каких условиях и в каких случаях их нужно применять, а также должен иметь навыки глубокого обучения, основанного на искусственных нейронных сетях.
Вот некоторые бизнес-задачи, решение которых может обеспечить Data Scientist — это:
создание персонализированных рекомендаций при покупке; прогноз отгрузки с учетом складских ограничений; прогноз доставки/задержки в поставке с учетом ограничений транспортной логистики; поиск оптимальных параметров бизнеса с учетом максимизации оборотов и прибыли; прогноз роста клиентов: когда и какие категории клиентов придут за покупкой; управление оттоком персонала, снижение текучести, скоринг сотрудников при подборе и т.д. Александр Чальян, руководитель онлайн-платформы Synergy Academy дополняет мнение эксперта SimbirSoft
По оценкам Ассоциации больших данных, сделанным в 2021 г., объем рынка только в нашей стране составляет от ₽10 млрд до ₽30 млрд. При этом к 2024 г. ожидается рост рынка до ₽300 млрд. Такой объем Big Data связан с тем, что ежеминутно пользователи интернета по всему миру генерируют множество информации. Чтобы обрабатывать и анализировать весь этот массив, существует Data scientist. Он выстраивает и тестирует математические модели поведения данных.
Будущих Data scientists в Synergy academy обучают необходимым в этой области hard skills: математике и статистике, программированию, работе с базами данных и знанию классических алгоритмов машинного обучения. Как показывает наш опыт, именно эти навыки имеют в работе специалиста из области больших данных принципиальное значение.
Благодаря тому, что Data scientists способны преобразовать информацию во вполне конкретные решения бизнес-задач, их так ценят на рынке и спрос на Data scientist продолжит расти. Специалист в этой области может спрогнозировать очень многое: от дефолта в банках до потенциального террористического акта. А также, например, предсказать спрос на любые виды услуг, собрать подборку фильмов в онлайн-сервисах, составить список возможных друзей в соцсетях, дать метеопрогноз, выявить мошеннические схемы и многое другое. Таким образом, Data scientist найдет себе место в любой области и компании, которая сталкивается с большими объемами информации.
Валентин Шкулов , который сам строит карьеру в качестве эксперта в области Data Science в ведущих компаниях даёт своё описание экспертизы и по должности, и задачи, которые специалист должен уметь выполнять:
В последнее время в корпоративном сообществе сформировался достаточно широкий образ Data Scientist и одновременно с этим в самой области Data выделились более узкоспециализированные роли, такие как ML и DL Engineer, Data Engineer, MLOPS, Data Analyst и сам Data Scientist. Ввиду таких разнонаправленных процессов нередко происходит несовпадение названия и ожиданий от роли и фактических задач, и зачастую DS играет все роли одновременно.
Обобщая, специалист в Data может выполнять следующие задачи:
Постановки задач и оценка возможного эффекта; Настройка получения и хранения данных, хранилищ и баз данных ;Анализ данных и поиск закономерностей в них; Моделирование предсказательных моделей; Построение нейросетевых решений; Развертывание решений в продакшене и настройка ML систем; Проведение A/B тестирования решения. В компетенции ролей в вакууме входят следующие пункты:
ML Engineer — 1, 3, 4, 5
DL Engineer — 1, 3, 5
Data Engineer — 2, 3
MLOPS — 2, 6
Data Analyst — 3
Data Scientist — 1, 3, 7
Компетенции действительно пересекаются и на практике Data Scientist может заниматься любыми указанными задачами в той или иной степени погружения.
Дмитрий Грибачев, Руководитель группы IT подбора ГК Selecty , которая является агентством по IT рекрутингу и поиск и подбор подобного рода специалистов, даёт описание должности с точки зрения тех, кто как раз ищет для компаний лучших экспертов:
Кто такой Data Scientist? Прежде всего — специалист с широким аналитическим бэкграундом. Он хорошо разбирается в методах математической статистики, теории относительности и понимает, что такое нормальное распределение.
Второй важный аспект в работе специалиста по Data Scientist — владение обширным техническим инструментарием. Python, Pandas, Numpy, Skealern и Tableau, как вариант.
В зависимости от стека, кстати, меняются подходы к подбору «датасаентистов». Это очень тонкий процесс, требующий постоянной смены тактики.
Сочетание аналитики и технических инструментов позволяет закрывать самые разные задачи. От предсказательных моделей до автоматизации коммуникативных процессов между компанией и клиентом. Сюда можно отнести и построение прогноза оттока или спроса, автоматизацию процессов (расчет рабочего времени и рекомендация перераспределения), создание виртуальных помощников , и, конечно же, работу с искусственным интеллектом!
Эксперт, близкий агентству по рекрутингу, Юлия Белоусова, занимающаяся профориентацией даёт более упрощённое описание, но (как кажется редакции) более понятное тем, кто только выбирает себе первую (вторую) профессию:
Если сравнивать аналитика и саиентиста можно говорить о том, что наборы квалификаций для этих профессий идентичны. Мягкие навыки, такие как эффективная коммуникация, критическое мышление, умение работать с большими объемами данных, выявлять закономерности также совпадают. Различия лежат в технических навыках и задачах. К задачам аналитика относятся практические действия, такие как определение потребностей рынка, анализ полученных данных, обмен информацией. Тогда как сайенс занимается вопросами построения моделей и доступа к ним, управлением подготовкой данных, формирует ценность данных для бизнеса. Общие технические навыки — это аналитические инструменты, анализ потребностей бизнеса, этика обработки данных, визуализация данных, статистические языки программирования. В тоже время аналитик будет заниматься администрированием баз данных, непосредственно анализом данных, практиками дизайн-мышления. Тогда, как сайенс работает с проектированием данных, вычислительным моделированием, синтезом новых технологий. Эти различия и влияют на заработок. Сайенс зарабатывают на 15-20% больше. — прокомментировала Белоусова Юлия Владимировна, профориентолог.
На данный момент в сервисе HeadHunter есть не так много вакансий на должность Data Scientist (на 18 февраля 418 вакансий), однако все они обеспечены хорошей зарплатой от 150 000 рублей, а порой и приятными дополнительными бонусами. Вакансии открыты как у крупного бизнеса (Яндекс, Лента, Kaspi.kz, Adriver), так и у небольших предпринимателей. С ростом рынка и, как выше уже прокомментировал Александр Чальян, с ростом объёма поступающей бизнесу информации интерес и потребность в Data Scientist будет продолжать увеличиваться.