редакции Выбор
3 подробных примера проектов для начинающих аналитиков данных
От автора Telegram-канала Аналитика и Growth mind-set (делюсь кейсами с работы, бесплатным обучением, задачами с собеседований).
Изучать теорию в любом деле — это хорошо. Но без практики это может оказаться тупиковым путем.
Я сейчас завершаю читать книгу «Суперобучение», так в ней автор вообще рекомендует все обучение начинать сразу с практики.
Поэтому далее делюсь 3 примерами проектов для начинающих аналитиков данных, на которых можно попрактиковаться и которые можно положить в портфолио. В статье приведены кусочки из проектов, если хотите прочитать подробнее, смотрите по ссылкам, которые указаны в каждом примере.
Проект очистки данных и исследовательского анализа популярных видео на YouTube
В этой статье рассказывается, как аналитик данных Раахим Хан очищал набор ежедневно обновляемой статистики популярных видео на YouTube.
Инструмент, используемый в этом проекте, — это Python (библиотеки Numpy и Pandas, а для визуализации и исследования данных — Matplotlib и Seaborn и другие).
Сам проект с выводами и кодом можно почитать на Medium. Дата сет, который использует в проекте, на Kaggle.
Раахим сначала очищает данные (исправляет типы данных, проверяет отсутствующие значения, объединяет датафреймы в один фрейм данных и тд).
Один из примеров: Затем проводит исследовательский анализ данных, последовательно задавая вопросы и отвечая на них с помощью кода и визуализации. Один из примеров: *Видео из какой категории больше нравятся пользователям? Как мы видим, наиболее популярной категорией является «Развлечения» для всех стран. Это показывает, что пользователи предпочитают использовать YouTube в качестве развлекательной платформы. Даниэла Круз взяла существующий набор данных об американских университетах в 2013 году из Kaggle и использовала его для изучения того, почему студенты предпочитают один университет другому. Инструмент, используемый в этом проекте, — это Python (библиотеки Numpy и Pandas, а для визуализации и исследования данных — Matplotlib и Seaborn). Проект исследование с визуализацией и выводыми можно почитать на Medium. А если вы хотите увидеть проект от начала до конца с кодом, то здесь. В ходе анализа Даниэла последовательно задает несколько вопросов и отвечает на них с помощью визуализации и выводов. Один из примеров: * Студенты делают выбор в пользу университета с низкой стоимости проживания в кампусе? Больше полезного в моем телеграм-канале, подписывайтесь! Согласно левому рисунку, в случае государственных университетов средняя стоимость обучения для студентов из других штатов намного выше, чем для студентов из штатов. С другой стороны, в случае частных университетов средняя стоимость для студентов в штате и за его пределами одинакова. Однако в целом средняя стоимость, предлагаемая государственными университетами, ниже, чем стоимость, предлагаемая частными университетами. Глядя на правое изображение, мы обнаруживаем, что высокие показатели зачисления чаще встречаются, когда затраты доступны. Это говорит нам о том, что студенты в целом предпочитают университеты с доступной стоимостью проживания в кампусе. И эти доступные расходы на проживание в кампусе принадлежат в основном государственным университетам, поэтому в них, как правило, самый высокий уровень зачисления. Аналитик данных Ханна Ян Хан визуализирует уровень навыков, необходимый для 60 различных видов спорта, чтобы определить, какой из них самый сложный. Проект с визуализацией и выводами по ссылке на Medium, проект с кодом на Github. Пример визуализации из проекта: Больше интересных постов в моем телеграм канале по аналитике Аналитика и Growth mind-set: На моем канале вы прочтете: личные кейсы, опыт работы, бесплатные полезные ресурсы, мой путь в IT. Также у меня есть личный канал Маруся in the world.
Проект исследовательского анализа данных американских университетов
Проект визуализации навыков, необходимых для 60 различных видов спорта