Главное Авторские колонки Вакансии Вопросы
😼
Выбор
редакции
1 042 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

3 подробных примера проектов для начинающих аналитиков данных

Изучать теорию в любом деле - это хорошо. Но без практики это может оказаться тупиковым путем.
Мнение автора может не совпадать с мнением редакции

От автора Telegram-канала Аналитика и Growth mind-set (делюсь кейсами с работы, бесплатным обучением, задачами с собеседований).

Изучать теорию в любом деле — это хорошо. Но без практики это может оказаться тупиковым путем.

Я сейчас завершаю читать книгу «Суперобучение», так в ней автор вообще рекомендует все обучение начинать сразу с практики.

Поэтому далее делюсь 3 примерами проектов для начинающих аналитиков данных, на которых можно попрактиковаться и которые можно положить в портфолио. В статье приведены кусочки из проектов, если хотите прочитать подробнее, смотрите по ссылкам, которые указаны в каждом примере.

Проект очистки данных и исследовательского анализа популярных видео на YouTube

В этой статье рассказывается, как аналитик данных Раахим Хан очищал набор ежедневно обновляемой статистики популярных видео на YouTube.

Инструмент, используемый в этом проекте, — это Python (библиотеки Numpy и Pandas, а для визуализации и исследования данных — Matplotlib и Seaborn и другие).

Сам проект с выводами и кодом можно почитать на Medium. Дата сет, который использует в проекте, на Kaggle.

Раахим сначала очищает данные (исправляет типы данных, проверяет отсутствующие значения, объединяет датафреймы в один фрейм данных и тд).

Один из примеров:


Затем проводит исследовательский анализ данных, последовательно задавая вопросы и отвечая на них с помощью кода и визуализации.

Один из примеров:

*Видео из какой категории больше нравятся пользователям?


Как мы видим, наиболее популярной категорией является «Развлечения» для всех стран. Это показывает, что пользователи предпочитают использовать YouTube в качестве развлекательной платформы.

Проект исследовательского анализа данных американских университетов

Даниэла Круз взяла существующий набор данных об американских университетах в 2013 году из Kaggle и использовала его для изучения того, почему студенты предпочитают один университет другому.

Инструмент, используемый в этом проекте, — это Python (библиотеки Numpy и Pandas, а для визуализации и исследования данных — Matplotlib и Seaborn).

Проект исследование с визуализацией и выводыми можно почитать на Medium. А если вы хотите увидеть проект от начала до конца с кодом, то здесь.

В ходе анализа Даниэла последовательно задает несколько вопросов и отвечает на них с помощью визуализации и выводов.

Один из примеров:

* Студенты делают выбор в пользу университета с низкой стоимости проживания в кампусе?


Больше полезного в моем телеграм-канале, подписывайтесь!

Согласно левому рисунку, в случае государственных университетов средняя стоимость обучения для студентов из других штатов намного выше, чем для студентов из штатов. С другой стороны, в случае частных университетов средняя стоимость для студентов в штате и за его пределами одинакова. Однако в целом средняя стоимость, предлагаемая государственными университетами, ниже, чем стоимость, предлагаемая частными университетами.

Глядя на правое изображение, мы обнаруживаем, что высокие показатели зачисления чаще встречаются, когда затраты доступны. Это говорит нам о том, что студенты в целом предпочитают университеты с доступной стоимостью проживания в кампусе.


И эти доступные расходы на проживание в кампусе принадлежат в основном государственным университетам, поэтому в них, как правило, самый высокий уровень зачисления.

Проект визуализации навыков, необходимых для 60 различных видов спорта

Аналитик данных Ханна Ян Хан визуализирует уровень навыков, необходимый для 60 различных видов спорта, чтобы определить, какой из них самый сложный.

Проект с визуализацией и выводами по ссылке на Medium, проект с кодом на Github.

Пример визуализации из проекта:


Больше интересных постов в моем телеграм канале по аналитике Аналитика и Growth mind-set:

  1. 10+ бесплатных курсов по аналитике данных от Harvard University, Google, IBM и других
  2. Тестовое задание на аналитика данных в Food Panda — это крупнейшая онлайн-платформа доставки еды и продуктов в Азии со штаб-квартирой в Сингапуре.
  3. 39 ресурсов для поиска работы в IT зарубежом

На моем канале вы прочтете: личные кейсы, опыт работы, бесплатные полезные ресурсы, мой путь в IT.

Также у меня есть личный канал Маруся in the world.

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем
Комментарии
Выбрать файл
Блог проекта
Расскажите историю о создании или развитии проекта, поиске команды, проблемах и решениях
Написать
Личный блог
Продвигайте свои услуги или личный бренд через интересные кейсы и статьи
Написать

Spark использует cookie-файлы. С их помощью мы улучшаем работу нашего сайта и ваше взаимодействие с ним.