Главное Авторские колонки Вакансии Вопросы
451 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Big Data: История одного нотификатора

Пошаговая инструкция по подключению ваших данных за пять минут.
Мнение автора может не совпадать с мнением редакции

b_5b1665894d0d2.jpg

Представим, что вы очень любите футбол.

Согласитесь, было бы неплохо иметь собственный сервис с уведомлениями о последних новостях из мира футбола? Еще лучше, если бы вы с помощью фильтров могли избавить себя от просмотра нескончаемого мусора, вызванного очередной трансферной сагой.

Или представим, что вы музыкальный фанат. Как среди огромного количества музыкальных порталов узнавать важную информацию о своих любимых группах и исполнителях без траты собственного времени?

Не стоит сдаваться и ждать милости от новостных порталов. Пришло время взять все в свои руки.

Когда подборка новостей с существующих ресурсов не устраивает, а вы просто хотите быть в курсе, узнавать инсайды и читать новости в оригинале поможет система iDVP.Data SaaS. Вы можете настроить формирование новостной ленты под свои предпочтения, как с сайтов, имеющих свое API, так и с с обычных сайтов (скрапинг – милое дело).

iDVP.Data SaaS - это инструмент, позволяющий работать с вашими данными в облаке. Как это работает?

Зайдем на сайт платформы https://idvp.io/ и зарегистрируемся.

b_5b16ab1b54cc6.jpg
После завершения регистрации мы попадаем на стартовую страницу, где можем ознакомиться с демонстрационными рабочими пространствами..

b_5b166956c4638.jpg

Но так как обучаться в процессе, на мой взгляд, эффективнее – перейдем к решению нашей задачи.

Сперва определимся с составом команды, ее названием и распределением ролей. После отправки приглашения участник получает на свой e-mail ссылку для доступа к рабочим пространствам команды.

b_5b166a8b63962.jpg

В любой момент мы можем изменить роли, а также пригласить и удалить участников команды.

Добавляем новое рабочее пространство, в котором мы будем строить поток данных (цепочка от источников данных до выходных сервисов).

Допустим, нас интересует Ла Лига и АПЛ и мы выбираем, соответственно, сайты газет Marca и The Telegraph. РФПЛ тоже добавим, поэтому еще подключимся к sports.ru

Заходим на wrapapi.com (заранее регистрируемся) и поочередно делаем API для каждого из источников.

Выделяем элементы веб-страницы, относящиеся к заголовкам новостей (с такой привязкой мы сможем обновлять данные в будущем – они попадут в наш новоиспеченный API:

b_5b166b5bbaed4.jpg
Возвращаемся к нашему рабочему пространству и подключаем наше сконструированное API и выполняем запрос для проверки подключения. Выставляем формат ответа, как JSON (также доступен XML, TXT) и сохраняем:

b_5b166ea042177.jpg
Далее нам нужно привести этот ответ в табличный вид. Для этого мы создаем наборы данных (Datasets), где выполняем различные преобразования над данными полученными из источников (очистка данных, вычисления или, например, парсинг данных из JSON) при помощи SQL-скриптов. В результате получаем преобразованные данные:

b_5b166eff61e03.jpg
После подключения данных и их преобразованию скорость доступа полученной информации все еще может быть низка (из-за долгого ответа источника или из-за большого объема данных). Здесь срабатывает механизм «материализации» (сохранения) данных в самой iDVP.Data SaaS. Обращение к сохраненным данным осуществляется крайне быстро даже при работе с большими объемами информации за счет использования технологий BigData.

b_5b16ad81c7cb9.jpg

Опережая вопрос: «Смогу ли я накапливать данные, а не получать каждый раз с нуля?». Без проблем.

В таком случае вам поможет инкрементальное обновление, которое будет накапливать новости по установленному вами расписанию:

b_5b166f2e71202.jpg

По аналогии подключим новостной источник Marca.

По пути заглянем на Last.fm, чтобы добавить немного музыки нашему нотификатору.

b_5b166f9043ea0.jpg

Единым запросом собираем все источники в одну витрину данных (web-сервис, объявление которых осуществляется также SQL-запросами).

b_5b1670745d31b.jpg
После сохранения мы видим итоговый для нашей задачи поток данных:

b_5b16708626462.jpg

После формирования витрины данных, мы можем сделать ее публичной, выставив флажок напротив «Данные доступны внешним пользователям» или же закрытой.

Полученную ссылку можно предоставлять во внешние системы и подключать, как сервисы, в которой будут передаваться ваши данные в формате JSON.

b_5b6c3fff15bc4.jpg

b_5b6c4028094c8.jpg

Теперь мы получили нотификатор в свое распоряжение и можем подвести итоги.

Если нужно быстро и легко справиться с данными, то можно воспользоваться системой iDVP.Data SaaS, которая на данный момент проходит этап бета-тестирования. Наша команда надеется, что среди вас, дочитавших эту историю до конца, есть те, кто станут первыми тестировщиками нашего нового инструмента.

С его помощью вы сможете самостоятельно:

  • подключаться к различным источникам;
  • единообразно получать данные из любых источников;
  • выполнять ETL-преобразования данных при помощи SQL;
  • повышать скорость работы с данными с помощью технологий BigData;
  • анализировать данные;
  • предоставлять данные во внешние системы;
  • осуществлять данные операции в удобном и простом интерфейсе.

Удачи!

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем
Комментарии
Выбрать файл
Блог проекта
Расскажите историю о создании или развитии проекта, поиске команды, проблемах и решениях
Написать
Личный блог
Продвигайте свои услуги или личный бренд через интересные кейсы и статьи
Написать

Spark использует cookie-файлы. С их помощью мы улучшаем работу нашего сайта и ваше взаимодействие с ним.