Главное Авторские колонки Вакансии Образование
Выбор редакции:
380 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Бесплатно собрать данные: расширение от iDatica

Привет! Мы сделали расширение для бесплатного сбора данных с сайтов, сейчас расскажу, зачем и для кого.
Мнение автора может не совпадать с мнением редакции

Мы — компания «iDatica» занимаемся коммерческим сбором данных, мониторингом цен. Данные собираем, что называется в «промышленных масштабах» — миллионы значений, парсинг приложений и динамическое содержимое, прокси, постобработка, обход капчи, мониторинг качества, бэкапы, вот это вот все. Для таких задач нет универсального инструмента, не стандартные требования = кастомная разработка.

Но, к нам обращаются и не крупные заказчики, основная задача которых — разовый парсинг какого-либо каталога или даже определенной категории на сайте. На такие работы тратиться время, а стоимость не всегда оправдывает затраты и мы сделали расширение чтобы такие работы можно было сделать самостоятельно и бесплатно.

Может появиться вопрос — «зачем же делать парсер, если расширения с похожим функционалом уже есть?» Потому, что не удалось найти расширение, которое бы решало описанные задачи и было более-менее универсальным.

Часть из рассмотренных расширений работает в режиме «без кода», т.е. само ищет повторяющиеся блоки данных на странице, но как только попадается сложный сайт — данные «едут» или расширение уходит в цикл поиска значений, из которого не возвращается. Часть расширений предоставляют минимальный функционал, а за большую функциональность или сам сбор данных нужно платить (об этом вы можете узнаеть после регистрации). Часть слишком сложны или интерфейс на китайском (бесспорно для кого-то будет плюсом).

Функциональные возможности расширения для парсинга

В нашем расширении нет ракетных технологий — приложение с простым интерфейсом, ручными настройками и возможностью сохранять/загружать шаблоны.

Для поиска данных используется xpath запрос или css селектор. С одной стороны нужно уметь написать путь к элементу, с другой вы получаете возможность «ручного управления» — самостоятельно выбрать какие данные получить. Пусть вас не пугает xpath и css, если вы с ними не знакомы, у нас есть статья, которая на примерах научит базово использовать эти инструменты.


Список возможностей расширения:

  1. Парсинг каталогов с пагинацией (автоматизируется нажатие кнопки «далее»);
  2. Парсинг своего набора ссылок;
  3. Возможность ограничить сбор данных в нужной части страницы (этот же функционал задает повторяющиеся блоки карточек товара при парсинге интернет-магазинов);
  4. Возможность задать задержку между переходом на следующую страницу (избегаем блокировки, но увеличиваем время парсинга);
  5. Автоматический поиск xpath и css селектора до нужного элемента;
  6. Предпросмотр — визуально находит на странице элемент;
  7. Предпросмотр — какие данные на странице собирает написанный запрос и их общее количество;
  8. Загрузка и сохранение шаблонов (на нашем сайте нас можно скачать несколько готовых);
  9. Экспорт данных в csv и json;
  10. Лог всего происходящего.

Принимаются критика и пожелания.

*****************************************

Страница расширения

Страница в Google chrome

Страница в Edge

У нас можно заказать коммерческий сбор данных с сайтов или мобильных приложений.

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем
Комментарии
Выбрать файл
Блог проекта
Расскажите историю о создании или развитии проекта, поиске команды, проблемах и решениях
Написать
Личный блог
Продвигайте свои услуги или личный бренд через интересные кейсы и статьи
Написать

Spark использует cookie-файлы. С их помощью мы улучшаем работу нашего сайта и ваше взаимодействие с ним.