Бесплатно собрать данные: расширение от iDatica
Мы — компания «iDatica» занимаемся коммерческим сбором данных, мониторингом цен. Данные собираем, что называется в «промышленных масштабах» — миллионы значений, парсинг приложений и динамическое содержимое, прокси, постобработка, обход капчи, мониторинг качества, бэкапы, вот это вот все. Для таких задач нет универсального инструмента, не стандартные требования = кастомная разработка.
Но, к нам обращаются и не крупные заказчики, основная задача которых — разовый парсинг какого-либо каталога или даже определенной категории на сайте. На такие работы тратиться время, а стоимость не всегда оправдывает затраты и мы сделали расширение чтобы такие работы можно было сделать самостоятельно и бесплатно.
Может появиться вопрос — «зачем же делать парсер, если расширения с похожим функционалом уже есть?» Потому, что не удалось найти расширение, которое бы решало описанные задачи и было более-менее универсальным.
Часть из рассмотренных расширений работает в режиме «без кода», т.е. само ищет повторяющиеся блоки данных на странице, но как только попадается сложный сайт — данные «едут» или расширение уходит в цикл поиска значений, из которого не возвращается. Часть расширений предоставляют минимальный функционал, а за большую функциональность или сам сбор данных нужно платить (об этом вы можете узнаеть после регистрации). Часть слишком сложны или интерфейс на китайском (бесспорно для кого-то будет плюсом).
Функциональные возможности расширения для парсинга
В нашем расширении нет ракетных технологий — приложение с простым интерфейсом, ручными настройками и возможностью сохранять/загружать шаблоны.
Для поиска данных используется xpath запрос или css селектор. С одной стороны нужно уметь написать путь к элементу, с другой вы получаете возможность «ручного управления» — самостоятельно выбрать какие данные получить. Пусть вас не пугает xpath и css, если вы с ними не знакомы, у нас есть статья, которая на примерах научит базово использовать эти инструменты.