Главное Авторские колонки Вакансии Образование
Выбор редакции:
2 681 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Учимся писать парсеры: страницы с подгрузкой

Как написать парсер для сайтов, где содержимое бесконечно подгружается на страницу с помощью Javascript. Учимся на примере с Instagram.
Мнение автора может не совпадать с мнением редакции

Очень много вопросов возникает у людей, которые пытаются парсить сайты, данные на которые подгружаются когда человек прокручивает страницу до конца вниз. Поскольку этот процесс осуществляется с помощью JS и у всех по разному, создать какое-то универсальное решение не получится. Именно поэтому ни один визуальный редактор, который не имеет поддержки JS не справится с такой задачей. Единственным более менее универсальным решением могло бы служить использование headless браузера, однако с точки зрения расходования серверных ресурсов оно будет слишком затратным. Лучше потратить 10-20 минут на изучение механизма работы ресурса, чем в последствии бесконечно тратить лишнее процессорное время. Поэтому мы будем решать эту задачу используя мета-язык сервиса Диггернаут.

Как пример, мы будем использовать Instagram, поскольку он является, наверное, самым ярким представителем класса сайтов с автоматической подгрузкой данных. Поскольку задача не совсем тривиальная, статья получилась большой, с множеством вставок кода, картинок, исходников. Как обычно, из инструментов у нас будет только Google Chrome, руки и голова.

Как парсить страницы сайтов с автоподгрузкой на примере Instagram

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем
Комментарии
Выбрать файл
Блог проекта
Расскажите историю о создании или развитии проекта, поиске команды, проблемах и решениях
Написать
Личный блог
Продвигайте свои услуги или личный бренд через интересные кейсы и статьи
Написать

Spark использует cookie-файлы. С их помощью мы улучшаем работу нашего сайта и ваше взаимодействие с ним.