Главное Авторские колонки Вакансии Образование
Выбор редакции:
1 829 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

9 задач, которые помогает решить функция парсинга

Одним из самых распространённых и привычных способов использования функции парсинга является извлечение (парсинг, скрейпинг) артикулов и цен на сайтах конкурентов. Однако, помимо этого, парсинг позволяет решать огромное количество других задач, приоритетных как для маркетологов, так для вебмастеров, менеджеров по продажам, SEO и PPC-специалистов. В этой статье мы рассмотрим несколько злободневных задач, которые можно упростить и автоматизировать при помощи функции парсинга в Netpeak Spider​.
Мнение автора может не совпадать с мнением редакции

b_5afea91a7203e.jpg1. Парсинг цен конкурентов

Первое, с чем ассоциируется у многих парсинг как таковой — это получение данных по ценам с сайтов конкурентов. Для того, чтобы извлечь цены с большинства сайтов, необходимо:

  1. Открыть карточку товара;
  2. Выделить элемент цены;
  3. Кликнуть по нему правой кнопкой мыши и выбрать в контекстном меню команду «Исследовать код»;
  4. Кликнуть правой кнопкой мыши по строке кода, отвечающей за отображение цены (она будет подсвечена голубым) и скопировать XPath элемента;b_5afe9fa11630a.jpg
  5. Зайти в Netpeak Spider и открыть настройки → Парсинг;
  6. Выбрать режим поиска «Xpath» и область поиска — «Внутренний текст»;
  7. Вставить XPath в строку поиска;b_5afe9ff28e896.jpg
  8. Запустить сканирование и по завершению сканирования открыть на боковой панели вкладку Отчёты → Парсинг;
  9. Нажать «Все результаты» для получения результатов парсинга.

Парсинг цен может быть интересен не только маркетологам, отвечающим за ценообразование, но и PPC-специалистам: подключив ещё несколько параллельных потоков парсинга, можно собрать почти все необходимые данные для товарного фида, а также корректировать ставки с учётом цен конкурентов.

2. Анализ контента конкурентов

Одна из задач анализа контента конкурентов — выяснить, какие из их публикаций пользуются наибольшей популярностью (имеют наиболее высокие показатели вовлечённости). Эти данные нужны для построения наиболее эффективной контентной стратегии для вашего собственного бизнеса или клиентов. Для того, чтобы выяснить, какие публикации ваших конкурентов популярнее прочих, следует:

  1. Открыть страницу любого поста;
  2. Найти счётчики показателей вовлечённости (просмотры, лайки, комментарии и т.п.);
  3. Выделить правой кнопкой мыши интересующий вас показатель;b_5afea08ae2178.jpg
  4. Открыть код элемента и скопировать его XPath;
  5. По аналогии с извлечением цен настроить и запустить парсинг в Netpeak Spider.

3. Поиск определённых орфографических ошибок на сайте

Эта задача касается тех случаев, когда вы обнаруживаете многократное повторение одной и той же орфографической ошибки на многих страницах сайта, а в запасе нет бесконечных часов для ручной проверки каждой из них. Парсинг в Netpeak Spider поможет ускорить автоматизировать этот процесс. Для этого достаточно:

  1. Открыть настройки → «Парсинг»;
  2. Выбрать режим поиска «Содержит» и область поиска «Только текст»;
  3. Запустить сканирование;
  4. Выгрузить отчёт с результатами парсинга, чтобы увидеть, на каких страницах присутствует текст с указанной вами ошибкой.

4. Парсинг контактных данных

Если, к примеру, у вас есть большой перечень площадок, с которыми вы хотели бы сотрудничать, обмениваться контентом или ссылками, вы можете ускорить процесс поиска контактов при помощи парсинга. Чтобы сэкономить время и извлечь все необходимые контактные данные в автоматическом режиме, выполните следующие действия:

  1. Откройте настройки → «Парсинг»;
  2. Выберите режим поиска «XPath» и область поиска — «Внутренний текст»;
  3. В строку поиска вставьте //a[starts-with(@href, 'mailto')] для поиска электронных адресов или //a[starts-with(@href, 'tel')] для поиска телефонных номеров.

b_5afea138139f5.jpg

5. Проверка наличия микроразметки

Если вы хотите убедиться, что, к примеру, на каждой товарной странице внедрены структурированные данные (микроразметка) глоссария Schema, вы можете использовать следующий сценарий:

  1. Откройте настройки → «Парсинг»;
  2. Выберите режим поиска «Содержит» и область поиска «Весь исходный код»;
  3. Если вам нужно убедиться в наличии конкретного элемента, вставьте в строку поиска itemprop="name" (а месте name может быть любой другой элемент глоссария Schema);
  4. Если нужно увидеть всю микроразметку целиком, чтобы проверить, к примеру, корректно ли выставлен itemtype для целого сайта/раздела, воспользуйтесь режимом поиска «XPath», выставьте область поиска «Весь HTML-элемент» и в строку поиска вставьте //*[@itemtype]/@itemtype.

6. Проверка правильности внедрения систем аналитики

С помощью парсинга в Netpeak Spider можно выяснить, внедрены ли на всех нужных страницах коды отслеживания Google Analytics и Google Tag Manager.

Для того, чтобы это сделать, вам нужно:

  1. Открыть настройки → «Парсинг»;
  2. Выбрать режим поиска «RegExp» и область поиска — «Весь исходный код»;
  3. Поместить в строку поиска GTM-\w+ (для GTM) и/или XX-\w+ (для GA, где XX — первые две буквы персонального идентификатора);
  4. Запустить поиск и выгрузить отчёт с результатами парсинга для передачи веб-разработчику в работу.

7. Проверка правильности внедрения атрибута hreflang

Если на вашем сайте присутствует несколько языковых версий, вам наверняка приходилось сталкиваться с процедурой внедрения атрибута hreflang. От того, насколько корректно вы её осуществили, зависит восприятие поисковыми системами вашего сайта и его нескольких версий. Именно поэтому особенно важно проверить, на всех ли страницах (сайта, раздела, списка страниц) присутствует hreflang и ссылка на альтернативную версию сайта. Чтобы провести такую проверку, вам нужно:

  1. Открыть настройки → «Парсинг»;
  2. Выбрать режим поиска «CSS-селектор» и извлечение данных — «Внутренний HTML-код»;
  3. Если вы хотите убедиться в наличии hreflang в принципе, то в строку поиска вставьте link[hreflang];
  4. Если же вас интересует hreflang, указывающий на какую-то определённую языковую версию, то используйте для поиска link[hreflang='xx-YY'], где вместо xx-YY указан идентификатор языка/региона;
Если вас интересует, на какие именно языковые версии указывает атрибут hreflang на тех или иных страницах сайта (или на всех страницах в принципе), выберите режим поиска «XPath» и для извлечения выберите «Весь HTML-элемент». В строку поиска поместите //*[@hreflang]. В таком случае по итогу парсинга вы увидите полный перечень используемых hreflang-ов.

b_5afea17255c5e.jpg

8. Поиск любых скриптов или отрывков кода

Если на вашем сайте работают вручную установленные сторонние скрипты, отвечающие за виджеты социальных сетей, системы комментирования, социальные кнопки и прочее, парсинг поможет понять, везде ли присутствует нужный скрипт, и не оказался ли он на тех страницах, где в этом нет нужды. Чтобы выяснить, на каких страницах присутствует (или отсутствует) искомый скрипт, возьмите небольшую его часть и запустите поиск в режиме «Содержит» с областью поиска «Весь исходный код».

9. Поиск страниц со встроенным медиаконтентом

Если у вас есть сайт с большим количеством страниц, и вам срочно нужно узнать, на каких из них присутствует встроенный при помощи iFrame контент (видео с Youtube и Vimeo, аудиозаписи и плейлисты с Soundcloud, Bandcamp и т.п.), парсинг вам поможет справиться и с этим.

  1. Открыть настройки → «Парсинг»;
  2. Выбрать режим поиска «Содержит» и область поиска — «Весь исходный код»;
  3. Поместить в строку поиска;
  4. Запустить парсинг;
  5. Получить отчёт со ссылками на страницы, содержащие iFrame.

Весь объём задач, которые можно решать с парсингом в Netpeak Spider, упрощая и автоматизируя рутинные процедуры, не ограничивается упомянутыми выше. На деле их число ограничивается лишь вашей изобретательностью и потребностью в автоматизации.

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем
Комментарии
Выбрать файл
Блог проекта
Расскажите историю о создании или развитии проекта, поиске команды, проблемах и решениях
Написать
Личный блог
Продвигайте свои услуги или личный бренд через интересные кейсы и статьи
Написать

Spark использует cookie-файлы. С их помощью мы улучшаем работу нашего сайта и ваше взаимодействие с ним.