9 задач, которые помогает решить функция парсинга
1. Парсинг цен конкурентов
Первое, с чем ассоциируется у многих парсинг как таковой — это получение данных по ценам с сайтов конкурентов. Для того, чтобы извлечь цены с большинства сайтов, необходимо:
- Открыть карточку товара;
- Выделить элемент цены;
- Кликнуть по нему правой кнопкой мыши и выбрать в контекстном меню команду «Исследовать код»;
- Кликнуть правой кнопкой мыши по строке кода, отвечающей за отображение цены (она будет подсвечена голубым) и скопировать XPath элемента;
- Зайти в Netpeak Spider и открыть настройки → Парсинг;
- Выбрать режим поиска «Xpath» и область поиска — «Внутренний текст»;
- Вставить XPath в строку поиска;
- Запустить сканирование и по завершению сканирования открыть на боковой панели вкладку Отчёты → Парсинг;
- Нажать «Все результаты» для получения результатов парсинга.
Парсинг цен может быть интересен не только маркетологам, отвечающим за ценообразование, но и PPC-специалистам: подключив ещё несколько параллельных потоков парсинга, можно собрать почти все необходимые данные для товарного фида, а также корректировать ставки с учётом цен конкурентов.
2. Анализ контента конкурентов
Одна из задач анализа контента конкурентов — выяснить, какие из их публикаций пользуются наибольшей популярностью (имеют наиболее высокие показатели вовлечённости). Эти данные нужны для построения наиболее эффективной контентной стратегии для вашего собственного бизнеса или клиентов. Для того, чтобы выяснить, какие публикации ваших конкурентов популярнее прочих, следует:
- Открыть страницу любого поста;
- Найти счётчики показателей вовлечённости (просмотры, лайки, комментарии и т.п.);
- Выделить правой кнопкой мыши интересующий вас показатель;
- Открыть код элемента и скопировать его XPath;
- По аналогии с извлечением цен настроить и запустить парсинг в Netpeak Spider.
3. Поиск определённых орфографических ошибок на сайте
Эта задача касается тех случаев, когда вы обнаруживаете многократное повторение одной и той же орфографической ошибки на многих страницах сайта, а в запасе нет бесконечных часов для ручной проверки каждой из них. Парсинг в Netpeak Spider поможет ускорить автоматизировать этот процесс. Для этого достаточно:
- Открыть настройки → «Парсинг»;
- Выбрать режим поиска «Содержит» и область поиска «Только текст»;
- Запустить сканирование;
- Выгрузить отчёт с результатами парсинга, чтобы увидеть, на каких страницах присутствует текст с указанной вами ошибкой.
4. Парсинг контактных данных
Если, к примеру, у вас есть большой перечень площадок, с которыми вы хотели бы сотрудничать, обмениваться контентом или ссылками, вы можете ускорить процесс поиска контактов при помощи парсинга. Чтобы сэкономить время и извлечь все необходимые контактные данные в автоматическом режиме, выполните следующие действия:
- Откройте настройки → «Парсинг»;
- Выберите режим поиска «XPath» и область поиска — «Внутренний текст»;
- В строку поиска вставьте //a[starts-with(@href, 'mailto')] для поиска электронных адресов или //a[starts-with(@href, 'tel')] для поиска телефонных номеров.
5. Проверка наличия микроразметки
Если вы хотите убедиться, что, к примеру, на каждой товарной странице внедрены структурированные данные (микроразметка) глоссария Schema, вы можете использовать следующий сценарий:
- Откройте настройки → «Парсинг»;
- Выберите режим поиска «Содержит» и область поиска «Весь исходный код»;
- Если вам нужно убедиться в наличии конкретного элемента, вставьте в строку поиска itemprop="name" (а месте name может быть любой другой элемент глоссария Schema);
- Если нужно увидеть всю микроразметку целиком, чтобы проверить, к примеру, корректно ли выставлен itemtype для целого сайта/раздела, воспользуйтесь режимом поиска «XPath», выставьте область поиска «Весь HTML-элемент» и в строку поиска вставьте //*[@itemtype]/@itemtype.
6. Проверка правильности внедрения систем аналитики
С помощью парсинга в Netpeak Spider можно выяснить, внедрены ли на всех нужных страницах коды отслеживания Google Analytics и Google Tag Manager.
Для того, чтобы это сделать, вам нужно:
- Открыть настройки → «Парсинг»;
- Выбрать режим поиска «RegExp» и область поиска — «Весь исходный код»;
- Поместить в строку поиска GTM-\w+ (для GTM) и/или XX-\w+ (для GA, где XX — первые две буквы персонального идентификатора);
- Запустить поиск и выгрузить отчёт с результатами парсинга для передачи веб-разработчику в работу.
7. Проверка правильности внедрения атрибута hreflang
Если на вашем сайте присутствует несколько языковых версий, вам наверняка приходилось сталкиваться с процедурой внедрения атрибута hreflang. От того, насколько корректно вы её осуществили, зависит восприятие поисковыми системами вашего сайта и его нескольких версий. Именно поэтому особенно важно проверить, на всех ли страницах (сайта, раздела, списка страниц) присутствует hreflang и ссылка на альтернативную версию сайта. Чтобы провести такую проверку, вам нужно:
- Открыть настройки → «Парсинг»;
- Выбрать режим поиска «CSS-селектор» и извлечение данных — «Внутренний HTML-код»;
- Если вы хотите убедиться в наличии hreflang в принципе, то в строку поиска вставьте link[hreflang];
- Если же вас интересует hreflang, указывающий на какую-то определённую языковую версию, то используйте для поиска link[hreflang='xx-YY'], где вместо xx-YY указан идентификатор языка/региона;
8. Поиск любых скриптов или отрывков кода
Если на вашем сайте работают вручную установленные сторонние скрипты, отвечающие за виджеты социальных сетей, системы комментирования, социальные кнопки и прочее, парсинг поможет понять, везде ли присутствует нужный скрипт, и не оказался ли он на тех страницах, где в этом нет нужды. Чтобы выяснить, на каких страницах присутствует (или отсутствует) искомый скрипт, возьмите небольшую его часть и запустите поиск в режиме «Содержит» с областью поиска «Весь исходный код».
9. Поиск страниц со встроенным медиаконтентом
Если у вас есть сайт с большим количеством страниц, и вам срочно нужно узнать, на каких из них присутствует встроенный при помощи iFrame контент (видео с Youtube и Vimeo, аудиозаписи и плейлисты с Soundcloud, Bandcamp и т.п.), парсинг вам поможет справиться и с этим.
- Открыть настройки → «Парсинг»;
- Выбрать режим поиска «Содержит» и область поиска — «Весь исходный код»;
- Поместить в строку поиска;
- Запустить парсинг;
- Получить отчёт со ссылками на страницы, содержащие iFrame.
Весь объём задач, которые можно решать с парсингом в Netpeak Spider, упрощая и автоматизируя рутинные процедуры, не ограничивается упомянутыми выше. На деле их число ограничивается лишь вашей изобретательностью и потребностью в автоматизации.