Почему полезно иногда анализировать индекс сайта
Сижу я, значит, никого не трогаю, приходит мне письмо с моего сайта. К слову сказать формы обратной связи у меня не защищены, по этой причине валится и откровенный спам. Собственно и в этот раз пришел спам. Некая контора предлагала оптом подсолнечное масло. Решаю изучить сайт, дабы понять что у людей не так, что они опустились до спама.
Сайт гамняненький, видно что принадлежит производителю. Ну думаю, раз уж залез, надо поковыряться. Первым делом открываю Яндекс и Google, вбиваю классическое «site:[домен анализируемого сайта]» и фигею.

В гугле почти 10 000 страниц в индексе при том что в яндексе всего 321 страница.

Когда такое было, чтобы разница в количестве проиндексированного мусора была не в пользу гугла? Обычно у нас яндекс отличался всеядностью и с радостью индексировал любой мусор, который только найдет на сайте. Например у сайта, о котором шла речь в этой статье, яндексом было проиндексированно порядка 7 с лишним тысяч, а у гугла в разы меньше, и это при общем количестве страниц свыше 4-х миллионов.

А тут совсем наоборот. Да и к тому же сайт производителя, а не какого-нибудь ритейлера, а это становится поводом для резонного вопроса: откуда там столько страниц? Это очевидный признак каких-то серьезных проблем, причем даже и не только в robots.txt. Меня это заинтересовала и я полез вниз листать страницы и смотреть чего там такого в индексе. Искать долго не пришлось.

На сайте производителя подсолнечного масла тысячи страниц с какой-то спортивной фигней от Nike и Adidas. И тысячи только в индексе, а сколько не попало в индекс? Пока можно только догадываться, поскольку это можно узнать только после знакомства со статистикой из того же Яндекс.Вебмастера.
По дате индексации можно предположить что проблема появилась где-то весной 2017 ибо страницы в индекс начали попадать уже в начале июня того же года. Самое забавное в том, что физически этих страниц не существует, с этих ссылок идет редирект на левый сайт с длинным названием.
Позвонив по первому попавшемуся номеру, я сообщил человеку о проблеме. Тот был весьма удивлен «Ну вот, я зашел на сайт и не вижу никаких страниц...». Логично, страниц-то по факту и нет, но из-за редиректа получилась вот такая вот «петрушка». В общем предложил человеку наглядно изобразить все в письме, тот заикнулся о сотрудничестве. Было бы интересно посмотреть на основе чего реализована эта фигня. Либо сайт ломанули, либо кто-то из числа людей, у которых был доступ к недрам сайта, осерчал на хозяев сайта.
В общем, мойте руки перед едой. Если есть вопросы, то пишите в вк.