Почему страницы не индексируются Google: три типа проблем

Несмотря на отправку URL-адресов через XML-карты сайта и соблюдение рекомендаций, некоторые страницы все равно попадают в категорию «Не проиндексировано» в GSC.
Обычно страницы могут не быть проиндексированы по трем причинам:
- Страница не выполняет технические требования для индексации Google.
- На странице есть дублированный контент: алгоритм канонизации Google может выбрать не тот канонический URL из группы дубликатов.
- Google считает, что у страницы низкое качество.
1. Технические требования для индексации
К этой категории относятся ошибки, когда Google не может проиндексировать страницу, потому что не выполнены технические требования:
- Ошибка сервера (5xx);
- Ошибка переадресации;
- URL заблокирован robots.txt;
- URL помечен как noindex;
- Soft 404;
- Заблокировано из-за неавторизованного запроса (401);
- Не найдено (404);
- Заблокировано, доступ запрещен (403);
- URL заблокирован из-за другой ошибки 4xx;
- Страница с переадресацией.
Нужно уточнить, что ошибка переадресации сама по себе — не препятствие для индексации, если редирект настроен корректно. Обычно проблемы возникают при циклических редиректах или слишком длинных цепочках перенаправлений, которые затрудняют сканирование.
Требования Google, которые нужно выполнить, чтобы страница проиндексировалась:
- Робот Google может зайти на страницу.
- Google получает код ответа HTTP 200.
- Страница содержит индексируемый контент.
Технические ошибки пользователь обычно может исправить самостоятельно.
Робот Google не может зайти на страницу
Если важная страница возвращает ошибку, убедитесь, что поисковый робот может её просканировать. Важная страница может быть заблокирована, если:
- В файле robots.txt есть правило, которое блокирует сканирование страницы.
- Страница скрыта за формой входа (логином).
- CDN (сеть доставки контента) частично или полностью блокирует поискового робота.
Вы можете проверить, заблокирована ли важная страница, с помощью инструмента Анализ сайта в разделе «Аудит сайта». Если важная страница не возвращает код ответа HTTP 200, то поисковый робот не проиндексирует её. Есть несколько причин, почему важная страница может возвращать код состояния, который отличается от HTTP 200. Это может быть связано с тем, что страница была перенаправлена (3xx), возвращает ошибку 4xx или 5xx. JavaScript-сайт также может возвращать неверные коды состояния для важных страниц. Иногда поисковый робот еще не успевает просканировать страницу, или отчетам требуется время, чтобы отобразить изменения, внесенные на ваш сайт. Поэтому если вы знаете, что страница была недавно изменена, не стоит паниковать. Можно проверить страницу с помощью инструмента проверки URL в Google Search Console. Если на важной странице есть тег noindex (в мета-теге robots или HTTP-заголовке X-Robots-Tag), Google не будет отображать и индексировать эту страницу. Отдельно стоит отметить ошибку Soft 404. Если она возникает на важной странице, это означает, что Google подумал: контент на этой странице должен возвращать ошибку 404. Обычно это случается, когда Google обнаруживает похожий, небольшой по объему контент на нескольких страницах: это заставляет его думать, что эти страницы должны возвращать ошибку 404. Эти ошибки связаны с процессом канонизации Google: Когда Google находит дубликаты страниц на сайте, он: Этот процесс называется канонизацией. Google постоянно оценивает канонические сигналы, чтобы определить, какой URL должен быть каноническим для кластера и наиболее релевантным для пользователей. Он смотрит на: Если страница раньше была канонической, но новые сигналы заставляют Google выбрать другой URL в кластере, то исходная страница удаляется из результатов поиска. Это может произойти, даже если вы используете тег canonical. Поэтому важно убедиться в том, что канонические сигналы на вашем сайте согласованы для URL-адресов, которые вы хотите видеть в результатах поиска. Подписывайтесь на наш ВК и Телеграм, чтобы узнавать последние новости SEO и подсматривать новые фишки продвижения. Эти ошибки основаны на сигналах страниц, которые Google собирает со временем: Чтобы не затронуть те страницы, которые не важны для индексации, нужно разделить важные страницы на две категории: Важно регулярно проверять статус индексации. Это поможет определить, к какой категории относятся неиндексированные страницы, и принять нужные меры. Проверить статус индексации в Google или Яндекс вы можете с помощью онлайн-инструмента. Введите список URL в поле, выберите поисковую систему и запустите проверку: инструмент оценит состояние страниц и отметит галочкой проиндексированные. Технические затруднения и проблемы с дублированным контентом, как правило, вполне решаемы. Их можно исправить с помощью стандартных методов оптимизации. Проблемы с качеством страницы требуют более глубокого анализа. Часто они сигнализируют о более серьезных проблемах с тем, насколько контент соответствует ожиданиям пользователей и поисковых систем.

Google не получает код ответа HTTP 200

Страница не содержит индексируемый контент
2. Дублированный контент
Почему Google может выбрать не тот canonical, что пользователь
3. Низкое качество страницы
Что в итоге
