В 2019 году мы подготовили и опубликовали robots.txt для сайтов на 1С-Битрикс. Сегодня мы предлагаем обновленный в 2022 году файл правильного robots.txt.
Мнение автора может не совпадать с мнением редакции
Правильный robots.txt учитывает особенности Битрикс последних версий, а также robots.txt для популярных решений Aspro Next, Сотбит, Deluxe, Nextype Magnit и решений корпоративных сайтов Aspro.
При подготовке помимо рекомендаций поисковых сиcтем и анализа демо сайтов на решениях мы изучили индексацию реальных сайтов и попадание страниц в исключенные. Также в файле учтены get-параметры, которые чаще всего вызывают дублирование страниц, на которые «ругается» Яндекс Вебмастер, параметр ysclid от новой механики Яндекса для более точного распознавания поисковых фраз в браузерах с ограничением межсайтовых cookies и другие особенности.
Особенности предлагаемого robots для сайтов Битрикс
Учет сортировки
Фильтрация
Учет пагинации
Очистка от get параметров
Закрытие служебных страниц
Закрытие личного кабинета
Работа с папкой local
Открытие для индексации необходимых поисковикам файлов стилей
Закрытие доступа наиболее активным и бесполезным ботам и ограничение скорости обхода всем кроме Яндекс и Google для снижения нагрузки
Robots.txt — это текстовый файл, который содержит указания — параметры индексирования сайта для роботов поисковых систем. Поисковики поддерживают стандарт исключений для роботов (Robots Exclusion Protocol) с расширенными возможностями.
Назначение файла robots.txt
Как подсказывает Яндекс файл robots.txt необходим для того, чтобы запретить индексирование разделов сайта или отдельных страниц. Например, закрыть от индексации:
страницы с конфиденциальными данными;
страницы с результатами поиска по сайту;
статистика посещаемости сайта;
дубликаты страниц;
разнообразные логи;
сервисные служебные страницы.
Но. Не стоит забывать, что Google указывает на несколько иное назначение файла robots.txt, указывая основное назначение не запрет индексации, а снижение нагрузки на переобход сайта.
«Файл robots.txt не предназначен для блокировки показа веб-страниц в результатах поиска Google. Если на других сайтах есть ссылки на вашу страницу, содержащие ее описание, то она все равно может быть проиндексирована, даже если роботу Googlebot запрещено ее посещать. Чтобы исключить страницу из результатов поиска, следует использовать другой метод, например защиту паролем или директиву noindex. Если файл robots.txt запрещает роботу Googlebot обрабатывать веб-страницу, она все равно может показываться в Google. Чтобы полностью исключить страницу из Google Поиска, следует использовать другие методы.»
Настройка robots.txt
Начиная с версии 14 модуля Поисковая оптимизация больше не требуется создавать вручную файл robots.txt для сайта. Теперь его создание можно выполнять с помощью специального генератора, который доступен на странице Управление robots.txt (Маркетинг > Поисковая оптимизация > Настройка robots.txt). Форма, представленная на данной странице, позволяет создать, управлять и следить за файлом robots.txt вашего сайта. В админпанели Битрикс robots.txt можно сформировать в автоматическом режиме или исправить вручную. Настройки в админпанели Битрикса доступны по адресу /bitrix/admin/seo_robots.php?lang=ru