Новости недели: Турбо-страницы Яндекса, Настройка RSS и Robots.txt
Редакторы на вес золота
Работая в режиме "две статьи по 300 слов в день", я вдруг осознал, что если бы таких как я было хотя бы двое - это уже 4 материала в день на ресурс. Подобная мысль не давала мне покоя всю неделю, ведь действительно, в таких проектах важен именно контент. А чем его больше, и чем он разнообразнее, тем лучше. И причем в разы.
Только представьте, если бы один человек писал новости, другой - статьи про программирование, а третий и вовсе мог взять всю нишу приложений. Выглядело бы это прекрасно, да и в Yandex.News можно было бы попасть в разы легче. (Для тех, кто не знает, одним из основных правил отбора в партнеры, у Яндекс.Новостей является именно наличие нескольких авторов на ресурсе. Вероятно это было сделано для того, чтобы контент, как раз-таки, генерировался по несколько штук в день).
К чему же я это все? А к тому, что проекту GitJournal.tech нужны редакторы. И если вы хотите попробовать себя в качестве редактора в нашей дружной (пока еще состоящей из двух человек) команде, то милости просим. Для связи можно использовать как ЛС на данном ресурсе, так и телеграм (@wayne1865).
Турбо-страницы убьют мобильные версии сайтов
Помимо всего прочего, на этой неделе релизнулись "Турбо-страницы" от Яндекса. Если вкратце, то это определенный RSS-фид, который транслируется вам на телефон с серверов Яндекса. Загружаются они (по словам разработчиков) уж очень молниеносно, однако, стоит заметить, вид у них не очень. Хотя на то они и "турбо".
Они формируются на основе вашего контента и наших технологий по единому шаблону — логотип сайта, иллюстрация, полный текст страницы, рекламный блок, дополнительные материалы — и быстро загружаются на смартфонах с медленным или нестабильным интернетом. В выдаче Турбо-страницы помечаются пиктограммой в виде ракеты.Турбо-страницы помогают увеличивать охват мобильной аудитории — пользователям не приходится долго ждать загрузки сайта, и они почти сразу переходят к вашему контенту. Прирост трафика может быть существенным: по данным Mediascope, 66 млн российских пользователей используют мобильный интернет наряду с десктопным, а 20 млн уже выходят в интернет только с мобильных устройств — это на 15% больше, чем год назад. - Турбо-страницы для владельцев сайтов - Яндекс
Так вот, чтобы это все работало, владельцам сайтов нужно создать и оформить RSS-фид по определенным правилам. Это включает в себя наличие в xml-файле фида определенных тегов и разметки. В справочнике Яндекса приводится пример, как это должно выглядеть, однако каких-то отдельных инструкций для реализации этого на том же WordPress, к сожалению, не было. Пришлось разбираться самому, что в конечном итоге, дало возможность написать материал про Турбо-страницы Яндекса, а также настройку RSS-фида турбо-страниц на WordPress. Ознакомиться с ним можно по приведенной ссылке.
Неправильно-настроенный robots.txt и индексация лишних страниц
Когда я в очередной раз зашел в Вебмастер Яндекса, на взгляд попалась "Возможная" ошибка, повествующая об отсутствии мета-тега Description на большом количестве страниц. Странно, подумал я, учитывая, что к каждому материалу я всегда пишу мета-описание, и тщательно слежу за этим. (до категорий руки не дошли, но тут не суть важно). Как оказалось, Яндекс проиндексировал страницы (/tag/), которые используются в ВП для лучшей навигации по материалам. К сотням тегов разнообразные мета-описания не добавишь (можно прибегнуть к использованию скрипта или плагина, но это не то), поэтому я решил заблокировать индексацию тегов в robots.txt. Но чем черт не шутит, вновь промелькнула мысль в голове, после чего я решил подойти к настройке данного файла чуть грамотнее. (Тут стоит отметить, что дальнейшие мои действия не являются обязательными. Многие ресурсы вылетают в топ-1 по своим запросам с дефолтным robots.txt).
Начитавшись разных статей на всевозможных ресурсах, я узнал, что первое, что нужно сделать, так это создать для каждого из самых важных поисковиков отдельный (User-agent). В моем случае это Google и Яндекс, поэтому мой robots.txt теперь имеет три секции:
- User-agent: Yandex # Для Яндекса
- User-agent: GoogleBot # для Google
- User-agent: * # Для всех остальных
В общем-то, для чего именно это нужно: Если для Яндекса мне приходится блокировать доступ к (/tag/) через роботов, то Google это делает автоматически, поэтому наличие Disallow: /tag/ в секции для Гугл-робота не особо нужно. Также, некоторые веб-мастера заявляют, что при отдельной настройке для каждого агента индексация будет лучше. Так ли это или нет - судить не берусь, тем не менее я решил, все же, сделать все таким образом. Лишним точно не будет.
Сам образец я взял с этого сайта, и выглядит он примерно так:
User-agent: * # общие правила для роботов, кроме Яндекса и Google, # т.к. для них правила ниже Disallow: /cgi-bin # папка на хостинге Disallow: /? # все параметры запроса на главной Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins Disallow: /wp/ # если есть подкаталог /wp/, где установлена CMS (если нет, # правило можно удалить) Disallow: *?s= # поиск Disallow: *&s= # поиск Disallow: /search/ # поиск Disallow: /author/ # архив автора Disallow: /users/ # архив авторов Disallow: */trackback # трекбеки, уведомления в комментариях о появлении открытой # ссылки на статью Disallow: */feed # все фиды Disallow: */rss # rss фид Disallow: */embed # все встраивания Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете, # правило можно удалить) Disallow: /xmlrpc.php # файл WordPress API Disallow: *utm= # ссылки с utm-метками Disallow: *openstat= # ссылки с метками openstat Allow: */uploads # открываем папку с файлами uploads User-agent: GoogleBot # правила для Google (комментарии не дублирую) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: *utm= Disallow: *openstat= Allow: */uploads Allow: /*/*.js # открываем js-скрипты внутри /wp- (/*/ - для приоритета) Allow: /*/*.css # открываем css-файлы внутри /wp- (/*/ - для приоритета) Allow: /wp-*.png # картинки в плагинах, cache папке и т.д. Allow: /wp-*.jpg # картинки в плагинах, cache папке и т.д. Allow: /wp-*.jpeg # картинки в плагинах, cache папке и т.д. Allow: /wp-*.gif # картинки в плагинах, cache папке и т.д. Allow: /wp-admin/admin-ajax.php # используется плагинами, чтобы не блокировать JS и CSS User-agent: Yandex # правила для Яндекса (комментарии не дублирую) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Allow: */uploads Allow: /*/*.js Allow: /*/*.css Allow: /wp-*.png Allow: /wp-*.jpg Allow: /wp-*.jpeg Allow: /wp-*.gif Allow: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Яндекс рекомендует не закрывать # от индексирования, а удалять параметры меток, # Google такие правила не поддерживает Clean-Param: openstat # аналогично # Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent # не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже. Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz # Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS # то пишем протокол, если нужно указать порт, указываем). Команду Host понимает # Яндекс и Mail.RU, Google не учитывает. Host: http://www.site.ru/
Естественно я правил это под свои конкретные нужды (к примеру, для тех же Турбо-страниц нужно прописывать разрешающий индексацию тег).
Теперь кратко о результатах:
- Закреплены партнерские отношения с группой про Linux (12k)
- Уровень посещаемости нестабилен, то падает, то возрастает
- Индексация в Яндексе пошла активнее, появились первые переходы с ПС
Пока это все, благодарю за уделенное время на прочтение этого материала. Удачного дня :)