Лучшие статьи и кейсы стартапов
Включить уведомления
Дадим сигнал, когда появится
что-то суперстоящее.
Спасибо, не надо
Вопросы Проекты Вакансии
Мото-объявления России
Рекомендуем
Продвинуть свой проект
Лучшие проекты за неделю
32
Битрикс24

Битрикс24

www.bitrix24.ru

23
Отследить-посылку

Отследить-посылку

B2B-сервис трекинга посылок

13
WebResidentTeam

WebResidentTeam

webresident.agency

13
Логомашина

Логомашина

logomachine.ru

12
Devicerra

Devicerra

devicerra.com

12
Perezvoni.com

Perezvoni.com

perezvoni.com

11
Expresso

Expresso

www.expresso.today

11
Reader

Reader

Интернет-журнал о современных технологиях.

9
ADN Digital Studio

ADN Digital Studio

adn.agency

9
Aword

Aword

Приложение для изучения английских слов

Показать следующие
Рейтинг проектов
Подписывайтесь на Спарк во ВКонтакте

Как я sitemap добавлял

439 11 В избранное Сохранено
Авторизуйтесь
Вход с паролем
Привет! Вчера я задумался, почему же робот Яндекса так редко индексирует motou.ru? Немного покопавшись в панели веб-мастера, я обнаружил, что мой файл sitemap.xml явно не помогает сайту...

Некоторое время назад, в дикой спешке, я добавил на сайт генерацию sitemap.xml. Но сделал это по всей видимости коряво. Результат - все страницы, которые в данный момент проиндексированы, давно уже не актуальны.

В тот момент карта сайта выглядела следующим образом:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
    <url>
        <loc>http://${domain}</loc>
        <changefreq>always</changefreq>
    </url>
    <url>
        <loc>http://${domain}/search</loc>
        <changefreq>always</changefreq>
    </url>
    <url>
        <loc>http://${domain}/items/create</loc>
        <changefreq>weekly</changefreq>
    </url>
    <url>
        <loc>http://${domain}/login</loc>
        <changefreq>weekly</changefreq>
    </url>
    <url>
        <loc>http://${domain}/register</loc>
        <changefreq>weekly</changefreq>
    </url>
    <url>
        <loc>http://${domain}/about</loc>
        <changefreq>weekly</changefreq>
    </url>
    <url>
        <loc>http://${domain}/agreement</loc>
        <changefreq>weekly</changefreq>
    </url>
    <url>
        <loc>http://${domain}/items/get/</loc>
        <changefreq>daily</changefreq>
    </url>
    <url>
        <loc>http://${domain}/company/</loc>
        <changefreq>daily</changefreq>
    </url>
</urlset>

В тот момент я почему-то был уверен, что можно указать корневой URL, и все вложенные страницы тоже будет индексироваться этой записью. Т.е. указав

http://${domain}/items/get/

я рассчитывал, что все подразделы тоже будут индексироваться,

http://${domain}/items/get/id1234
http://${domain}/items/get/id5678

но по всей видимости это не так. Каждая страница должна быть указана отдельно.

Почитав рекомендации Яндекса, было принято решения все переделать. А заодно сделать так, чтобы робот сам подхватывал эти файлы через robots.txt.

Я составил следующую структуру:

  • У меня есть несколько плоских страниц в корневом разделе, таких как /login, /about, / и прочее. Их я укажу в главном sitemap
  • Есть множество объявлений, для которых удобнее использовать свой собственный файл sitemap. При этом нельзя чтобы этот файл превышал 50000 записей и не весил больше 10Мб. Для этого я решил разбивать объявления на пачки по 20000.
  • Для компаний нужно тоже иметь свой файл, ведь они так же могут превысить 50000 записей.

b_56783ce354e71.jpg

Так же рекомендуется указывать время последнего изменения страницы тегом . Как я понимаю, это позволяет роботу оперативно подтягивать изменения. А так же можно снизить нагрузку на сайт. Чем свежее страница, тем выше она должна располагаться в файле (я этого пока не сделал).

Robots.txt включает в себя все файлы sitemap. Это позволяет избежать ручного добавления этих файлов в веб-мастер.

Sitemap: http://$(domain}/Путь к файлу

Теперь нужно дождаться, когда поисковики проведут очередную ревизию. И проанализировать, насколько эти изменения помогли индексации страниц.

0
Добавить в избранное Сохранено
Авторизуйтесь
Вход с паролем
Первые Новые Популярные
Симулятор бизнес-процессов
Сервис имитационного моделирования и оптимизации бизнес-процессов
Prolis Labkk
А items-ы зачем, у вас же нет склада и не предвидится, зачем индексировать предложения, которых уже может не быть в наличии?
Ответить
Показать предыдущие комментарии
Симулятор бизнес-процессов
Сервис имитационного моделирования и оптимизации бизнес-процессов
Prolis Labkk
Имел в виду не items/item, а city/section/name_item
Ответить
Televizor-x
Выбор телевизоров по отфильтрованным описаниям
Евгений
Удалить получается относительно быстро, если запретить в robots.txt и воспользоваться инструментом удаления от поисковика (за несколько дней обычно удаляется).
Ответить
Симулятор бизнес-процессов
Сервис имитационного моделирования и оптимизации бизнес-процессов
Prolis Labkk
Вот этот временной лаг в несколько дней и на индексацию и на удаление и имел в виду. В случае статичного контента это не критично, а для объявлений, время жизни которых измеряется в днях, это проблема.
Ответить
Televizor-x
Выбор телевизоров по отфильтрованным описаниям
Евгений
Ну с объявлениями у всех проблема. Если в поиске появляется, например, объявление с Avito, то велика вероятность того, что этого объявления на Avito уже не существует. При том, что такие авторитетные сайты поисковики индексируют гораздо лучше и быстрее других.

Наличие объявлений в карте сайта мало чем поможет для Google (повезти, конечно, может) и вообще ничем не поможет для Яндекс (там карта сайта неделями не обновляется).
Ответить
Симулятор бизнес-процессов
Сервис имитационного моделирования и оптимизации бизнес-процессов
Prolis Labkk
Кстати, у меня карта полгода не обновлялась в Я, написал в поддержку, вчера ответили, что это их косяк и все исправят сами.
Ответить
Дмитрий
Какой же ужасный код
Ответить
MOTOU
Мото-объявления России
Игорь
Код чего, простите? )
Ответить
Выбрать файл
Читайте далее
Загружаем…
Блог проекта
Расскажите историю о создании или развитии проекта, поиске команды, проблемах и решениях
Написать
Личный блог
Продвигайте свои услуги или личный бренд через интересные кейсы и статьи
Написать