Главное Свежее Вакансии   Проекты
😼
Выбор
редакции
398 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Книга глазами SEO-специалиста: «Введение в информационный поиск»

Обзор книги «Введение в информационный поиск» от SEO-специалиста команды Mello. В статье рассказываем о полезных инсайтах из книги, которые влияют на ранжирование. Только тезисы и практические выводы.

Введение в информационный поиск — это учебник, в котором описываются проблемы информационного поиска (включая web) и их решение.

Мне, как seo специалисту, было интересно узнать основы алгоритмов и моделей информационного поиска для более полного представления поиска в web и, если повезёт — найти новые теории, касающиеся факторов ранжирования.

В этом обзоре я перечислю то, что мне удалось найти в книге, влияющее на ранжирование. Только тезисы и никаких формул. Стоит отметить, что это лишь основы и поисковые системы вероятнее всего используют модификации данных алгоритмов. Я не стал упоминать о моделях информационного поиска, возможно затрону эту тему в отдельной статье.

Обозначения встречаемых терминов:


  1. Ранжирование — сортировка сайтов в поисковых системах, где самые первые являются наилучшими.
  2. Факторы ранжирования — характеристики алгоритма поисковой системы, которые оценивают страницу.
  3. Релевантная страница — страница, которая наиболее точно отвечает на запрос, способная удовлетворить потребность пользователя.
  4. Термин — слово на веб-странице.
  5. Документ — веб-страница.
  6. Коллекция — Множество, группа веб-страниц.

Частота термина и обратная документная частота


Частота термина и обратная документная частота — это две статистические меры, используемые для определения веса каждого слова в документе. Чем вес больше, тем страница считается релевантнее, располагается выше в позициях по запросу.

Частота термина (TF) — каждому термину присваивается вес, зависящий от количества употребления данного слова в документе. Веб-страница, где слово запроса встречается чаще, является более релевантной.

Пример: В группе документов содержится две веб-страницы по десять слов:


Первая веб-страница считается лучше второй по термину «Автомобиль», а вторая страница лучше первой по термину «Модель».

Обратная документная частота (IDF) — вес слова документа обратно пропорционален частоте употребления этого слова в коллекции документов. Очевидно, если слово встречается практически в каждой веб-странице, то его вес будет минимальным. Также существует список стоп-слов, которые вообще не влияют на ранжирование, например предлоги.

Пример: В группе 10 документов


Термин «Запрос» является в данном случае более важным, в отличии от остальных.

Какие выводы можно сделать?

  1. Для того, чтобы продвинуть страницу под запрос (например, продвижение сайтов), необходимо использовать термины запроса. И чем больше слов запроса будет на странице, тем лучше. Конечно, на сегодняшний день, нельзя просто взять и употребить тысячу одинаковых слов для лучшего ранжирования. За подобные манипуляции веб-страница попадает под фильтр. Поэтому важно найти то самое количество слов на странице, которое будет задавать максимальный вес термину и при этом не загонит страницу в переспам.
  2. Такие слова как «впрочем», «значит», «однако» имеют минимальный вес (т.к. они встречаются на многих страницах, из-за чего не влияют на ранжирование).

Близость терминов запроса


Все слова запроса на веб-странице должны быть расположены близко друг к другу, т.к. это повышает шансы на то, что потребности пользователя будут удовлетворены. Основывается на двух правилах:

  1. чем меньше ширина, тем лучше документ соответствует запросу;
  2. если в документе содержатся не все термины запроса, то ширина равна очень большому числу.

Пример: В группе три документа


Вторая веб-страница имеет минимальную ширину наименьшего окна и поэтому лучше всего соответствует запросу.

Какие выводы можно сделать?

  1. Если слова запроса в точном виде присутствуют на сайте (т.е. страница имеет минимальную ширину наименьшего окна для запроса) — отлично;
  2. Если присутствуют не все слова запроса — плохо.

Маргинальная релевантность


Желательно, чтобы документ был полезным даже после просмотра других документов. Для этого он должен быть уникальным. К примеру, в web присутствуют страницы, копирующие другие и не приносящие пользы для пользователя.

Полезность для пользователя


Страница должна удовлетворять потребности пользователя. Проблема в том, что у разных групп пользователей разные потребности. Отсюда можно выделить целое множество факторов ранжирования.

Например:

  1. сколько времени прошло до покупки товара (лучше — меньше);
  2. время, проведённое на странице (лучше — больше);
  3. доля покупателей по отношению к общему количеству посетителей (лучше — больше).

Ссылки


Page Rank — метод вычисления весов, который основывается на том, что чем больше ссылок ведет на страницу и чем они качественнее, тем страница релевантнее.

Основные принципы:

  1. Если одна страница содержит ссылку на другую, то обычно это рассматривается как признание авторитетности первой страницей по отношению ко второй, а значит.
  2. Не все ссылки являются положительным отзывом. Например, существуют сайты, имеющие на каждой странице ссылку на веб-студию, которая разработала дизайн этого сайта. Очевидно, что это не является признанием авторитетности и подобные ссылки будут учитываться с минимальным весом.

Пример (https://usedcars34.ru/):


  1. Текст ссылки, указывающий на страницу, должен иметь хорошее описание этой страницы.
  2. На веб-страницах желательно использовать ссылки на авторитетные ресурсы.

Вывод


К сожалению, в книге описано слишком мало возможных источников сигнала ранжирования для поисковых машин. Каждый из них мне был известен прежде и информацию о них до сих пор использую в работе. Я считаю, что данный учебник больше полезен для разработчиков и исследователей поисковых систем, но его также будет интересно прочесть тем, кто интересуется поиском в интернете.

Автор: SEO-специалист в Mello Павел Шевченко.

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем
Комментарии
Первые Новые Популярные
Комментариев еще не оставлено
Выбрать файл
Блог проекта
Расскажите историю о создании или развитии проекта, поиске команды, проблемах и решениях
Написать
Личный блог
Продвигайте свои услуги или личный бренд через интересные кейсы и статьи
Написать

Spark использует cookie-файлы. С их помощью мы улучшаем работу нашего сайта и ваше взаимодействие с ним.