редакции
Книга глазами SEO-специалиста: «Введение в информационный поиск»

Введение в информационный поиск — это учебник, в котором описываются проблемы информационного поиска (включая web) и их решение.
Мне, как seo специалисту, было интересно узнать основы алгоритмов и моделей информационного поиска для более полного представления поиска в web и, если повезёт — найти новые теории, касающиеся факторов ранжирования.
В этом обзоре я перечислю то, что мне удалось найти в книге, влияющее на ранжирование. Только тезисы и никаких формул. Стоит отметить, что это лишь основы и поисковые системы вероятнее всего используют модификации данных алгоритмов. Я не стал упоминать о моделях информационного поиска, возможно затрону эту тему в отдельной статье.
Обозначения встречаемых терминов:
- Ранжирование — сортировка сайтов в поисковых системах, где самые первые являются наилучшими.
- Факторы ранжирования — характеристики алгоритма поисковой системы, которые оценивают страницу.
- Релевантная страница — страница, которая наиболее точно отвечает на запрос, способная удовлетворить потребность пользователя.
- Термин — слово на веб-странице.
- Документ — веб-страница.
- Коллекция — Множество, группа веб-страниц.
Частота термина и обратная документная частота
Частота термина и обратная документная частота — это две статистические меры, используемые для определения веса каждого слова в документе. Чем вес больше, тем страница считается релевантнее, располагается выше в позициях по запросу.
Частота термина (TF) — каждому термину присваивается вес, зависящий от количества употребления данного слова в документе. Веб-страница, где слово запроса встречается чаще, является более релевантной.
Пример: В группе документов содержится две веб-страницы по десять слов: Первая веб-страница считается лучше второй по термину «Автомобиль», а вторая страница лучше первой по термину «Модель». Обратная документная частота (IDF) — вес слова документа обратно пропорционален частоте употребления этого слова в коллекции документов. Очевидно, если слово встречается практически в каждой веб-странице, то его вес будет минимальным. Также существует список стоп-слов, которые вообще не влияют на ранжирование, например предлоги. Пример: В группе 10 документов Термин «Запрос» является в данном случае более важным, в отличии от остальных. Какие выводы можно сделать? Все слова запроса на веб-странице должны быть расположены близко друг к другу, т.к. это повышает шансы на то, что потребности пользователя будут удовлетворены. Основывается на двух правилах: Пример: В группе три документа Вторая веб-страница имеет минимальную ширину наименьшего окна и поэтому лучше всего соответствует запросу. Какие выводы можно сделать? Желательно, чтобы документ был полезным даже после просмотра других документов. Для этого он должен быть уникальным. К примеру, в web присутствуют страницы, копирующие другие и не приносящие пользы для пользователя. Страница должна удовлетворять потребности пользователя. Проблема в том, что у разных групп пользователей разные потребности. Отсюда можно выделить целое множество факторов ранжирования. Например: Page Rank — метод вычисления весов, который основывается на том, что чем больше ссылок ведет на страницу и чем они качественнее, тем страница релевантнее. Основные принципы: Пример (https://usedcars34.ru/): К сожалению, в книге описано слишком мало возможных источников сигнала ранжирования для поисковых машин. Каждый из них мне был известен прежде и информацию о них до сих пор использую в работе. Я считаю, что данный учебник больше полезен для разработчиков и исследователей поисковых систем, но его также будет интересно прочесть тем, кто интересуется поиском в интернете. Автор: SEO-специалист в Mello Павел Шевченко.


Близость терминов запроса

Маргинальная релевантность
Полезность для пользователя
Ссылки

Вывод
