Я сделал поисковую систему за 5 часов. Колпак слетел окончательно
Откуда вообще взялась эта идея
Началось прозаично. Хотел сделать пет-проект для собственного понимания архитектуры поисковых систем. Не для курса, не для клиентов — просто потому что интересно разобраться изнутри.
Но потом пошло неожиданно легко. Настолько легко, что в какой-то момент я поймал себя на мысли: подождите, это же реально работает.
И тогда появилась другая идея — сделать из этого учебный инструмент. Потому что есть конкретная боль в обучении SEO, которую я давно хочу закрыть.
Когда объясняешь, как работают поисковые алгоритмы, слайды создают иллюзию понимания. Студент кивает. Но реального ощущения механики нет. Человек выходит с курса и не может объяснить, зачем появился IDF, что именно он решал и почему без него было плохо.
Я хотел показать три вещи вживую:
- Первое — как исторически появлялись разные факторы ранжирования. Не «Гугл ввёл этот алгоритм в таком-то году», а почему без него была конкретная проблема и что именно он фиксил.
- Второе — двухслойную архитектуру: отбор кандидатов из индекса $\rightarrow$ доранжирование. Это фундаментальная вещь, которую большинство SEO-специалистов не понимают на уровне механики. Они знают слова, но не чувствуют, почему система устроена именно так.
- Третье — косинусную близость. Один из тех концептов, где у людей постоянно каша. Хочу показать на живом примере: как ищутся релевантные URL без специально обученной языковой модели — и где именно этот подход начинает ломаться.
Объяснять всё это по слайдам можно. Но показать на реальном индексе, где можно поменять параметры и увидеть, что изменилось в выдаче — это принципиально другой уровень понимания.
Что получилось
Фундамент системы:
- 20 000 уникальных URL в индексе по одной тематике, с представленными типами страниц
- Единая индексная база данных с метриками страниц
- Возможность переключаться между алгоритмами ранжирования прямо во время демонстрации — от примитивного частотного поиска до векторного
Понятно, что это воспроизводит несколько процентов от реальных алгоритмов Яндекса или Google. Допущений много. Но для учебных целей это работает принципиально иначе, чем любая схема на слайде: можно потрогать, сломать, посмотреть, что изменится.
Стоимость: 5 часов работы + копейки на парсинг базы + $15 подписка на Cursor + копейки на токены.
[Скриншот: интерфейс демонстрационной поисковой системы — поисковая строка, список результатов с URL и метриками, переключатель алгоритмов ранжирования]
Как это делалось — и почему именно сейчас
Процесс выглядит так. Открываешь Cursor, подключаешь ChatGPT-5.3-Codex или Claude Sonnet 4.6, описываешь задачу — и итеративно просишь делать части системы. Парсер индекса, хранение данных, логику поиска, интерфейс.
Никакого глубокого знания прикладной разработки не требуется. Требуется понимать архитектуру проекта на уровне «что должно делать это приложение и из каких частей состоит». Это принципиально другая точка входа, чем была даже год назад.
С декабря прошлого года я постоянно слышал, что ИИ в кодинге начали творить чудеса. Но ощущение, что именно сейчас — с релизом этих моделей — это стало по-настоящему доступно широкой аудитории. Без глубокого понимания прикладной разработки ПО можно зайти в Cursor, подключить модель и просто просить делать приложение. Оно будет делаться и будет работать. Главное — понимать базу проектирования.
Раньше мне нужно было бы либо нанять разработчика и объяснять ему, зачем нужна именно такая архитектура индекса, либо потратить недели на самостоятельное изучение. Ни то ни другое не случилось бы ради пяти видео для курса. Порог принятия решения был слишком высокий.
Сейчас порог упал настолько, что я просто взял и сделал это в один день.
[Скриншот: граф воркфлоу в Cursor — цепочка задач от парсинга до интерфейса, видна структура проекта]
Что это означает для SEO-специалистов — и почему я жду взрыва нишевого SEO-софта
Дарио Амодеи, CEO Anthropic, говорит открыто: в ближайшие 6–12 месяцев AI-модели смогут выполнять большую часть задач software engineers end-to-end. Раньше звучало как маркетинговое преувеличение. После того как я потратил 5 часов на рабочую поисковую систему, это звучит как реалистичный прогноз.
Для SEO это означает конкретную вещь: порог создания собственного инструментария обнулился.
Раньше SEO-специалист мог придумать идею парсера, кластеризатора, системы мониторинга — но не мог её реализовать без разработчика. Теперь может. Не идеально, не на уровне промышленного ПО. Но достаточно хорошо, чтобы решить конкретную задачу под конкретный проект.
Вангую: от возможностей ChatGPT-5.3-Codex и Claude Sonnet 4.6 у кучи народа послетают колпаки — и мы начнём видеть массу нишевого SEO-софта под все возможные задачи. Не универсальных платформ вроде Ahrefs, а точечных инструментов: анализ конкретной вертикали, специфическая логика кластеризации, мониторинг узкого набора метрик. Каждый специалист с пониманием архитектуры данных сможет собрать себе инструмент под свою задачу.
В каком-то смысле этот пост и есть первый слетевший колпак :)
На курсах SEO Мясо мы уже разбираем, как внедрять такие подходы в реальную работу — от построения автоматизированных пайплайнов до создания собственных аналитических инструментов без найма разработчиков.
Что дальше с демонстрационной системой
Следующий шаг — серия уроков, где поисковая система используется как живой полигон. Каждый уровень — это не слайд, а изменение параметров в работающей системе и наблюдение за тем, как меняется выдача.
- Уровень 1. Частотного поиск (TF): почему он работал и почему его начали спамить.
- Уровень 2. TF-IDF: что изменилось, когда добавили IDF, и почему это не решило проблему полностью.
- Уровень 3. Векторный поиск и косинусная близость: как работает семантическая близость без обученной LM и где именно возникают типичные ошибки в понимании.
- Уровень 4. Двухэтапная архитектура: отбор кандидатов и доранжирование как отдельные задачи с разными критериями.
Такой формат обучения принципиально честнее: видно, где алгоритм работает, а где ломается. И это, на мой взгляд, единственный способ по-настоящему понять, как устроен поиск — не прочитать, а потрогать руками.
Если интересно следить за тем, как это разворачивается — дневник экспериментов, честные разборы инструментов и изнанка агентского бизнеса в канале @seokotenkov. Там же буду делиться архитектурой и промптами по мере того, как система обрастает новыми слоями.