Добавил второй AI-движок в сервис проверки договоров — нашёл в 2.5 раза больше рисков

Пару недель назад рассказывал, как сделал сервис проверки договоров на YandexGPT. Работало, но вылезли проблемы: ложные срабатывания и пропуски реальных рисков. Добавил Claude (AI от Anthropic) как второй движок — он нашёл в 2.5 раза больше рисков на том же договоре. Рассказываю, что изменилось.

Нравится

Send

Мнение автора может не совпадать с мнением редакции

Что было не так

YandexGPT — хорошая модель, но на юридических текстах случались фейлы:

Ложные срабатывания. Модель писала «асимметрия пеней: Покупатель 0.1%, Поставщик 0.1%». Подождите — 0.1% vs 0.1% это симметрия, не асимметрия. Просто галлюцинация.

Пропуски. В договоре было «1% за каждый день просрочки, но не более 2%». Модель увидела cap «не более 2%» и решила, что всё норм. А 1% в день — это 365% годовых, кабальное условие.

Противоречия между пунктами. П. 4.4 говорит «только самовывоз», п. 6.2 — «доставка транспортной компанией». YandexGPT не замечал.

Решение: два слоя проверки

Сделал двухслойную архитектуру:

Слой 1 — AI-анализ. Теперь можно выбрать: YandexGPT (дешевле) или Claude (точнее). Оба анализируют текст, ищут риски.

Слой 2 — проверка кодом. 25+ детекторов на конкретные паттерны. Код проверяет математику: вычисляет соотношение пеней, переводит «1% в день» в годовую ставку, сравнивает условия для разных сторон.

Если AI сказал «асимметрия», а код посчитал соотношение 1:1 — флаг отбрасывается. Меньше мусора в отчёте.

Тест: один договор, две модели

Прогнал договор поставки через оба движка:

YandexGPT: 11 рисков (2 критических, 4 высоких) Claude: 27 рисков (5 критических, 12 высоких)

Claude нашёл в 2.5 раза больше.

Что он поймал, а YandexGPT нет:

Неустойку 1%/день (365% годовых) — YandexGPT отвлёкся на cap
Противоречие между пунктами о доставке
Короткий срок ответа на антикоррупционный запрос (10 дней — мало для серьёзной проверки)

Почему Claude лучше для договоров

По моим наблюдениям:

Контекст 200K токенов — видит связи между пунктами на разных страницах
Лучше reasoning — понимает юридическую логику, а не просто ищет ключевые слова
Меньше галлюцинаций — реже выдумывает несуществующие риски

Как это выглядит для пользователя

Два режима:

«Эконом» — YandexGPT, 299₽, быстро
«Глубокий анализ» — Claude, 499₽, находит больше

Загружаешь договор → выбираешь режим → через 1-2 минуты получаешь отчёт с рисками, цитатами из договора и ссылками на ГК РФ.

Экономика

Себестоимость выросла — Claude дороже YandexGPT примерно в 2 раза на токенах. Но и цена выше (499 vs 299), так что маржинальность сохраняется.

Для пользователя всё равно копейки по сравнению с юристом:

Юрист: 1-5 дней, 15-50К ₽ Сервис: 1-2 минуты, 299-499 ₽

Компания с 10 договорами в месяц экономит ~200К/месяц.

Что дальше

Больше детекторов — сейчас 25+, планирую 40+
API для интеграций — чтобы встраивать в CRM и документооборот
Подписка для бизнеса — безлимит на проверки за фикс в месяц

Выводы

Одной модели недостаточно — нужна валидация кодом
Claude реально лучше для сложных текстов, разница заметная
Двухслойная архитектура (AI + код) убирает и ложные срабатывания, и пропуски

Попробовать: legalparser.ru — 2 бесплатных анализа при регистрации.

Вопросы — в комментариях.

В избр. Сохранено

Нравится