Как мы автоматизировали ГОСТ-контроль и почему нейросети всё еще не могут правильно расставить запятые в списке литературы

В DissHelp оформление по ГОСТу съедало до 20% времени работы над проектом. Эксперт мог написать блестящий текст, а потом сидеть до ночи, высчитывая отступы для заголовков. Мы решили, что это неэффективно, и попытались отдать ГОСТ-контроль искусственному интеллекту.
Спойлер: ИИ провалился, но мы нашли другое решение.
Почему ChatGPT не умеет в ГОСТ Р 7.0.100-2018
Когда появились мощные LLM, мы первыми делом скормили им актуальные ГОСТы по оформлению списков литературы и попросили отформатировать массив сырых ссылок.
Результат выглядел правдоподобно, пока мы не начали проверять его вручную. Нейросеть:
- Придумывала ISBN для книг, у которых их отродясь не было.
- Путала дефис, тире и длинное тире (а для нормоконтролера это три разных знака препинания).
- Идеально оформляла российские источники, но «сыпалась» на иностранных статьях из журналов с двойным переводом.
Проблема LLM в том, что они мыслят семантикой, а ГОСТ — это жесткий синтаксис и математическая структура. ИИ не понимает, почему перед двумя косыми чертами должен быть пробел, а после — нет. Он просто предсказывает следующий токен.
Наш гибридный конвейер нормоконтроля
Поняв, что генеративные сети здесь не помогут, мы вернулись к классическому программированию, но совместили его с новым разделением труда:
- Макросы и регулярные выражения (RegEx): Мы написали собственный плагин для Word. Эксперт нажимает одну кнопку, и скрипт на базе жестко заданных регулярных выражений «причесывает» 80% типовых ошибок: выравнивает отступы, меняет дефисы на тире между цифрами, проверяет поля.
- Выделенная роль «Оформителя»: Мы сняли задачу оформления с научных экспертов. Теперь они отдают сырой текст в отдел нормоконтроля. Там сидят люди (часто это бывшие сотрудники университетских библиотек), которые любят дотошность и знают ГОСТ наизусть.
- Библиографические менеджеры: Мы перевели всех авторов на принудительное использование Mendeley и Zotero с настроенными стилями под российские стандарты, чтобы ссылки собирались корректно еще на этапе написания.
Экономический эффект
Разделение труда «Эксперт пишет смысл, программа выравнивает структуру, оформитель шлифует список литературы» снизило себестоимость нормоконтроля на 40%. Эксперты перестали выгорать на рутине и стали брать больше проектов.
Не пытайтесь поручить нейросети задачи, которые требуют 100% детерминированности. Там, где нужна жесткая структура, старый добрый RegEx и внимательный человек всё еще работают лучше любой LLM.