Главное Авторские колонки Вакансии Образование
😼
Выбор
редакции
15 787 2 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Как полировать тексты удалением излишеств и проставлением ударений

Основатель «Школы траблшутеров» Олег Брагинский и ученик Максим Мухтаров описывают разработку инструмента доведения корректоров, редакторов и читателей до экстаза.

Продолжая серию публикаций об автоматизации правки текстов в Microsoft Word на макросах: «Как быстро привести текст в божеский вид», «Как создавать неизменно великолепные документы» и «Отчего же ё-моё мы обижаем букву „ё“», расскажем о новых режимах: «Ударник» (1) и «Стайлер» (2):


Оба инструмента входят в блок «Спорные» (3): требуют принятия автором решений о необходимости коррекции. В качестве полигона для демонстрации возможностей взяли крупнейшую книгу Рунета «Библия траблшутера», содержащую 4,3 млн символов (4) на 3,5 тысячах страниц (5) с временем чтения 80 часов (6):


«Ударник» отвечает за простановку неоднозначных акцентов, работает на основе списка масок (7), вариантов опорных слогов (8), предъявляя пользователю сложные слова (9), проверяемые в очерёдности встречаемости (10), разбитые на группы (11) по лексической значимости коррекции:


После запуска инструмента автору предлагается окно с доступными категориями поиска (13), количеством масок в них (14) и расчётным временем обнаружения в текущем документе (15). Пользователю остаётся выбрать желаемые группы (12), сверяясь с расчётным временем работы (16):


Маски, входящие в категорию «Обычное» встречаются в «Библии траблшутера» до девяти раз. «Частое» отвечает за диапазон с частотностью от 10 до 99. «Избыточное» начинается на числе 100 и не имеет верхнего предела. «Редкое» отведено для устаревших слов. «Тест» используется в целях отладки.

Чтобы не ждать слишком долго выполнения очевидных правок, сосредоточенных в массовых категориях, предусмотрели корректируемый лимит на предельную внимательность «Ударника», по умолчанию установленный на 99 вхождений (17) масок в текст. При первом запуске на документ этого будет достаточно.

По окончанию поиска «Ударник» выводит окно с закладками (18) по 20 найденных масок (19), с указанием количества обнаруженных вхождений (20) и кнопками установки ударения на ранний (21) или поздний слог (22):


Автор просматривает неоднозначные слова, принимая решение о задействовании начального (23) или последующего (24) знака артикуляции:


Задействуем символ ударения (25), который не препятствует проверке орфографии Microsoft Word и может быть вставлен через соответствующую кнопку (26) в редакторе:


Перед постановкой артикуляции «Ударник» определяет место выделенной буквы в маске, перемещает курсор на нужную позицию в тексте и вставляет символ с кодом 769 в десятеричной системе шрифтом Times New Roman (27). Распознав действие, Word выполняет слияние с буквой, превращая пару в единый знак.


Раз буква с ударением считаются литерой длиной в две единицы, переписали процедуру удаления знаков в «Статисте» (28), о котором расскажем в будущем. Также планируем провести исследование частот ударных слогов на текстах Ленинской библиотеки, чтобы подсказывать пользователю наиболее вероятные коррекции.

Второй инструмент — «Стайлер» обнаруживает излишества тоже по таблице масок (29), показывает огрехи (30) автору, тип графоманства (31), сортированный по частотности (32) с указанием категории потенциальной оплошности (33):


Некоторые маски (34) попадают более чем в одну категорию. Придётся обратиться к лингвистам для разрешения конфликта или успокоения в правильности множественной вариативности.

После запуска инструмента автор обнаружит знакомое окно с новыми категориями поиска (36), количеством масок (37) и расчётным временем обработки документа (38). Останется выбрать желаемые группы (35), ориентируясь на предварительную оценку трудоёмкости (39):


Как и «Ударник», «Стайлер» по умолчанию предлагает не проводить поиск более 99 вхождений (40) масок в текст, чтобы предварительно оценить качество и лишь потом переходить в режим придирчивого редактора.

Завершив поиск, «Стайлер» выводит форму с ярлыками для категорий «заумь» (41), «оценка» (42), «вводное» (43), «плеоназм» (44), «усилитель» (45), «канцеляризм» (46):


А ещё способен обнаруживать притяжательные местоимения, стоп- и спам-слова. Первые указывают на неоптимальность описания принадлежности, вторые — признак слабых формулировок, третьи приводят к блокировке почтовых сообщений из-за подозрений на массовость и мошенничество.

За 94 дня работы над проектом создали по 16 версий программного модуля и файла масок (47, 48):


Плюсом разработанных режимов стала наследуемость программного кода:

· «Ударник» получился из «чЕкЁра» (помогает проставлять «е» или «ё» в неоднозначных словах)

· «Стайлер» из «Типографа» (реализует сложные поиски).

Файл масок избежал модификаций и остался в прежнем формате, поддерживая единство инструментов: «Ёкатора» (49), «чЕкЁра» (50), «Ударника» (51), «Типографа» (52) и «Стайлера» (53):


Продолжаем работу над следующими категориями:

1) заимствования: нейминг, воркшоп, дедлайн, бойфренд, митап, паркинг, квиз

2) описки: шОпот, дермаНтин, блесТнуть, яВства, интригаТ, грейпфрукТ

3) жаргон: маза, лабать, наезд, общак, фар, халява, цацки, чифир

4) многозначности: лист, побег, иголка, волнение, хвост, труба

5) брань: козёл, петух, мошенник, расист, предатель, вор

6) сленг: вайб, донатить, зашквар, краш, кринж, мерч

7) несовместимости: «собирать грибы в лИсу»

8) фразеологизмы: «рак за горой свиснет»

9) трудности: одеть и надеть, ноль и нуль

10) мат: позвольте обойтись без примеров.

Думаем над более сложными конструкциями:

1) узкопрофильные термины и специфические понятия

2) пословицы, поговорки афоризмы, цитаты

3) сложности перевода: «Кузькина мать»

4) надписи: «табл.» и подписи — «рис.»

5) фразы, не подлежащие публикации

6) буквализмы и транслитерации

7) аббревиатуры и сокращения.

Шутки ради проверили насколько хорошо творили русские классики. Александр Сергеевич Пушкин в романе «Капитанская дочка» допустил 241 стоп- (49, 50, 51) и 27 спам-слов (52, 53, 54):


Лев Николаевич Толстой в «Анне Карениной» использовал 116 стоп- (49, 50, 51) и 185 спам-слов (52, 53, 54):


Вот бы великим в те годы нашу программу...

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем
Комментарии
Правозем
Земельный юрист в Москве и Московской области услуги по регистрации недвижимости
Правозем ПТ
А помните, раньше какие тексты были. В жизни каждого человека рано или поздно возникает необходимость и далее... купить компьютер, продать недвижимость, заняться инвестициями, завести собаку...
Или шедевры типа, мы динамично развивающаяся компания :)
Ответить
Олег Брагинский
Точно, было!
Ностальгией повеяло ;)
Смешные тексты и славные времена...
Ответить
Выбрать файл
Блог проекта
Расскажите историю о создании или развитии проекта, поиске команды, проблемах и решениях
Написать
Личный блог
Продвигайте свои услуги или личный бренд через интересные кейсы и статьи
Написать

Spark использует cookie-файлы. С их помощью мы улучшаем работу нашего сайта и ваше взаимодействие с ним.