редакции
Как полировать тексты удалением излишеств и проставлением ударений
Продолжая серию публикаций об автоматизации правки текстов в Microsoft Word на макросах: «Как быстро привести текст в божеский вид», «Как создавать неизменно великолепные документы» и «Отчего же ё-моё мы обижаем букву „ё“», расскажем о новых режимах: «Ударник» (1) и «Стайлер» (2):

Оба инструмента входят в
блок «Спорные» (3): требуют принятия автором решений о необходимости
коррекции. В качестве полигона для демонстрации возможностей взяли крупнейшую
книгу Рунета «Библия траблшутера», содержащую 4,3 млн символов (4) на 3,5
тысячах страниц (5) с временем чтения 80 часов (6):
«Ударник» отвечает за
простановку неоднозначных акцентов, работает на основе списка масок (7), вариантов
опорных слогов (8), предъявляя пользователю сложные слова (9),
проверяемые в очерёдности встречаемости (10), разбитые на группы (11)
по лексической значимости коррекции: После запуска инструмента автору
предлагается окно с доступными категориями поиска (13), количеством масок
в них (14) и расчётным временем обнаружения в текущем документе (15).
Пользователю остаётся выбрать желаемые группы (12), сверяясь с расчётным
временем работы (16): Маски, входящие в категорию
«Обычное» встречаются в «Библии траблшутера» до девяти раз. «Частое» отвечает
за диапазон с частотностью от 10 до 99. «Избыточное» начинается на числе 100 и
не имеет верхнего предела. «Редкое» отведено для устаревших слов. «Тест»
используется в целях отладки. Чтобы не ждать слишком
долго выполнения очевидных правок, сосредоточенных в массовых категориях,
предусмотрели корректируемый лимит на предельную внимательность «Ударника», по
умолчанию установленный на 99 вхождений (17) масок в текст. При первом
запуске на документ этого будет достаточно. По окончанию поиска
«Ударник» выводит окно с закладками (18) по 20 найденных масок (19),
с указанием количества обнаруженных вхождений (20) и кнопками установки
ударения на ранний (21) или поздний слог (22): Автор просматривает
неоднозначные слова, принимая решение о задействовании начального (23) или
последующего (24) знака артикуляции: Задействуем символ ударения (25),
который не препятствует проверке орфографии Microsoft Word и может быть
вставлен через соответствующую кнопку (26) в редакторе: Перед постановкой артикуляции
«Ударник» определяет место выделенной буквы в маске, перемещает курсор на
нужную позицию в тексте и вставляет символ с кодом 769 в десятеричной системе
шрифтом Times New Roman (27). Распознав действие, Word выполняет
слияние с буквой, превращая пару в единый знак. Раз буква с ударением
считаются литерой длиной в две единицы, переписали процедуру удаления знаков в «Статисте» (28),
о котором расскажем в будущем. Также планируем провести исследование частот
ударных слогов на текстах Ленинской библиотеки, чтобы подсказывать пользователю
наиболее вероятные коррекции. Второй инструмент — «Стайлер»
обнаруживает излишества тоже по таблице масок (29), показывает огрехи (30)
автору, тип графоманства (31), сортированный по частотности (32) с
указанием категории потенциальной оплошности (33): Некоторые маски (34)
попадают более чем в одну категорию. Придётся обратиться к лингвистам для
разрешения конфликта или успокоения в правильности множественной вариативности. После запуска инструмента
автор обнаружит знакомое окно с новыми категориями поиска (36),
количеством масок (37) и расчётным временем обработки документа (38).
Останется выбрать желаемые группы (35), ориентируясь на предварительную
оценку трудоёмкости (39): Как и «Ударник», «Стайлер»
по умолчанию предлагает не проводить поиск более 99 вхождений (40) масок в
текст, чтобы предварительно оценить качество и лишь потом переходить в режим
придирчивого редактора. Завершив поиск, «Стайлер»
выводит форму с ярлыками для категорий «заумь» (41), «оценка» (42),
«вводное» (43), «плеоназм» (44), «усилитель» (45), «канцеляризм» (46): А ещё способен обнаруживать
притяжательные местоимения, стоп- и спам-слова. Первые указывают на
неоптимальность описания принадлежности, вторые — признак слабых формулировок,
третьи приводят к блокировке почтовых сообщений из-за подозрений на массовость
и мошенничество. За 94 дня работы над
проектом создали по 16 версий программного модуля и файла масок (47, 48): Плюсом разработанных
режимов стала наследуемость программного кода: · «Ударник»
получился из «чЕкЁра» (помогает проставлять «е» или «ё» в неоднозначных словах) · «Стайлер» из
«Типографа» (реализует сложные поиски). Файл масок избежал
модификаций и остался в прежнем формате, поддерживая единство инструментов:
«Ёкатора» (49), «чЕкЁра» (50), «Ударника» (51),
«Типографа» (52) и «Стайлера» (53): Продолжаем работу над
следующими категориями: 1) заимствования:
нейминг, воркшоп, дедлайн, бойфренд, митап, паркинг, квиз 2) описки: шОпот,
дермаНтин, блесТнуть, яВства, интригаТ, грейпфрукТ 3) жаргон: маза,
лабать, наезд, общак, фар, халява, цацки, чифир 4) многозначности:
лист, побег, иголка, волнение, хвост, труба 5) брань: козёл,
петух, мошенник, расист, предатель, вор 6) сленг: вайб,
донатить, зашквар, краш, кринж, мерч 7) несовместимости:
«собирать грибы в лИсу» 8) фразеологизмы:
«рак за горой свиснет» 9) трудности: одеть
и надеть, ноль и нуль 10) мат:
позвольте обойтись без примеров. Думаем над более сложными
конструкциями: 1) узкопрофильные
термины и специфические понятия 2) пословицы,
поговорки афоризмы, цитаты 3) сложности
перевода: «Кузькина мать» 4) надписи:
«табл.» и подписи — «рис.» 5) фразы, не
подлежащие публикации 6) буквализмы и
транслитерации 7) аббревиатуры
и сокращения. Шутки ради проверили
насколько хорошо творили русские классики. Александр Сергеевич Пушкин в романе
«Капитанская дочка» допустил 241 стоп- (49, 50, 51) и 27 спам-слов (52,
53, 54): Лев Николаевич Толстой в
«Анне Карениной» использовал 116 стоп- (49, 50, 51) и 185 спам-слов (52,
53, 54): Вот бы великим в те годы
нашу программу...













