Как мы тестировали ASR системы и что из этого вышло

В 2025 году рынок систем автоматического распознавания речи (ASR) достиг нового этапа зрелости. Согласно данным Allied Market Research, глобальный рынок распознавания речи к 2030 году превысит $59 млрд при среднегодовом темпе роста 25,8 %.

Нравится

Send

Мнение автора может не совпадать с мнением редакции

Причина — массовая интеграция голосовых технологий в колл-центры, мобильные приложения, медицинские и юридические платформы и службы безопасности. Однако не все внедрения систем ASR приводят к желаемым результатам. За красивыми демо и процентами точности в маркетинговых презентациях скрывается реальность — ASR-системы ведут себя непредсказуемо, когда сталкиваются с «живым» звуком: шумами, акцентами, речевыми паузами.

Чтобы понять, насколько такие системы справляются с реальными задачами, наша команда провела тестирование нескольких ASR-платформ, включая Lingvanex, Whisper (от OpenAI), Vosk, Microsoft Azure Speech и Google Speech-to-Text. Задача была проста по формулировке и сложна в исполнении: протестировать, какие решения подойдут для разных типов пользовательского аудио — от голосовых сообщений и звонков до подкастов и диктовок. Ниже — результаты, метрики и выводы, которые могут быть полезны стартапам и компаниям, рассматривающим внедрение ASR-решений в продуктах или внутренних процессах.

Почему демо-результаты обманчивы

Большинство поставщиков ASR демонстрируют точность 95–98%. Эти цифры справедливы для студийных записей без шумов, с идеальной дикцией. В реальности всё иначе: в пользовательских записях присутствует шум, длительные паузы кашель, гул акценты и эмоциональная речь. В таких условиях точность падает — иногда катастрофически.

Что тестировали и как

В качестве тестовых систем мы выбрали наиболее распространенные решения на рынке: Google Speech-to-Text, Whisper (от OpenAI), Lingvanex, Vosk и Microsoft Azure Speech.

Записи не были «стерильными» — они были собраны из пользовательских диалогов и голосовых заметок. Это дало нам понимание, как системы работают вне лабораторных условий. В каждый тест входили одни и те же фрагменты аудио, отобранные по следующему принципу:

различный уровень фонового шума,
речевые особенности, связанные с акцентами и диалектами (например, канадский французский и английский с шотландским акцентом);
а также нестандартная структура речи — паузы, запинки, перебивания.

Записи были анонимизированы, разбиты по сценариям (поддержка, диалоги, голосовые сообщения) и размечены вручную. Метрики, по которым мы оценивали качество распознавания:

WER (Word Error Rate) — классическая метрика точности распознавания на уровне слов;
CER (Character Error Rate) — то же, но на уровне символов, особенно важна для языков с морфологией, как русский, или при работе с короткими фразами;

Также мы оценивали скорость (реальное время обработки аудио) и стабильность работы (одинаковый ли результат дает система при повторной подаче идентичного сигнала).

Как менялся подход к тестированию

Поначалу мы тестировали «в лоб»: загружали запись — сравнивали результат с эталоном.Однако быстро стало понятно: без нормализации текста, учёта пауз и интерпретации неоднозначных фраз такая оценка малоинформативна.

Мы добавили ручную разметку: делили ошибки на искажения смысла, потерю информации, стилистические отклонения. Далее стали группировать записи по сложности (фон, акцент, длительность) и смотреть, как системы ведут себя в каждой группе. Это дало более точное понимание.

Мы начали добавлять сценарные весовые коэффициенты: например, ошибки в числах и именах собственных учитывались сильнее, чем пропущенные союзы. Также появилась необходимость кастомной очистки результатов: удаление артефактов, неверной пунктуации, повторов.

Ключевые наблюдения

Средние показатели на всей выборке (для английского языка):

Google: WER — 6.1%, CER — 4.3%
Whisper (large-v3): WER — 7.9%, CER — 5.7%
Lingvanex ASR: WER — 5.5%, CER — 4.6%
Vosk: WER — 7.4%, CER — 6.1%
Microsoft Azure: WER — 6.4%, CER — 4.1%

Важно понимать: разница в 1–2% может означать десятки искажающих смысл ошибок на тысячу слов. Особенно чувствителен к этому последующий перевод или анализ диалогов.

Однако, при переходе от средних значений к индивидуальным кейсам обнаружились важные нюансы.

Разные системы — разные сильные стороны.

Whisper и Lingvanex лучше справлялись с записями, где присутствовали фоновые разговоры или уличные звуки. У Google и Azure на таких фрагментах WER мог вырасти в 2 раза. Vosk хорош в стандартной, чистой речи, но плохо обрабатывает длинные паузы: иногда воспринимает их как конец речи и завершает фрагмент досрочно.

Шумы и акценты — главные враги точности.

Среднее значение WER при фоновом шуме возрастает на 5–10% по сравнению с «чистыми» записями. Особенно это критично для подкастов с некачественной записью: на одном из таких фрагментов Whisper показал WER = 29%, тогда как в лабораторных условиях у него он не превышал 5%. При этом большинство систем стабильно ошибались на фразах с сильным акцентом, особенно если диктор использовал разговорную лексику. Однако, например, команда Lingvanex предлагает своим пользователям, как решение этой проблемы, кастомизацию и дообучение модели.

Длинные паузы ломают структуру.

Некоторые ASR-модели (особенно cloud-based решения) стремятся завершить распознавание, не дождавшись продолжения. Это приводит к фрагментации текста и потере логики. Единственный способ бороться с этим — использовать post-processing или подавать запись целиком.

Вывод: тестировать надо всегда

Практика показала: нет универсального решения. ASR-система может идеально подходить для одного сценария и проваливаться в другом. Более того, даже внутри одного языка могут возникать колоссальные различия — например, между речью диктора и голосовым сообщением пользователя в мессенджере.

Для тех, кто работает с многоязычным контентом или строит мультиканальные продукты, стоит обратить внимание на решения с глубокой кастомизацией.

Для многих проектов ASR — лишь первый шаг. Далее идут сегментация, выравнивание, синтаксический анализ, перевод. Ошибки на раннем этапе множатся на следующих. Поэтому даже 1% WER — это не просто статистика, а потенциальная потеря смысла.

Рынок ASR развивается стремительно и только практический тест даёт понимание, подходит ли система под конкретную бизнес-задачу.

В избр. Сохранено

Нравится