редакции Выбор
Как мы тестировали ASR системы и что из этого вышло
Причина — массовая интеграция голосовых технологий в колл-центры, мобильные приложения, медицинские и юридические платформы и службы безопасности. Однако не все внедрения систем ASR приводят к желаемым результатам. За красивыми демо и процентами точности в маркетинговых презентациях скрывается реальность — ASR-системы ведут себя непредсказуемо, когда сталкиваются с «живым» звуком: шумами, акцентами, речевыми паузами.
Чтобы понять, насколько такие системы справляются с реальными задачами, наша команда провела тестирование нескольких ASR-платформ, включая Lingvanex, Whisper (от OpenAI), Vosk, Microsoft Azure Speech и Google Speech-to-Text. Задача была проста по формулировке и сложна в исполнении: протестировать, какие решения подойдут для разных типов пользовательского аудио — от голосовых сообщений и звонков до подкастов и диктовок. Ниже — результаты, метрики и выводы, которые могут быть полезны стартапам и компаниям, рассматривающим внедрение ASR-решений в продуктах или внутренних процессах.
Почему демо-результаты обманчивы
Большинство поставщиков ASR демонстрируют точность 95–98%. Эти цифры справедливы для студийных записей без шумов, с идеальной дикцией. В реальности всё иначе: в пользовательских записях присутствует шум, длительные паузы кашель, гул акценты и эмоциональная речь. В таких условиях точность падает — иногда катастрофически.
Что тестировали и как
В качестве тестовых систем мы выбрали наиболее распространенные решения на рынке: Google Speech-to-Text, Whisper (от OpenAI), Lingvanex, Vosk и Microsoft Azure Speech.
Записи не были «стерильными» — они были собраны из пользовательских диалогов и голосовых заметок. Это дало нам понимание, как системы работают вне лабораторных условий. В каждый тест входили одни и те же фрагменты аудио, отобранные по следующему принципу:
- различный уровень фонового шума,
- речевые особенности, связанные с акцентами и диалектами (например, канадский французский и английский с шотландским акцентом);
- а также нестандартная структура речи — паузы, запинки, перебивания.
Записи были анонимизированы, разбиты по сценариям (поддержка, диалоги, голосовые сообщения) и размечены вручную. Метрики, по которым мы оценивали качество распознавания:
- WER (Word Error Rate) — классическая метрика точности распознавания на уровне слов;
- CER (Character Error Rate) — то же, но на уровне символов, особенно важна для языков с морфологией, как русский, или при работе с короткими фразами;
Также мы оценивали скорость (реальное время обработки аудио) и стабильность работы (одинаковый ли результат дает система при повторной подаче идентичного сигнала).
Как менялся подход к тестированию
Поначалу мы тестировали «в лоб»: загружали запись — сравнивали результат с эталоном.Однако быстро стало понятно: без нормализации текста, учёта пауз и интерпретации неоднозначных фраз такая оценка малоинформативна.
Мы добавили ручную разметку: делили ошибки на искажения смысла, потерю информации, стилистические отклонения. Далее стали группировать записи по сложности (фон, акцент, длительность) и смотреть, как системы ведут себя в каждой группе. Это дало более точное понимание.
Мы начали добавлять сценарные весовые коэффициенты: например, ошибки в числах и именах собственных учитывались сильнее, чем пропущенные союзы. Также появилась необходимость кастомной очистки результатов: удаление артефактов, неверной пунктуации, повторов.
Ключевые наблюдения
Средние показатели на всей выборке (для английского языка):
- Google: WER — 6.1%, CER — 4.3%
- Whisper (large-v3): WER — 7.9%, CER — 5.7%
- Lingvanex ASR: WER — 5.5%, CER — 4.6%
- Vosk: WER — 7.4%, CER — 6.1%
- Microsoft Azure: WER — 6.4%, CER — 4.1%
Важно понимать: разница в 1–2% может означать десятки искажающих смысл ошибок на тысячу слов. Особенно чувствителен к этому последующий перевод или анализ диалогов.
Однако, при переходе от средних значений к индивидуальным кейсам обнаружились важные нюансы.
Разные системы — разные сильные стороны.
Whisper и Lingvanex лучше справлялись с записями, где присутствовали фоновые разговоры или уличные звуки. У Google и Azure на таких фрагментах WER мог вырасти в 2 раза. Vosk хорош в стандартной, чистой речи, но плохо обрабатывает длинные паузы: иногда воспринимает их как конец речи и завершает фрагмент досрочно.
Шумы и акценты — главные враги точности.
Среднее значение WER при фоновом шуме возрастает на 5–10% по сравнению с «чистыми» записями. Особенно это критично для подкастов с некачественной записью: на одном из таких фрагментов Whisper показал WER = 29%, тогда как в лабораторных условиях у него он не превышал 5%. При этом большинство систем стабильно ошибались на фразах с сильным акцентом, особенно если диктор использовал разговорную лексику. Однако, например, команда Lingvanex предлагает своим пользователям, как решение этой проблемы, кастомизацию и дообучение модели.
Длинные паузы ломают структуру.
Некоторые ASR-модели (особенно cloud-based решения) стремятся завершить распознавание, не дождавшись продолжения. Это приводит к фрагментации текста и потере логики. Единственный способ бороться с этим — использовать post-processing или подавать запись целиком.
Вывод: тестировать надо всегда
Практика показала: нет универсального решения. ASR-система может идеально подходить для одного сценария и проваливаться в другом. Более того, даже внутри одного языка могут возникать колоссальные различия — например, между речью диктора и голосовым сообщением пользователя в мессенджере.
Для тех, кто работает с многоязычным контентом или строит мультиканальные продукты, стоит обратить внимание на решения с глубокой кастомизацией.
Для многих проектов ASR — лишь первый шаг. Далее идут сегментация, выравнивание, синтаксический анализ, перевод. Ошибки на раннем этапе множатся на следующих. Поэтому даже 1% WER — это не просто статистика, а потенциальная потеря смысла.
Рынок ASR развивается стремительно и только практический тест даёт понимание, подходит ли система под конкретную бизнес-задачу.