Эффективная потоковая диаризация спикеров при перекрытиях речи: новый шаг в аудиоаналитике
Этот метод обладает высокой эффективностью даже в условиях потоковой обработки и перекрытия речи. Результаты исследования были представлены в рамках Всероссийской Конференции ММРО-2023.
Диаризация спикеров — это задача разделения и идентификации участников на аудиозаписи, т. е. процесс определения, кто и когда говорит. Диаризация имеет огромное значение для множества приложений: от транскрибирования речи до автоматического перевода и анализа эмоций. В рамках поставленной задачи состав и даже количество участников не определены заранее, и алгоритм диаризации должен самостоятельно выявить их. Однако, можно учесть и специфический случай, когда известно точное количество говорящих на аудиозаписи или имеются образцы речи некоторых из людей. Соответственно, можно сказать, что разработан метод для решения сразу двух фундаментальных задач: диаризации спикеров и определения активности целевого спикера. Диаризация спикеров заключается в идентификации нескольких спикеров на аудиозаписи, а также в различении сегментов речи, в которых каждый спикер активен. Аналогично, задача определения активности целевого спикера направлена на определение непрерывных сегментов речи, в которых активен известный целевой спикер.
Хотя в научной литературе было предложено множество методов, они сталкиваются с существенными проблемами. "Одной из основных проблем является необходимость обработки потокового аудио. Алгоритмы часто не имеют доступа к полному контексту аудиозаписи, что делает многие алгоритмы обработки последовательностей непрактичными. Кроме того, перекрытие речи представляет собой значительную проблему, требующую от алгоритмов точной идентификации и различения между несколькими говорящими, произносящими речь одновременно",- отметил доцент кафедры математических методов прогнозирования ВМК МГУ Арчил Майсурадзе.
Решая эти проблемы, исследовательская группа разработала метод, способный эффективно справляться с задачами диаризации спикеров и определения активности целевого спикера в различных условиях, включая различные уровни фонового шума и ситуации перекрытия речи. Используя как традиционные последовательные подходы, так и инновационные техники, этот метод выделяется своей универсальностью и эффективностью.
Основные инновации включают:
1. обнаружение перекрытия речи на этапе сегментации, обеспечивая более точную идентификацию речевых сегментов от разных спикеров.
2. оптимизированное извлечение вложений, которые рассчитываются с учетом перекрытия речи, что улучшает точность идентификации спикеров.
3. адаптивную кластеризацию для обработки сегментов с перекрытием речи, обеспечивая более точную кластеризацию спикеров.
4. потоковую обработку, которая позволяет применять метод в реальном времени без потери производительности.
Кроме того, процесс обучения использует синтетические данные для решения проблемы получения точно размеченных обучающих данных.
"В ходе тщательной оценки по сравнению с существующими решениями на известных наборах данных, предложенный метод продемонстрировал превосходное качество, особенно в сценариях с перекрытием речи. В режиме потоковой обработки он показал замечательное улучшение на 3.5 процентных пункта в ошибке диаризации по сравнению с текущими передовыми решениями",- добавил Дмитрий Попов, студент второго года магистратуры кафедры математических методов прогнозирования ВМК МГУ.
Этот инновационный метод представляет собой значительный прогресс в области обработки аудио, имеющий далеко идущие последствия для различных приложений, включая распознавание речи, транскрибирование и системы наблюдения.