Эффективная потоковая диаризация спикеров при перекрытиях речи: новый шаг в аудиоаналитике

Ученые МГУ при поддержке НОШ «Мозг, когнитивные системы, искусственный интеллект» разработали инновационный подход, который успешно решает две главные задачи: определение спикеров на записи и определение активности конкретного спикера.

Нравится

Send

Мнение автора может не совпадать с мнением редакции

Этот метод обладает высокой эффективностью даже в условиях потоковой обработки и перекрытия речи. Результаты исследования были представлены в рамках Всероссийской Конференции ММРО-2023.

Диаризация спикеров — это задача разделения и идентификации участников на аудиозаписи, т. е. процесс определения, кто и когда говорит. Диаризация имеет огромное значение для множества приложений: от транскрибирования речи до автоматического перевода и анализа эмоций. В рамках поставленной задачи состав и даже количество участников не определены заранее, и алгоритм диаризации должен самостоятельно выявить их. Однако, можно учесть и специфический случай, когда известно точное количество говорящих на аудиозаписи или имеются образцы речи некоторых из людей. Соответственно, можно сказать, что разработан метод для решения сразу двух фундаментальных задач: диаризации спикеров и определения активности целевого спикера. Диаризация спикеров заключается в идентификации нескольких спикеров на аудиозаписи, а также в различении сегментов речи, в которых каждый спикер активен. Аналогично, задача определения активности целевого спикера направлена на определение непрерывных сегментов речи, в которых активен известный целевой спикер.

Хотя в научной литературе было предложено множество методов, они сталкиваются с существенными проблемами. "Одной из основных проблем является необходимость обработки потокового аудио. Алгоритмы часто не имеют доступа к полному контексту аудиозаписи, что делает многие алгоритмы обработки последовательностей непрактичными. Кроме того, перекрытие речи представляет собой значительную проблему, требующую от алгоритмов точной идентификации и различения между несколькими говорящими, произносящими речь одновременно",- отметил доцент кафедры математических методов прогнозирования ВМК МГУ Арчил Майсурадзе.

Решая эти проблемы, исследовательская группа разработала метод, способный эффективно справляться с задачами диаризации спикеров и определения активности целевого спикера в различных условиях, включая различные уровни фонового шума и ситуации перекрытия речи. Используя как традиционные последовательные подходы, так и инновационные техники, этот метод выделяется своей универсальностью и эффективностью.

Основные инновации включают:

1. обнаружение перекрытия речи на этапе сегментации, обеспечивая более точную идентификацию речевых сегментов от разных спикеров.

2. оптимизированное извлечение вложений, которые рассчитываются с учетом перекрытия речи, что улучшает точность идентификации спикеров.

3. адаптивную кластеризацию для обработки сегментов с перекрытием речи, обеспечивая более точную кластеризацию спикеров.

4. потоковую обработку, которая позволяет применять метод в реальном времени без потери производительности.

Кроме того, процесс обучения использует синтетические данные для решения проблемы получения точно размеченных обучающих данных.

"В ходе тщательной оценки по сравнению с существующими решениями на известных наборах данных, предложенный метод продемонстрировал превосходное качество, особенно в сценариях с перекрытием речи. В режиме потоковой обработки он показал замечательное улучшение на 3.5 процентных пункта в ошибке диаризации по сравнению с текущими передовыми решениями",- добавил Дмитрий Попов, студент второго года магистратуры кафедры математических методов прогнозирования ВМК МГУ.

Этот инновационный метод представляет собой значительный прогресс в области обработки аудио, имеющий далеко идущие последствия для различных приложений, включая распознавание речи, транскрибирование и системы наблюдения.

В избр. Сохранено

Нравится