Главное Авторские колонки Вакансии Образование
Выбор редакции:
😼
Выбор
редакции
8 228 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Распознавание и синтез речи: как ИИ анализирует наши разговоры

О принципах работы и возможностях технологии рассказал Игорь Калинин, основатель компании TWIN.

Игорь Калинин

Технический прогресс привел к появлению машин, которые могут понимать, что говорит человек и, более того, в состоянии поддерживать диалог. Некоторые системы говорят так хорошо, что человек в первые пару минут общения с машиной может и не понять, кто его собеседник. Технологии распознавания и синтеза речи — не игрушка и не научный эксперимент. Это инструмент бизнеса, который внедряется все более активно.

Немного истории

Первое устройство, которое «понимало» речь человека, появилось в 1926 году. Это был робот Televox. В нем было три камертона, каждый реагировал на определенную тональность и включал одно из трех реле, отвечающих за разные функции. Но, конечно, это было не распознавание речи в современном понимании.

Ровно через полвека, в 1976 году была разработана полноценная система распознавания, которая понимала уже около 1000 слов. Но и это только отдельные слова, а не полноценный разговор.

https://youtu.be/32KKg3aP3Vw

Лишь в 1996 году появилась первая программа, способная различать непрерывную речь человека, а не команды. Создателем этой технологии стала компания IBM.

В 2016 году системы распознавания речи уже были достаточно широко распространены, хотя точность их работы не превышала 70-80%. То есть из 100 произнесенных слов от 20 до 30 машина не понимала. Сейчас точность некоторых систем превышает 90%, а это значит что, с такой программой можно вести полноценный разговор — она «поймет» текст, и более того, сможет оценить его эмоциональную окраску.

Достигнуть таких результатов удалось при помощи нейросетей — специализированных ИИ-систем, принцип работы которых похож на принцип работы мозга человека. Нейросети также умеют обучаться. Конечно, это не полноценный искусственный интеллект, но все же самообучающаяся система.

Как работает распознавание речи?

Нейросеть анализирует аудиопоток речи человека, разделяя его на отдельные фрагменты. Они называются фонемами. Каждый фрагмент анализируется путем сверки с базой эталонных звуков обученной нейросети и сопоставляется букве, слогу или целому слову. После многократного анализа фонем они расшифровываются в текст. Получившаяся текстовая запись затем снова сравнивается с базой слов нейросети. После выполнения всех действий нейросеть выдает готовый текст.

Чем дольше обучать систему, тем точнее она сможет различать отдельные фонемы, правильнее расшифровывая речь человека. Пол или возраст говорящего, кстати, не имеет особого значения. Для каждого языка приходится обучать отдельную нейросеть: так, система, научившись распознавать английский, не будет понимать французский.

Кроме речи, роботы уже способны распознавать и эмоции человека — по голосу или в тексте. Проще всего распознавать три базовые эмоции: позитивная, нейтральная, негативная — чем их больше, тем сложнее различать. Например, робот почти не видит разницу между обеспокоенностью и раздражением, поэтому вероятность ошибки высокая. Точность распознавания 3-х эмоций составляет около 93%.

В настоящее время уже довольно точно определяется пол человека по голосу — примерно со 2 секунды разговора робот практически на 100% знает, что общается с мужчиной или женщиной.

Как работает синтез речи?

Науке, бизнесу и медицине интересны роботы и машины, которые не просто озвучивают текстовые фрагменты, но и синтезируют собственные кусочки текста. С этим, хотя и не очень хорошо, справляются даже электронные книги. Речь идет о полноценном общении, когда человек что-то спрашивает у машины, та понимает и дает адекватный ответ. И здесь все еще сложнее, чем в случае с распознаванием речи.

В этом случае на сцену выходят нейросети. Для создания полноценной системы синтеза речи обычно требуется большая команда специалистов из разных областей, причем не только IT-экспертов, но и лингвистов, специалистов по фонетике, акустике, просодике и другим специальностям. Так, программа, которая синтезирует речь, должна уметь правильно расставлять ударения, различать слова-омографы вроде «замОк» и «зАмок», правильно расставлять и выдерживать паузы, корректно формировать интонацию и даже понимать эмоции. Все это очень сложно, особенно если учесть, что для разных языков нужны по-разному обученные системы.

Зачем нам распознавать или синтезировать речь?

Распознавание речи используется различными отраслями бизнеса, науки, медицины. Например, посредством этой технологии, люди с ограничениями здоровья могут управлять своим домом при помощи речи, или же надиктовывать тексты статей, электронных сообщений, sms. Также не стоит забывать и о голосовых помощниках, которые есть сейчас почти в каждом смартфоне, колонке вроде Алисы или ПК под управлением Windows и Mac.

Бизнесу распознавание речи тоже необходимо для разных целей, но одна из главных — это коммуникация с клиентами при помощи телефонных роботов, ботов. Это очень востребованная технология, которая позволяет сэкономить деньги, используя для выполнения рутинных задач машины, а не людей.

Как роботы (не) заменяют операторов колл-центров

Одно из направлений бизнеса, где есть потребность в голосовых роботах — колл-центры. К слову, объем рынка коммуникаций в одной только России оценивается в 150 млрд рублей, значительную часть этого рынка занимают колл-центры, их доля оценивается в 12-15 млрд. Роботов ставят на выполнение задач, которые можно без труда автоматизировать, а люди в это время выполняют более сложные, с которыми машины пока справиться не в состоянии.

Однако операторы колл-центров могут не переживать о том, что их работу отнимут голосовые боты. Как и сказано выше — просто потому, что у людей и роботов разные функции. Показательный пример — сотрудничество с колл-центром компании-партнера TWIN. Проект стартовал, когда в колл-центре работало 500 человек. Сейчас, спустя два года, в нем же работает уже 600 сотрудников. При этом также расширился и спектр задач, выполняемых голосовым роботом. Этот кейс может служить доказательством того, что в ближайшие 7-10 лет роботы окажут самое незначительное влияние на рынок труда операторов колл-центра.

Пример использования робота № 1. С 2016 кода TWIN активно сотрудничает с финтех-компаниями в России. Роботы помогают отвечать на однотипные вопросы, заданные клиентами. Кроме того, если возникает нестандартная ситуация, то робот способен оперативно переключить звонящего на оператора-человека. Например, мужчина заказал у транспортной компании вазу для своей жены на 8 марта. Ваза по какой-то причине не доставлена, и недовольный клиент звонит в компанию. Робот сразу же определяет эмоциональное состояние человека и не задает обычные вопросы, а переводит на оператора, который и решает возникшую проблему.

Пример использования робота № 2. Несколько лет назад в России появился проект робота-эйчара. Робота назвали «Вера», и работает она очень эффективно. Роботу дают задачу — например, найти IT-специалиста с определенными компетенциями. Вера сначала ищет походящих кандидатов на сайтах вроде hh.ru, собирает данные специалистов с нужными характеристиками, а затем начинает им звонить. Бот спрашивает, заинтересован ли соискатель в вакансии, и если тот отвечает положительно, то робот и человек назначают дату созвона с HR-менеджером. Если же ответ со стороны соискателя отрицательный, то робот просит прощения и кладет трубку.

И в первом, и во втором случае голосовые боты могут одновременно разговаривать с сотнями и тысячами абонентов. Это значительно превышает возможности оператора-человека и повышает эффективность компании. Но и задачи здесь, как видим, относительно простые, так что операторы-люди включаются в дело тогда, когда у робота возникает проблема.

В целом технологии как распознавания, так и синтеза речи совершенствуются, становятся все более функциональными. Отличить в простом диалоге по телефону робота от человека бывает крайне сложно. Вероятно, в недалеком будущем голосовые боты полностью возьмут на себя рутинные задачи колл-центров. Кроме того, сейчас активно развивается и направление электронных помощников — через лет пять они станут гораздо более функциональными, чем Siri, Алиса или Маруся. Роботы, способные понимать человеческую речь, различать эмоции и адекватно отрабатывать любые эмоциональные состояния человека, сделают жизнь людей проще, а бизнес — эффективнее.

Читайте также:

Как работает реальный искусственный интеллект

Как автоматизировать работу с оттоком и заработать на потерянных клиентах

Как найти крутого программиста: реальный пример от технического директора

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем
Комментарии
Выбрать файл
Блог проекта
Расскажите историю о создании или развитии проекта, поиске команды, проблемах и решениях
Написать
Личный блог
Продвигайте свои услуги или личный бренд через интересные кейсы и статьи
Написать

Spark использует cookie-файлы. С их помощью мы улучшаем работу нашего сайта и ваше взаимодействие с ним.