Как работает реальный искусственный интеллект

В Telegram-канале «Новое электричество» на пальцах объяснили принцип работы умных колонок.

Нравится

Send

Мы довольно много рассказываем о теории ИИ, сегодня рассмотрим практический пример применения. Поговорим про умные колонки (вроде Сири, или Алисы, или Алексы). Например, я как пользователь говорю «Эй, колонка, расскажи анекдот». Что происходит дальше?

Первым делом срабатывает проверка триггер-фразы — ML-механизм, который по любому аудиопотоку возвращает 0 или 1: 0, если триггер-фраза не прозвучала, 1, если прозвучала.

В нашем примере колонка должна распознать обращение к себе «эй, колонка» и вернуть 1.

Следующий шаг — распознавание речи. Этот ИИ берёт кусок аудио после триггер-фразы и распознаёт его в текст. В нашем примере он услышит фразу «расскажи анекдот».

Третий этап — понимание намерения. Колонка уже знает, что обратились к ней, она поняла, что от неё чего-то хотят — теперь ей нужно понять, чего именно. Современные колонки имеют какой-то ограниченный набор команд, которые могут выполнять: например, могут сказать, какой сегодня день, какой прогноз погоды, позвонить кому-то или включить музыку. Вот на этом этапе колонка должна понять, какая именно функция сейчас от неё нужна.

В нашем примере по фразе «расскажи анекдот» колонка поймёт, что нужная функция — «анекдот».

Вообще третий этап — ключевой в общении с колонкой: именно от него зависит, насколько это удобно и легко. Например, фраза «эй, колонка, расскажи что-нибудь смешное» тоже должна включать функцию «анекдот», как и «эй, колонка, развесели меня».

Наконец, четвёртый этап — выполнение функции. В нашем случае это зачитывание и вывод анекдота через колонку.

В реальной жизни над каждым из этих этапов часто работают разные команды, более того, внутри четвёртого этапа также бывает разделение: ведь каждая функция по сути отдельный проект, и часто между ними нет никакой связи.

Работу колонки можно описать такой структурой: проверка триггер-фразы -> распознавание речи -> понимание намерения -> выполнение функции.

Это хороший пример ИИ-пайплайна (кажется, русскоязычного аналога у этого слова нет).

Источник

О пользе двух «но»: как решиться вопреки сомнениям

Как добывать клиентов в LinkedIn

В избр. Сохранено

Нравится