Наша система обработки языка показала один из лучших результатов в России

Несколько дней назад опубликованы результаты тестирования систем анализа естественного языка SentiRuEval. Наша система обработки естественного языка показала один из лучших результатов в области анализа отзывов пользователей.

Нравится

Send

Мнение автора может не совпадать с мнением редакции

Несколько дней назад опубликованы результаты тестирования система анализа естественного языка SentiRuEval, прошедшего в рамках самой авторитетной в России конференции по компьютерной лингвистике «Диалог».

Анализ языка это вовсе не абстрактное упражнение в академической науке. По некоторым экспертным оценкам 500 самых богатых компаний мира ежегодно теряют суммарно около 12 миллиардов долларов из-за неспособности использовать данные из обычных текстовых документов. Бизнес всегда зависит от получения правильной информации, а большая часть информации существует не в форме таблиц баз данных, а в текстах. Таких например, как отзывы, посты в соцсетях, письма, мнения, советы, жалобы, инструкции, ответы на важные вопросы.

Ясно, что возможность использовать знания из текстов имеет ключевое значение. Причем как для каждого предпринимателя в отдельности, так и для экономики в целом. Поэтому в мире этой проблемой активно занимаются, причем как ученые из государственных учреждений так и частные компании. А чтобы прогресс можно было оценить объективно, существуют «соревнования» систем, решающих определенные задачи. Объективная оценка важна и для науки и для бизнеса — ведь в рекламе можно написать все что угодно, а независимое тестирование выявляет реальную действительность.

В России жизнь пока отстает от мировой практики, но все же усилиями ряда ученых проводится одно такое тестирование — в рамках конференции «Диалог». Проводится оно раз в год. О том, что было раньше, можно почитать, например в блоге компании ABBY. В этом же году было две задачи: выделение положительных и отрицательных моментов из отзывов о ресторанах и автомобилях, а также классификация твитов на положительные и отрицательные. В задаче о твитах мы не участвовали, поэтому поговорим об отзывах ))

Потенциальная практическая польза здесь значительная. Во-первых, для пользователя - можно не читать все отзывы, а сразу узнать главное — например хорошо ли кормят в ресторане, что с обстановкой, не кусаются ли цены. Ведь программа может прочитать все отзывы быстро, сделать сравнительный анализ. Но более значительная на наш взгляд польза здесь для владельцев ресторанов — можно узнать, что пользователям в ресторане нравится, какие есть жалобы (причем какие основные, какие второстепенные), оценить, хорошо ли работает персонал и сравнить все с положением дел у конкурентов.

Теперь собственно о результатах. Всего на российских просторах нашлось 12 систем, способных решать эту задачу. Именно столько участников прислало результаты. Однозначного победителя нет — у кого-то чуть лучше результаты в одной подзадаче, у кого-то в другой. Но в целом, лучшие результаты показали три системы, среди которых и наша JENN-H - четыре первых места и пять вторых по разным подзадачам и способам оценки.

Отличительной особенностью нашей разработки также является то, что мы стараемся строить систему так, чтобы она была максимально универсальной и способной решать широкий круг задач по пониманию текстов, а не просто показывать хорошие результаты в узкой области. Более детально сравнить системы-участники можно будет когда появится сборник трудов конференции со статьями авторов систем.

Конечно, для практики мало создать качественную систему анализа языка. Нужно внедрять ее в практические приложения. Одно такое приложение в виде сайта reviewdot.ru у нас уже есть. Потенциал конечно много больше, но пока у нас не так много ресурсов, чтобы воплотить наработки в конечный продукт. Поэтому мы надеемся на сотрудничество с другими разработчиками, заинтересованными во внедрении функций понимания текстов в свои продукты или в создании новых продуктов (для этого мы сделали отдельный сайт о нашей системе анализа языка meanotek.ru). Пока что в этой области много незанятых ниш и перспективы представляются весьма хорошими.

В избр. Сохранено

Нравится

Комментарии

Университет в кармане

Ответ на любой вопрос

Приходько Максим

26 фев 2015

Не нашел на сайте Диалога результатов.

Ответить

Meanotek

Разрабатываем решения с помощью искусственного интеллекта.

Тарасов Денис

http://www.dialog-21.ru/Default.aspx?DN=c9b5d5e7-1dc4-43a8-b7bf-0840c46b472b&;l=Russian

Maria Belonozhko

14 мар 2016

Envion Software is currently looking for NLI Software Engineer (Natural Language Processing / Computational Linguistics / Machine Learning) -

For our offices in Ukraine and Russia

http://envionsoftware.com/careers/vacancies/kharkiv?vacancy_id=56

e-mail me your CV to mbelonozhko@envionsoftware.com
skype - barrracuda

​Наша система обработки языка показала один из лучших результатов в России

Наша система обработки языка показала один из лучших результатов в России