Что полезного может узнать бизнес из массового анализа отзывов?
Что мы сделали? Мы сделали веб-краулер, который заходит на страницы сайтов по ссылкам (по принципу как у гугла, только меньше масштабом), и написали алгоритм для извлечения отзыва из любой интернет-страницы, независимо от HTML-разметки. Полученное мы проанализировали с помощью системы, понимающей естественный язык (в вопросе отзывов).
Что мы получили? Немного про объем задачи. Обработано нами было 10 млн. страниц, на них найдено 480 000 различных товаров, принадлежащих к 234 категориям (от телефонов до шампуней и стиральных порошков). Было обнаружено 360 000 отзывов, 600 000 описаний товаров, и порядка миллиона прочих текстов.
Что мы узнали? Для большинства отзывов удалось определить дату публикации, что позволило взглянуть на ситуацию в «исторической» перспективе.
Видно, что, во-первых число отзывов, оставляемых пользователями интернета неуклонно растет, и с 2008 года выросло почти в три раза. Кроме того, мы можем видеть сезонные колебания — наибольшее число отзывов люди пишут в декабре-январе, наименьшее — в июне-июле.Самое большое число отзывов за весь период принадлежит пользователям мобильных телефонов (что, в общем, понятно). Почти в два раза отстают пользователи ноутбуков и мультиварок. Также в топе шампуни, телевизоры, холодильники и стиральные машины. Среди телефонов, больше всего постарались владельцы марок Samsung, Nokia и Sony, а меньше всех — Philips и HTC.
Товаром, на который написано больше всех отзывов среди мобильных телефонов стал Nokia N73, а среди мультиварок Steba DD1. При этом, часто упоминаемые в отзывах товары далеко не всегда отличаются высокой надежностью, но обычно имеют хорошие отзывы о внешнем виде.
Собственно надежность оценивается здесь как отношение числа отзывов в которых упоминаются проблемы с устройством к общему числу отзывов (аналогично оценивали дизайн и удобство в обращении). Упоминания проблем находятся автоматическим анализатором, поэтому мы можем детализировать наши знания вплоть до отдельных предложений. Например, мы выяснили, что владельцы сотовых телефонов чаще всего недовольны экраном/cенсором, зависаниями и тем что их телефон царапается. А вот пользователи мультиварок обычно жалуются не на само устройство, а на качество получаемых блюд.
Вывод: просто анализируя текстовые данные, которые открыто лежат в интернете, можно получить много разной информации. Какая от нее может быть польза для бизнеса? Мы думаем, что каждому бизнесу конечно нужна своя информация. Например анализ отзывов о товарах может помочь правильно подобрать ассортимент для магазина (как интернет- магазина так и обычного). Ведь можно заранее исключить не только непопулярные, но и часто ломающиеся товары, уменьшив таким образом процент возврата. А какая информация была бы полезна вам и вашему бизнесу?