При помощи парсинга (инструмент для сбора данных в сети) было собрано и проанализировано почти 50000 новостей с 1500 новостных источников в США. В итоге получилось сравнить частоту и контекст упоминаний Байдена и Трампа в преддверии президентских выборов в США 2020. Это хороший пример того, как технологии больших данных и машинного обучения позволяют получать информацию о настроениях в обществе, не отходя от компьютера.
Выбор источников Для исследования, с начала сентября было проанализировано 71252 новостных статей, упоминающих либо Трампа, либо Байдена, либо обоих сразу, новости собирались с 2135 англоязычных ресурсов. Предварительно сайты были классифицированы в соответствии с превалирующей страной аудитории. Дубли статей не учитывались. Статьи с сайтов, не относящихся к посетителям из США и агрегаторы новостей (такие как Reddit) были исключены. В итоге осталось 49682 статей из 1571 источника данных. Выбор источников для парсинга новостей проходил на основе статей, которыми делились люди в социальных сетях. Это позволило избежать предвзятости на стадии выбора СМИ.
Анализ настроений Оценка настроений производилась при помощи Natural Language — сервиса от Google анализирующего язык при помощи машинного обучения. Программа анализировала текст, выявляла тональность и присваивала ей оценку в диапазоне от +1 (положительное настроение) до −1 (отрицательное). На примере, одной из новостей, программа положительно оценила Байдена и негативно Трампа:"Бывший губернатор Мичигана Рик Снайдер: Я республиканец и голосую за Байдена. Дональд Трамп — хулиган, которому не хватает морального компаса. Джо Байден вернул бы цивилизованность. ...«Программа оценила, настроения по отношению к Трампу как негативные — («хулиган, которому не хватает морального компаса»), а настроения по отношению к Байдену — нейтрально-позитивные («вернул бы цивилизованность»).
Результаты измерений Во время дебатов, 29 сентября 2020 года в Кливленде, Дональд Трамп сказал Джо Байдену: — "Тебя позитивно освещают в прессе, а меня — негативно".Как думаете, исследования подтвердили слова Трампа? Почти что. Было выявлено, что Трамп получает больше негативных отзывов, чем Байден, но при этом его в 5 раз чаще упоминают в интернете. Медиа стратегию Трампа хорошо описывает фраза: "Плохая реклама — тоже реклама«.Анализ данных показывает, что освещение в СМИ относительно обоих кандидатов можно охарактеризовать как «негативно-нейтральные», они колеблются вверх-вниз как реакция на происходящие события. Президентские дебаты, например, сказались отрицательно на отзывах об обоих кандидатах. Новость о том, что у Трампа выявили COVID-19, подняла уровень хороших упоминаний о нем выше, чем о Байдене, но вот новость о быстром возвращении после болезни в Белый дом вызвала негативную реакцию.В целом, отзывы о Трампе в прессе хуже, чем о Байдене и динамика сильно колеблется, от положительных упоминаний, до негатива, Байден в этом отношении более стабилен. Количество упоминаний в прессе, Трамп получает в два раза больше, чем Байден, а если сравнивать публикации, в которых упоминается один из кандидатов, то тут у Трампа преимущество перед Байденом, более чем в 5 раз.
Для решения задач сбора данных, парсинга сайтов, очистки, матчинга и аналитики данных обращайтесь в компанию iDatica