23 Марта 2016

Relap 1 408 3 В избр. Сохранено

Как нельзя делать рекомендации контента

Один из ведущих разработчиков Relap.io написал текст о том, как нельзя рекомендовать контент на сайте. Внутри самые распространенные ошибки, которые совершают медиа, и результаты наших исследований.

Нравится

Send

Мнение автора может не совпадать с мнением редакции

Во время общения с медиа мы часто сталкиваемся с массой заблуждений, в которые все верят, потому что так сложилось исторически. На сайте есть блоки типа «Читать также» или «Самое горячее» и т.п. Словом все то, что составляет обвязку статьи и стремится дополнить UX дорогого читателя. Мы расскажем, какие заблуждения есть у СМИ, которые делают контентные рекомендации, и развеем их цифрами.

Рекомендовать по тегам

Самое большое и самое популярное заблуждение. Чаще всего СМИ делают рекомендации в конце статьи по тегам. Так поступает Look At Me и РБК, например. Есть материал с тегами: трактор, Путин, сыр. К нему выводятся тексты про трактора, про Путина и сыр. На первый взгляд, логично:

Подобная механика рекомендаций в реальной жизни выглядела бы так. Вы идете в магазин за продуктами. И кладете в корзину сливочное масло. К вам подходит консультант с потными от волнения ладошками и говорит: «О, я вижу, вы взяли масло и это значит, что вам нужно масло. Возьмите еще пять видов сливочного деревенского и подсолнечного и козьего масла». Максимум, что может случиться из ряда вон выходящее — вам предложат трансмиссионное, если вы читали что-то про автомобили. И это уже будет считаться rocket science.

Но ситуации когда можно рекомендовать по тегам существуют: например какой-нибудь сайт с обзорами товаров – тут вполне можно предположить, что человек захочет прочитать несколько обзоров похожих скороварок или телефонов. Но доверять редактору, который проставляет теги, не стоит: разные люди по-разному воспринимают тексты, и, если редакторов больше одного, многообразие тегов описывающих более-менее одно и то же поражает.

Лучше положиться на машину и вычленить ключевые слова из текста автоматически. В таком случае мы получаем только те слова (а еще лучше устойчивые словосочетания, коллокации, но это немного другая история), которые важны для конкретного текста, а не список имен/торговых знаков, которые скорее всего встречаются еще в миллионе статей совсем на другие темы.

Самый простой (и, во многих случаяx, весьма действенный) cпособ вычленить ключевые слова из текста это использование tf-idfи его многочисленных вариантов.

tf-idf – term frequency-inverse document frequency. Мы смотрим какие слова и как часто употребляются в документе и даем больший вес тем словам, которые встречаются в корпусе редко. Иными словами, даже если слово «cепулька» встречается в тексте всего один раз, у него гораздо выше вероятность оказаться значимым тегом, чем, например, у слова «масленица» (кроме случаев когда мы индексируем сайт посвященный торговле сепулькариями).Для тех кто не помнит, обратная частота по корпусу (idf) рассчитывается так $%5Ctextsf%7Bidf%20%7D%28t_i%2CD%29%20%3D$

где $%5Cinline%20D$ собственно корпус (множество документов $%5Cinline%20d$ ), а $%5Cinline%20t_i$ терм. Брать логарифм от отношения в общем-то необязательно, сойдет любая монотонная функция (в википедии можно посмотреть на многочисленные варианты этой формулы), главное «наказывать» за излишнюю популярность слова. Логарифм имеет смысл использовать если корпус достаточно большой.Частота терма еще проще:

$%5Ctextsf%7Btf%7D%28t_i%2Cd%29%20%3D%20%$

где $%5Cinline%20n_i$ число вхождений терма в документ $%5Cinline%20d$ , а сумма в знаменателе просто общее число слов в документе.Для ранжирования слов по важности мы просто перемножаем эти два числа:

$%5Ctextsf%7Btfi-df%7D%28t_i%2Cd%2CD%29%3$

Нетрудно заметить, что обратная частота рассчитывается по всему корпусу, а частота терма зависит от документа, который мы хотим проанализировать. В случае русского языка, неплохо бы (на самом деле обязательно) привести все слова в тексте к словарным формам или хотя бы лемматизировать, но об этом речи в данный момент не идет (интересующиеся могут начинать знакомство с процессом с алгоритма Портера).

Если обсчитать какой-то корпус и ранжировать слова в каждом документе по нисходящему значению, $%5Cinline%20%5Ctextsf%7Btf-idf%7D$ первые несколько слов будут давать довольно адекватное представление о содержании документа. Такие слова можно использовать как теги, но, как мы уже говорили, не стоит делать такого в новостных сайтах – в конце концов, одной новости о пробках из-за снегопада вполне достаточно. Вспоминать, как шоссе ххх стояло в пробках в 2012 – нет никакой необходимости.

Шокирующая правда

Мир устроен чуть сложнее. На самом деле, все работает так: пользователь приходит на сайт, смотрит курс доллара, обзор нового айфона и фотографии панд. Значит, другой человек, который уже посмотрел курс доллара и айфон, скорее всего, захочет посмотреть на панд, как бы это странно не звучало. Это называется коллаборативная фильтрация. Есть кластеры пользователей и закономерности с помощью которых можно максимизировать вовлеченность читателя в ваш контент.

Результаты тестирования

По результатам А/В тестов коллаборативная фильтрация, без дополнительных настроек, дает на 20-30% больше кликов, чем подборка по тегам. И это означает, что никто не должен составлять блоки «Читать также» на основе тегов.

Коллаборативная фильтрация это в какой-то степени продолжение идеи использования tf-idf для вычленения значимой информации, но вместо частоты слов мы используем по-разному взвешенные «голоса» читателей. Под голосом мы понимаем какие-то действия: просмотр страницы, доскролливание до конца, что-то еще – набор событий зависит исключительно от фантазии математиков и свободного времени программиста на js (который пишет код все это великолепие учитывающий).

Просто считать количество событий неправильно, поэтому мы опять рассчитываем веса голосов. Поскольку читатели не ставят оценок (более того, они даже не знают или не задумываются о том, что читая статью про мухомор выросший на опушке около сельсовета они помогают собрать статистику читательских предпочтений «Вестника Несреднечерноземного брусникода»), нам нужно определить «важность» голосов используя только анонимную и довольно ограниченную информацию.

Важность голоса читателя зависит от того, насколько он активен, правда с отрицательным знаком: чем больше статей читает пользователь за какой-то период времени (например 12 часов), тем дешевле стоит его голос. Вес голоса это убывающая функция числа прочитанных статей на ресурсе. Более того, имеет смысл ставить отсечку сверху: человек прочитавший более 100 статей на одном и том же сайте в течение одного дня либо редактор этого сайта, либо маньяк или бот и скорее всего нам не нужны его рекомендации.

Веса можно посчитать например так:

$w_i%20%3D%20%5Cfrac%7B1.0%20%7D%7B%5Clog$

где $%5Cinline%20w_i$ вес голоса $%5Cinline%20i$ -го пользователя, а $%5Cinline%20v_i$ число голосов этого пользователя. Опять-таки, никто не заставляет нас использовать логарифмы — любая монотонно убывающая функция от $%5Cinline%20v_i$ сойдет, так же можно избавиться и от единички в знаменателе: строго говоря читателей с нулем голосов учитывать тоже не стоит (убрали же графу «против всех» из избирательных бюллетеней). Сюда же можно добавить, что-то еще: например не просто считать число прочитанных статей, а учитывать время проведенное за их чтением, поставленную оценку (если такая информация есть), все что угодно.

Не ставить ограничение по времени

Почему новостные издания рекомендуют новости полугодичной давности, понять сложно. Такой подход порождает дикие примеры типа этого:

Медиа думают, что пользователь хочет знать, что было на эту тему раньше. Нет, не хочет! Ему это неинтересно, и никому это неинтересно.

Результаты тестирования

Во время тестов на новостных СМИ мы выясняли наиболее оптимальный возраст новостей, которые стоит рекомендовать посетителям. Было протестировано три варианта: 72, 48 и 24 часа с момента публикации. Тестовая выборка составляла 2.7 миллиона читателей и проводилась месяц. Большая часть наших коллег ставила на 24 часа, потому что им казалось, что новости очень быстро устаревают, и никто не будет читать вчерашние новости. Чуть меньше людей верило в 48 часов. Видимо, потому, что не все успевают прочесть актуальное за день и, скорее всего, они что-то пропустили за вчера и хотят наверстать упущенное. Никто не верил в 72 часа…

Да, 72 часа победили. В этом диапазоне пользователи находят больше всего интересующих материалов и блоки, собранные из таких новостей, кликабельны на 4,2% больше чем 48 часов и на 10,9% больше чем 24 часа. Вероятно, это происходит потому, что люди не успевают (или просто не хотят) потребить весь объем информации, который генерируют медиа. Поэтому новости, вышедшие позавчера, для них еще актуальны. Исключение составляют breaking news.

Чтобы не быть голословными давайте посмотрим на статистику посещений страниц на сравнительно большой выборке (но меньшей чем описанная в предыдущем абзаце), например в один миллион событий (переходов на страницу) и посмотрим на возраст читаемых статей.

Сначала просто посмотрим сколько разных страниц попало в нашу выборку (все события собраны на одном большом новостном сайте. Получается следущее:Возраст (часы)Число страниц0-2471924-4884148-7258172-9636896-120238120-14473144-16885168-192147192-216141216-240110>2408152Всего11455

Довольно очевидно что старых урлов много, но также очевидно что нужно считать не просто посещенные урлы, а распределение трафика. Посмотрим на количество посещений:Возраст статьи (часы)Число событий0-24771 43524-48130 43148-7226 23372-9621 53696-1205 214120-144673144-168287168-192965192-2161 001216-2401 642>24040 583Всего1000 000

Как и ожидалось, больше 90% трафика приходится на статьи опубликованные за последние 72 часа.Это 5 универсальных правил для всех медиа. При этом на каждой площадке есть свои собственные поведенческие паттерны. В зависимости от них настраиваются алгоритмы. Такой же набор законов и запретов можно было бы сформулировать для любой из наших площадок.

Мы очень рады, если эта статья помогла в работе вашей редакции и проектировании интерфейсов. Если есть вопросы, безумные гипотезы и идеи, которые вы хотите реализовать вместе с нами — напишите на lab@relap.io

Если хотите использовать наши технологии, вовлекать читателей и вообще автоматизировать рекомендации контента на сайте, мы с радостью в этом поможем. Пишите на support@relap.io