Компании
по всему миру смогут улучшить свои метрики, в том числе конверсию в покупку,
средний чек и выручку. Покупатели, в свою очередь, будут быстрее находить
нужные им товары в интернет-магазинах и на маркетплейсах, а зрители
онлайн-кинотеатров получат более персонализированные рекомендации фильмов и
сериалов.
За
основу был взят и улучшен популярный алгоритм для предсказания предпочтений
пользователей BPR (Bayesian Personalized Ranking), который считается одним из
мировых стандартов в рекомендательных системах на данный момент. Также новая
разработка обходит алгоритм Mult-VAE, опубликованный разработчиками из Netflix:
рекомендации, сделанные новым алгоритмом, оказались на 10% точнее, чем
предложения Mult-VAE.
Чтобы
найти наиболее эффективный вариант алгоритма, понадобилось более 200 000
GPU-часов и 15 000
экспериментов на внутренних данных Т-Банка с различными комбинациями параметров
модели.
На графике изображены результаты воспроизведения оригинального алгоритма в сравнении с моделями из разных опенсорс-библиотек. Как видно из графика, модель, созданная исследователями Т-Банка, превосходит большинство других моделей
Открытие
российских ученых было признано мировым научным сообществом и представлено на
главной международной конференции по рекомендательным системам ACM RecSys , которая в этом году состоялась в
Бари, Италия. В мероприятии приняли участие лучшие эксперты и исследователи в
этой сфере, а к презентации работ допустили только 17% заявителей со всего
мира.
Суть открытия
В
рекомендательных системах существует проблема, с которой часто сталкиваются
разработчики: одна модель может иметь множество различных вариантов. Эти версии
разрабатываются независимо друг от друга и могут существенно различаться по
своей эффективности.
Например,
алгоритм BPR (Bayesian Personalized Ranking) — один из самых популярных среди
исследователей более чем с 7 000 упоминаний в научных статьях по
рекомендательным системам. Оригинальная версия алгоритма была выпущена в 2012
году, и в ней не используются современные инструменты разработки (фреймворки).
Поэтому разные авторы создают новые версии под себя и выкладывают их в открытый
доступ. Так как единый стандарт для создания таких моделей отсутствует, их
сложно внедрить и использовать.
В
ходе экспериментов ученые из научно-исследовательской лаборатории T-Bank AI
Research пересмотрели и доработали все компоненты алгоритма BPR. Учитывая
влияние каждого из параметров, ученым удалось создать более эффективное решение
и разработать наилучшую версию для этого алгоритма. Получившаяся модель
значительно превзошла находящиеся в открытом доступе варианты по качеству
рекомендаций. В некоторых случаях улучшенная версия превосходила другие модели
почти на 50% по точности, в частности, модель из популярной опенсорс-библиотеки
для обучения рекомендательных систем RecBole, которая активно используется в
электронной коммерции, стриминговых сервисах и на образовательных платформах.
Александр
Милоградский, исследователь рекомендательных систем в Центре искусственного
интеллекта Т-Банка:
"По
сути, мы взяли инструкцию по сборке алгоритма от оригинальных разработчиков и
постарались собрать ее максимально точно. Представьте, что у вас есть
руководство, как собрать модель самолета на радиоуправлении, все чертежи и
детали. И перед вами уже есть пять готовых моделей, собранных по этому чертежу.
Мы создали модель по аналогичному чертежу, а затем, проанализировав влияние
различных компонентов на конечный результат, смогли выбрать оптимальные
значения для каждого из них. За счет этого наша модель получилась лучше других,
уже собранных по тому же чертежу. Летает быстрее, сделана с меньшими
недостатками в сборке.
Это
подчеркивает распространенную проблему в области рекомендательных систем:
зачастую старые модели могут показывать лучшие результаты, чем новые, если
уделить достаточно внимания их правильной реализации".
Подробное описание модели и результаты
экспериментов доступны в статье Revisiting
BPR: A Replicability Study of a Common Recommender System Baseline
Исходный код и дополнительные материалы
можно найти на GitHub.
Лаборатория
T-Bank AI Research
T-Bank Al Research — это одна из немногих
российских лабораторий, которые занимаются фундаментальными научными
исследованиями на базе бизнеса. Лаборатория входит в состав Центра
искусственного интеллекта Т-Банка.
Ученые из T-Bank Al Research исследуют
наиболее перспективные области ИИ: обработку естественного языка (NLP),
компьютерное зрение (CV) и рекомендательные системы (RecSys). По результатам
экспериментов они пишут научные статьи для наиболее авторитетных международных
научных конференций: NeurIPS, ICML, ACL, CVPR и других.
За три года существования команды более
20 статей были приняты на крупнейшие конференции и воркшопы в области ИИ.
Научные работы T-Bank Al Research цитируются учеными из университетов Беркли и
Стэнфорда, а также исследовательского проекта Google по изучению искусственного
интеллекта Google DeepMind.
Команда курирует исследовательские
лаборатории T-Bank Lab в МФТИ и Omut AI в Центральном университете и помогает
талантливым студентам совершать научные открытия.