Машинное обучение в борьбе с пиратством и контрафактом: технологии и примеры
В странах ЕАЭС за последние десять лет пресечено свыше 80 тысяч нарушений в сфере интеллектуальной собственности. Суммарный объем изъятых контрафактных товаров достиг почти 140 млн единиц. Эти данные озвучил директор Департамента развития предпринимательской деятельности Евразийской экономической комиссии Ернар Бакенов на экспертной сессии «Интеллектуальный порядок. Практика защиты правообладателей в ЕАЭС».
Стремительный рост объема цифрового контента и повышение сложности его отслеживания создают существенную нагрузку на правообладателей, государственные органы и ИТ-инфраструктуру. В этих условиях все более важную роль играет искусственный интеллект, позволяющий анализировать и обрабатывать большие массивы данных для выявления нарушений.
Как искусственный интеллект может помочь
В борьбе с пиратством и контрафактом искусственный интеллект (ИИ) сегодня применяют в трех основных направлениях:
1. Для анализа изображений: нейросети определяют визуальные отличия оригинальных товаров от подделок (например, логотипов, упаковки, текстур);
2. Анализ видео и аудио: ИИ-системы могут распознавать пиратский видеоконтент (фильмы, сериалы, трансляции) путем сравнения с оригиналами, например, по звуковой дорожке или последовательности кадров;
3. Обработка текстов: ИИ анализирует заголовки, описания и ключевые слова, чтобы идентифицировать публикации, содержащие пиратский или контрафактный контент.
В работах подобного характера полностью исключать человеческий фактор нельзя, однако, помощь ИИ имеет ряд существенных преимуществ. Автоматические системы обнаружения работают в режиме реального времени, минимизируя временные задержки в реагировании. Снижается необходимость в ручной проверке и анализе, особенно при мониторинге миллионов страниц и изображений, соответственно, снижаются и затраты. Кроме того, системы могут охватывать как крупные торговые площадки, так и нишевые сайты, социальные сети и Telegram-каналы.
В современных условиях, когда количество товарных предложений на маркетплейсах и веб-сайтах исчисляется миллионами, ручной мониторинг становится неэффективным. В нашей практике ИИ выполняет роль высокотехнологичного фильтра и аналитического центра, позволяя автоматизировать процесс защиты интеллектуальной собственности.
Ежедневно наши системы обрабатывают тысячи страниц и карточек товаров, ИИ берет на себя наиболее трудоемкую часть работы — мгновенный первичный отбор. Используя алгоритмы машинного зрения и обработки текстов, система классифицирует поток данных по категориям:
• Информационное использование: упоминание бренда в обзорах или сравнительных статьях (не является нарушением).
• Легальные продажи: авторизованные дилеры и площадки.
• Подозрение на контрафакт/нарушение: использование товарного знака без разрешения, подозрительно низкая цена, несоответствие фирменному стилю, или продажа продавцом, который ранее был замечен в продаже контрафактных товаров.
· Нерелевантные предложения (использование стороннего бренда или использование бренда в иных классах МКТУ)
ИИ не просто ищет совпадение, по ключевым словам, он анализирует контекст использования бренда. Это позволяет с высокой точностью отделять предложения о продаже контрафактного товара от контрафактного.
В нашей работе алгоритмы, основанные на ИИ, присваивают каждой карточке «индекс риска». Благодаря этому специалисты не тратят время на просмотр пустых или корректных объявлений. ИИ обеспечивает точность распознавания нарушений на уровне 90-99%, что позволяет нам фокусироваться на оперативной блокировке наиболее опасных источников распространения контрафакта.
Таким образом, ИИ выполняет 98% «черновой» работы по сортировке данных в режиме 24/7.
ИИ «в штате» гигантов рынка
Для многих крупных компаний машинное обучение уже стало привычным подспорьем в работе. Для поиска и выявления контрафактных товаров собственные ИИ-системы используют, например, Alibaba и Amazon, анализируя тысячи объявлений и автоматически скрывая подозрительные предложения. В России аналогичную функцию выполняют системы, используемые маркетплейсами Wildberries и Ozon.
Для блокировки пиратского контента на видеохостингах YouTube и Twitch используют Content ID — алгоритм, сравнивающий загруженные видео с базой авторских оригиналов.
А для мониторинга социальных сетей используются системы, подобные BrandShield, выявляющие фальшивые аккаунты, контрафакт, а также сообщения, содержащие ссылки на пиратский контент. Так, в 2023 году «Газпром-Медиа» запустил пилотный проект по автоматическому мониторингу Telegram на предмет пиратских трансляций. Исходя из годового отчета холдинга за 2024 год, инициатива принесла свои результаты. Были выявлены и заблокированы 17 400 веб‑сайтов и 5 700 каналов в Telegram.
В юридической фирме «Городисский и Партнеры» создали собственную систему для выявления контрафактной продукции в сети — Gorodissky IP Security. Платформа позволяет автоматически отслеживать в интернете нарушения авторского права, имитации товарных знаков и других средств индивидуализации в сети. Сервис умеет анализировать большие объемы собираемой информации, сравнивать цены и оценивать репутационные риски для бренда.
По опыту нашей работы, можно уверенно говорить, что использование ИИ и технологий машинного обучения существенно снижает трудозатраты и повышает эффективность работы команды.
Основной эффект заключается в том, что платформа берет на себя значительную часть рутинной и первичной аналитической работы. Это позволяет значительно сократить время на первичный анализ и быстрее переходить к правовой оценке ситуации и выработке мер реагирования.
При этом ценность ИИ состоит не только в ускорении поиска. Не менее важно, что платформа помогает сосредоточить ресурсы команды на наиболее значимых нарушениях. Специалисты сразу работают с теми кейсами, которые действительно требуют внимания с точки зрения риска для бренда, масштаба нарушения и перспектив дальнейших действий.
За счет этого сотрудники могут уделять больше внимания задачам, в которых критически важны экспертиза и юридическая квалификация. Иными словами, ИИ не заменяет специалиста, а позволяет использовать его время и компетенции более эффективно.
Кроме того, использование таких технологий обеспечивает необходимый масштаб мониторинга. Платформа позволяет одновременно отслеживать существенно большее количество ресурсов и SKU, чем это возможно при ручной работе.
Если говорить в практической плоскости, то эффективность платформы проявляется не только в количестве найденных нарушений, но и в том, что она сокращает путь от обнаружения проблемы до принятия конкретного юридически значимого решения. Именно это, на наш взгляд, является одним из ключевых показателей реальной эффективности таких решений.
Лучшие кейсы последних лет: ИИ и контрафакт
В 2022 году маркетплейс Wildberries внедрил ИИ-алгоритмы, которые анализируют изображения, описания товаров и отзывы. За первый год системе удалось выявить более 50 тыс. подозрительных карточек товаров, значительная часть которых была удалена или доработана поставщиками. Это на 30% снизило жалобы пользователей на подделки.
Совместно с компанией WebKontrol медиахолдинг «СТС Медиа» использует ИИ-системы для мониторинга интернета на наличие пиратских копий сериалов и шоу. В результате уже в 2023 году удалось сократить на 40% объем нелегально распространяемого контента.
Amazon использует машинное обучение в рамках Project Zero, который позволяет правообладателям находить и удалять подделки без участия сотрудников площадки. Благодаря этой инициативе в 2023 году было с витрины маркетплейса было исключено более 700 тыс. поддельных товаров.
Производитель техники Harman отчитался о том, что только за 2020 год в России было выявлено 1567 нарушений в офлайн-среде и подано рекордное количество судебных исков — 1380. Кроме того, совместно с правоохранительными органами они заблокировали более 28 000 страниц на досках объявлений и в социальных сетях, а также 170 сайтов, торговавших подделками фирмы на 53 миллиона рублей.
Система может дать сбой
Несмотря на успехи, использование ИИ в защите прав интеллектуальной собственности несовершенно и сталкивается с рядом вызовов. Пиратские сайты и продавцы контрафакта обходят фильтры, изменяя URL-адреса, искажая изображения и аудио или применяя шифрование.
Например, может использоваться техника «доменного прыжка». Так, после блокировки крупного торрент-трекера Rutracker.org в России, его аудитория перешла на зеркала с измененными URL, и таких платформ множество. В аудиосфере пираты используют изменение тональности и обрезку треков, чтобы обойти алгоритмы Shazam или Content ID.
Для обхода распознавания изображений продавцы контрафакта применяют искажение логотипов, на том же Alibaba встречаются подделки Louis Vuitton с едва заметными изменениями в фирменном узоре. В 2021 году и Amazon столкнулся с проблемой: его ИИ-фильтры пропускали поддельные товары из-за того, что продавцы стали использовать сгенерированные описания, имитирующие язык оригинальных брендов.
Алгоритмы устаревают и требуют регулярного обновления данных, иначе может снизиться точность и увеличиться число ошибок. Кроме того, нередко алгоритмы ошибочно блокируют и легальный контент. Например, система YouTube Content ID, внедренная в 2007 году, изначально не учитывала такие форматы, как короткие видео TikTok или ремиксы, что привело к волне ложных блокировок в 2020-2022 гг. В России же под блокировку ВКонтакте неоднократно попадали легальные подкасты из-за совпадения фрагментов с пиратскими копиями.
Мы рассматриваем несовершенства машинного обучения не как проблему, а как естественный этап настройки инструмента. Наш подход базируется на концепции непрерывного обучения и сочетает технологическую адаптацию с постоянной экспертной верификацией результатов.
Ключевой механизм повышения качества — регулярное дообучение алгоритмов на основе практики их применения. Наши специалисты ежедневно проверяют результаты работы системы, подтверждают корректные срабатывания, выявляют ошибки и тем самым формируют массив данных для дальнейшей настройки модели.
Важно учитывать, что на старте нового проекта или при появлении нетипичных задач система может показывать более умеренные результаты. Это обусловлено тем, что каждый бренд, товарная категория и сценарий нарушения обладают собственной спецификой: отличаются описания, визуальные признаки продукции, способы маскировки нарушений и поведение продавцов. Поэтому первоначальная настройка всегда требует периода адаптации к конкретному объекту мониторинга.
При этом по мере накопления релевантных данных система достаточно быстро выходит на требуемый уровень качества. Для достижения целевых показателей точности в среднем требуется несколько недель активной работы.
Доработка алгоритмов — не разовая задача, а непрерывный процесс. Он включает ежедневную верификацию результатов, корректировку критериев отбора, обновление обучающей выборки и дополнительную настройку моделей с учетом новых типов нарушений и изменений цифровой среды.
При этом мы не исходим из предпосылки полной автономности искусственного интеллекта. На текущем этапе ИИ остается инструментом поддержки принятия решений, а окончательная оценка и выбор дальнейших действий всегда остаются за специалистом.
Технологии требуют не только постоянного обновления, но и юридических корректировок, уверены эксперты. Например, в ЕС уже действует Директива по авторскому праву (2019/790), обязывающая платформы учитывать добросовестное использование. В России аналогичные инициативы обсуждаются в рамках реформы статьи 1253 ГК РФ.
Машинное обучение стало важнейшим инструментом в борьбе с пиратством и контрафактом, значительно повышая скорость выявления нарушений. Однако полноценно заменить человека система пока не способна. В условиях цифровизации и роста электронной торговли правоприменительная практика должна адаптироваться, сочетая юридические меры с передовыми техническими решениями.
Автор: Александров Евгений Борисович — к.ю.н., Старший партнер юридической фирмы «Городисский и Партнеры», Патентный поверенный РФ, Евразийский патентный поверенный
