Digital-рекламные технологии: превращаем классические газеты в интерактивный канал коммуникации

Несмотря на бурное развитие digital, основным форматом хранения новостных изданий остаётся PDF. Так проще сохранить красивую верстку и картинки.
Основная проблема PDF газет — скучные, статичные рекламные блоки. Редакции тратят много времени, чтобы вручную делать рекламу кликабельной: искать, где какие блоки, ставить ссылки. Это тяжело и долго. Но как автоматизировать процесс? Здесь на помощь приходит искусственный интеллект.
У нас в Технологике было несколько проектов по оцифровке западных и азиатских газет, а также по оживлению рекламных блоков. Хотим поделиться подходом, чтобы и наш рекламный рынок стал шире на один инструмент.
Как AI оживляет газеты?
Всё начинается с того, что нейросеть учится отличать новости от рекламы. Зачем это нужно? Чтобы по каждой рекламе можно было узнать, кто её разместил и что именно предлагает, сопоставить с базой рекламодателей, а потом — быстро прописать ссылки прямо в PDF. Алгоритм тут следующий: Главная трудность в этой задаче — отделить разные части газеты: статьи, объявления, картинки. Ведь с распознаванием текста справится уже почти любая LLM-модель. Верстка нестандартная, структура меняется от номера к номеру, заголовков много — всё это усложняет задачу. Мы работали с газетами из разных стран и протестировали много способов. Вот три наиболее эффективных: от самого простого и экономичного до самого точного и более дорогого. Это самый простой и бюджетный подход, здесь мы применяем модель GPT-4o. Сначала с помощью OCR вытаскиваем текст и его координаты, потом AI делит страницу на статьи и рекламу. Быстро, удобно, недорого, подходит для тестов и первых версий. Точность сегментации — примерно 85–90%, так что для сложных задач, требующих почти идеальной разметки, вроде рекламных блоков, необходимы другие подходы. Второй подход строится на детальном выделении текстовых и графических блоков на странице с помощью современной модели сегментации (например, YOLOv8-seg). Она ломает страницу на отдельные блоки, чтобы каждую статью и рекламу собрать по частям. Учитывает не только смысл текста (строим здесь семантические вектора), но и расположение на странице. Так мы получаем структурированный контент и высокую точность. Третий подход предполагает применение предварительно обученной модели сегментации, способной сразу выделять на газетной странице целые статьи и рекламные блоки в единые объекты. Но это требует большого размеченного датасета, на котором такую модель можно обучить. Это дорого, но точно. После обнаружения статей для каждой извлекается полный текст и рассчитывается семантический вектор. В результате мы получаем максимально точное обнаружение границ статей и рекламных блоков. А дальше всё просто. Газету загружают в облако. AI-модель сама находит рекламу на любом макете. Другая AI-модель распознаёт текст, вытаскивает ссылки, телефоны, и адреса электронной почты из каждого объявления. Всё это становится кликабельным за минуты, если выпуск газеты современный. В архивных выпусках ai-модель может сопоставить рекламные объявления с базой рекламодателей по выпуску. Это тоже достаточно просто и быстро. Но если база рекламодателей не сохранилась и выпуски газет достаточно старые, эти места можно заново предложить купить рекламодателям — для них это новый шанс привлечь клиентов. На рекламу добавляются невидимые кликабельные зоны с ссылками, содержащими utm-метки — так можно понять, сколько людей перешли по объявлению и какие газеты дают лучший эффект. В результате редакция получает интерактивный PDF. Новый выпуск обрабатывается за несколько минут, ошибок почти не бывает, все ссылки работают. Газета становится удобнее для читателей и даёт больше возможностей для рекламы, при этом дополнительного ручного труда не прибавляется, все делают нейросети. Автоматизация рекламы в PDF-газетах даёт редакциям и рекламодателям больше возможностей, чем просто переход на цифровой формат. Это реальное преимущество на фоне конкурентов. Издание, где реклама становится интерактивной, сразу выглядит интереснее для бизнеса, и принять решение о размещении гораздо проще. Технология легко работает не только в газетах, но и в журналах, дайджестах, каталогах, брошюрах или отчётах. Любой документ, где есть рекламные или информационные блоки, можно сделать удобным и интерактивным за минуты. Интерактив можно постоянно расширять: добавить быструю покупку прямо в PDF, заявки на участие в мероприятии, онлайн-опросы, ссылки на соцсети или мессенджеры. PDF-документ перестаёт быть обычным файлом, он становится рабочим инструментом для бизнеса и читателей, развивается вместе с задачами рынка. Время статичных PDF-изданий уходит. Их место занимает живой, гибкий канал, где реклама работает на результат, а читатели получают максимальное удобство. Описанный нами подход позволяет внедрить современные digital-функции быстро, без головной боли и вложений в собственные IT-команды.


Подход #1: в основе GPT-4o
Подход #2: модель сегментации
Подход #3: модель мгновенного обнаружения
Что дальше?


Перспективы применения

Будущее уже наступило