Главное Свежее Вакансии Образование
😼
Выбор
редакции
12 004 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Как навести порядок в тегах Instagram*

Основатель «Школы траблшутеров» Олег Брагинский и стажёр Даниил Карагулин отчитываются о наведении порядка в ключевых словах профиля социальной сети по обмену изображениями.

Оформление постов с телефона сопряжено с неизбежными сложностями:

  • допускаются орфографические и пунктуационные ошибки;
  • вписываются случайные или пропускаются нужные теги;
  • вкрадываются и тиражируются досадные опечатки;
  • нарушается логика следования ключевых слов.

Учитывая, что задним числом проводить систематизацию проще, выкачали посты первого соавтора:


Среди 1’325 публикаций (1) обнаружили применение:

  • 12 тегов (2) среди которых нет именного: #ОлегБрагинский;
  • 6 ключевых слов (3), встречающихся более чему у 10% публикаций;
  • 6 редких тегов (4), составляющих 11,6% от общего количества в 3’009 слов (5).


Решили вернуть тегам начальный функционал: обеспечение навигации по массивам графических объектов. Для этого ввели правила простановки ключевых слов:

  • неплохим книгам на белом пластике кухонного стола (6): издательства #alpinabook или #миф;
  • лучшим томам месяца на кожаном фоне (7): #trblshtrbookofthemonth;
  • достойным учебникам на деревянной полке (8): #trblshtrbook;
  • книгам года на металле (9): #trblshtrbookoftheyear.


Авторским материалам тоже навесили ярлыки:

  • учебным пособиям (10): #trblshtrmanual;
  • аудиосборникам (11): #trblshtraudio.


Теперь, чтобы найти все посты по заданному смыслу, достаточно ввести в строке поиска Instagram соответствующее ключевое слово. Приступили к автоматизации распознавания фона, чтобы находить отсутствующие или ошибочные ключевые слова (6, 7, 8, 9).

Для этого, представили изображения постов в виде матрицы, где пронумеровали крайние угловые пиксели согласно схеме:


Цвет пикселей собирали в модели RGB — «Red, Green, Blue» (12), после чего усредняли арифметически и выполняли классификацию подложки (13)...


... с помощью фрагмента кода, приведённого ниже:


Обратите внимание на маркер (14): показывает разницу трёх точек верхнего левого угла картинок на идентичном фоне «кожа». Инстаграм сжимает изображения при загрузке, ухудшая качество, неразличимое взгляду, но для «машинного зрения» значения не совпадают в каждом цвете.

Использование двух конкурентных способов вычисления фона поста повысило точность распознавания, разделив публикации на группы:

· подложка дважды определена одинаково (15) — вмешательство не требуется

· фон распознан единожды (16) — предстоит ручное доопределение

· есть разногласия в трактовке подложки (17)...


Заметили, что Instagram тоже пытается распознавать содержимое изображений...


... заполняя поле description (18) фразами (19): «image» (изображение), «text that says» (текст, который говорит), «book» (книга), «one or more people» (один или несколько человек) и «cartoon» (ролик):


Вероятно, режим распознавания образов ещё находится на стадии тестирования, т.к. определяет мало объектов (20).

Завершив редактирование ключевых слов, дождались круглого количества публикаций (21)...


... и повторили выкачку уже 1’400 постов (22), при этом количество используемых тегов:

· общее выросло до 13 (23)

· частых стало 7 (24)

· редких — 6 (25),

суммарный объём ключевых слов вырос до 7’323 (26):


Instagram постоянно блокировал попытки массовых обращений, определяя fingerprint — набор параметров, составляющий уникальный идентификатор пользователя. Установили, что после изменения четырёх параметров, сеть воспринимает участника, как нового, поэтому:

· изменяли данные о браузере и операционной системе

· модифицировали разрешение экрана

· снимали флажки автоматизации

· отключали звуки...


... и научились выкачивать 1’407 постов за 2 часа 41 минуту и 13 секунд (27), установив безопасную задержку, чтобы бдительная сеть не блокировала сеанс изнурительной связи:


Негативным последствием коррекции постов стало изменение даты и времени публикации с начального на зафиксированный в момент последнего вмешательства (28).

В ходе эксперимента по коррекции текстов и упорядочиванию тегов публикаций Instagram удалось:

1. Выстроить систему навигации, увеличив задействование ключевых слов вдвое (29):


2. Научиться распознавать четыре типа фона: пластик, кожа, дерево, металл (6, 7, 8, 9).

3. Исправить 62 орфографические (спасибо T9) и 29 пунктуационных ошибок в текстах.

4. Унифицировать написание тегов, задав единый порядок следования.

5. Добиться безотказности выгрузки публикаций из сети.

Далее планируем:

1. Провести исследование влияния надписей на картинках на лайки и комментарии к постам.

2. Определять книги Школы траблшутеров, аудиосборники, фотографии, афиши событий.

3. Настроить автоматическую проверку соответствия изображений постов строке тегов.

4. Различать фрагменты изображения, обозначающие издательство:


5. Настроить распознавание и отметку людей.

* — социальная сеть Instagram принадлежит компании Meta, которая признана на территории Российской Федерации как экстремистская.

+1
В избр. Сохранено
Авторизуйтесь
Вход с паролем
Комментарии
Выбрать файл
Блог проекта
Расскажите историю о создании или развитии проекта, поиске команды, проблемах и решениях
Написать
Личный блог
Продвигайте свои услуги или личный бренд через интересные кейсы и статьи
Написать

Spark использует cookie-файлы. С их помощью мы улучшаем работу нашего сайта и ваше взаимодействие с ним.