Теперь, чтобы найти все посты по
заданному смыслу, достаточно ввести в строке поиска Instagram соответствующее ключевое
слово. Приступили к автоматизации распознавания фона, чтобы находить
отсутствующие или ошибочные ключевые слова (6, 7, 8, 9).
Для этого, представили изображения
постов в виде матрицы, где пронумеровали крайние угловые пиксели согласно
схеме:
Цвет пикселей собирали в модели RGB —
«Red, Green, Blue» (12), после чего усредняли арифметически и выполняли
классификацию подложки (13)...
... с помощью фрагмента кода,
приведённого ниже:
Обратите внимание на маркер (14):
показывает разницу трёх точек верхнего левого угла картинок на идентичном фоне
«кожа». Инстаграм сжимает изображения при загрузке, ухудшая качество,
неразличимое взгляду, но для «машинного зрения» значения не совпадают в каждом
цвете.
Использование двух конкурентных способов
вычисления фона поста повысило точность распознавания, разделив публикации на
группы:
· подложка дважды определена одинаково (15) —
вмешательство не требуется
· фон распознан единожды (16) — предстоит ручное
доопределение
· есть разногласия в трактовке подложки (17)...
Заметили, что Instagram
тоже пытается распознавать содержимое изображений...
... заполняя поле description (18)
фразами (19): «image»
(изображение), «text that says»
(текст, который говорит), «book»
(книга), «one or more people»
(один или несколько человек) и «cartoon»
(ролик):
Вероятно, режим распознавания образов ещё находится
на стадии тестирования, т.к. определяет мало объектов (20).
Завершив редактирование ключевых
слов, дождались круглого количества публикаций (21)...
... и повторили выкачку уже 1’400 постов (22),
при этом количество используемых тегов:
· общее выросло до 13 (23)
· частых стало 7 (24)
· редких — 6 (25),
суммарный объём ключевых слов вырос до 7’323 (26):
Instagram постоянно блокировал попытки
массовых обращений, определяя fingerprint
— набор параметров, составляющий уникальный идентификатор пользователя.
Установили, что после изменения четырёх параметров, сеть воспринимает
участника, как нового, поэтому:
· изменяли данные о браузере и операционной
системе
· модифицировали разрешение экрана
· снимали флажки автоматизации
· отключали звуки...
... и научились выкачивать 1’407 постов
за 2 часа 41 минуту и 13 секунд (27), установив безопасную задержку, чтобы
бдительная сеть не блокировала сеанс изнурительной связи:
Негативным последствием коррекции
постов стало изменение даты и времени публикации с начального на зафиксированный
в момент последнего вмешательства (28).
В ходе эксперимента по коррекции
текстов и упорядочиванию тегов публикаций Instagram удалось:
1. Выстроить систему навигации, увеличив задействование
ключевых слов вдвое (29):
2. Научиться распознавать четыре типа фона:
пластик, кожа, дерево, металл (6, 7, 8, 9).
3. Исправить 62 орфографические (спасибо T9) и 29 пунктуационных
ошибок в текстах.
4. Унифицировать написание тегов, задав единый порядок
следования.
5. Добиться безотказности выгрузки публикаций из
сети.
Далее планируем:
1. Провести исследование влияния надписей на
картинках на лайки и комментарии к постам.
2. Определять книги Школы траблшутеров,
аудиосборники, фотографии, афиши событий.
3. Настроить автоматическую проверку соответствия
изображений постов строке тегов.
4. Различать фрагменты изображения, обозначающие издательство:
5. Настроить распознавание и отметку людей.
* — социальная сеть Instagram принадлежит компании Meta, которая признана на территории Российской Федерации как экстремистская.