редакции
Как навести порядок в тегах Instagram*
Оформление постов с телефона сопряжено с неизбежными сложностями:
- допускаются орфографические и пунктуационные ошибки;
- вписываются случайные или пропускаются нужные теги;
- вкрадываются и тиражируются досадные опечатки;
- нарушается логика следования ключевых слов.
Учитывая, что задним числом проводить систематизацию проще, выкачали посты первого соавтора:

Среди 1’325 публикаций (1) обнаружили применение:
- 12 тегов (2) среди которых нет именного: #ОлегБрагинский;
- 6 ключевых слов (3), встречающихся более чему у 10% публикаций;
- 6 редких тегов (4), составляющих 11,6% от общего количества в 3’009 слов (5).

Решили вернуть тегам начальный функционал: обеспечение навигации по массивам графических объектов. Для этого ввели правила простановки ключевых слов:
- неплохим книгам на белом пластике кухонного стола (6): издательства #alpinabook или #миф;
- лучшим томам месяца на кожаном фоне (7): #trblshtrbookofthemonth;
- достойным учебникам на деревянной полке (8): #trblshtrbook;
- книгам года на металле (9): #trblshtrbookoftheyear.

Авторским материалам тоже навесили ярлыки:
- учебным пособиям (10): #trblshtrmanual;
- аудиосборникам (11): #trblshtraudio.

Теперь, чтобы найти все посты по заданному смыслу, достаточно ввести в строке поиска Instagram соответствующее ключевое слово. Приступили к автоматизации распознавания фона, чтобы находить отсутствующие или ошибочные ключевые слова (6, 7, 8, 9).
Для этого, представили изображения
постов в виде матрицы, где пронумеровали крайние угловые пиксели согласно
схеме: Цвет пикселей собирали в модели RGB —
«Red, Green, Blue» (12), после чего усредняли арифметически и выполняли
классификацию подложки (13)... ... с помощью фрагмента кода,
приведённого ниже: Обратите внимание на маркер (14):
показывает разницу трёх точек верхнего левого угла картинок на идентичном фоне
«кожа». Инстаграм сжимает изображения при загрузке, ухудшая качество,
неразличимое взгляду, но для «машинного зрения» значения не совпадают в каждом
цвете. Использование двух конкурентных способов
вычисления фона поста повысило точность распознавания, разделив публикации на
группы: · подложка дважды определена одинаково (15) —
вмешательство не требуется · фон распознан единожды (16) — предстоит ручное
доопределение · есть разногласия в трактовке подложки (17)... Заметили, что Instagram
тоже пытается распознавать содержимое изображений... ... заполняя поле description (18)
фразами (19): «image»
(изображение), «text that says»
(текст, который говорит), «book»
(книга), «one or more people»
(один или несколько человек) и «cartoon»
(ролик): Вероятно, режим распознавания образов ещё находится
на стадии тестирования, т.к. определяет мало объектов (20). Завершив редактирование ключевых
слов, дождались круглого количества публикаций (21)... ... и повторили выкачку уже 1’400 постов (22),
при этом количество используемых тегов: · общее выросло до 13 (23) · частых стало 7 (24) · редких — 6 (25), суммарный объём ключевых слов вырос до 7’323 (26): Instagram постоянно блокировал попытки
массовых обращений, определяя fingerprint
— набор параметров, составляющий уникальный идентификатор пользователя.
Установили, что после изменения четырёх параметров, сеть воспринимает
участника, как нового, поэтому: · изменяли данные о браузере и операционной
системе · модифицировали разрешение экрана · снимали флажки автоматизации · отключали звуки... ... и научились выкачивать 1’407 постов
за 2 часа 41 минуту и 13 секунд (27), установив безопасную задержку, чтобы
бдительная сеть не блокировала сеанс изнурительной связи: Негативным последствием коррекции
постов стало изменение даты и времени публикации с начального на зафиксированный
в момент последнего вмешательства (28). В ходе эксперимента по коррекции
текстов и упорядочиванию тегов публикаций Instagram удалось: 1. Выстроить систему навигации, увеличив задействование
ключевых слов вдвое (29): 2. Научиться распознавать четыре типа фона:
пластик, кожа, дерево, металл (6, 7, 8, 9). 3. Исправить 62 орфографические (спасибо T9) и 29 пунктуационных
ошибок в текстах. 4. Унифицировать написание тегов, задав единый порядок
следования. 5. Добиться безотказности выгрузки публикаций из
сети. Далее планируем: 1. Провести исследование влияния надписей на
картинках на лайки и комментарии к постам. 2. Определять книги Школы траблшутеров,
аудиосборники, фотографии, афиши событий. 3. Настроить автоматическую проверку соответствия
изображений постов строке тегов. 4. Различать фрагменты изображения, обозначающие издательство: 5. Настроить распознавание и отметку людей. * — социальная сеть Instagram принадлежит компании Meta, которая признана на территории Российской Федерации как экстремистская.












