Главная тема
саммита в этом году — синергия науки и практики для создания удобных и полезных
сервисов на основе компьютерного зрения. В рамках мероприятия прошли две
параллельные программы. В научной сессии была представлена серия докладов о
последних исследованиях, которые позволяют расширять применение компьютерного
зрения. Так, Евгений Бурнаев руководитель проектного Центра прикладного ИИ
Сколтеха, ведущий научный сотрудник Института искусственного
интеллекта AIRI , говорил о глубоком обучении для
моделирования и реконструкции 3D-форм. Разрабатываемые технологии помогут
реализовать приложения AR/VR, эффективно обрабатывать медицинские данные для
планирования сложных хирургических операций, решать задачи планирования
городской среды, сохранения культурного наследия и создания цифровых двойников.
Также часть
выступлений была посвящена разработке решений в прикладных кейсах. Александр
Чигорин, директор по исследованиям VisionLabs, рассказал о распознавании
жестов, и как пройти путь от бейзлайна до работающего решения, остановившись на
алгоритмической части решения. Сложность разработки заключалась в том, что
решение должно успевать отрабатывать в реальном времени на устройстве с
нейропроцессором и не реагировать на движения, похожие на жесты. В выступлении Романа
Исаченко, старшего разработчика Яндекса , говорилось о визуальном поиске.
Спикер отметил: при разработке решения для избежания переобучения нужно иметь хорошую
тестовую метрику, а также необходимо уделить большое внимание очистке реальных данных.
Андрей Кузнецов, исполнительный директор по
исследованию данных Sber AI рассказал о применении
мультимодальных архитектур в задачах генерации изображений по описанию, а исполнительный директор по исследованию
данных Sber AI и научный консультант Института искусственного интеллекта AIRI
Денис Димитров выступил с презентацией на тему: «Fusion Brain —
исследовательская платформа для мультимодального и многозадачного обучения».
Зарубежные
исследователи Минсу Чо (Южная Корея) и Силинь Чен (Китай) рассказали о визуальном
соответствии в компьютерном зрении и представлении сцен с помощью графов. После
чего с ними состоялось прямое включение с сессией вопросов и ответов.
В рамках
научного трека прошла постерная сессия, на которой было представлено 14 проектов
от исследователей из РН БашНИПИнефть, МФТИ, НИУ ВШЭ, AIRI, МГУ им. М. В. Ломоносова
и других AI-лабораторий.
Помимо
этого, прошло подведение итогов соревнования по анализу данных, главной целью
которого было создание точного и быстрого верификатора моделей транспорта по
изображениям. Решения победителей и призеров показали высокие результаты,
качество работы лучшего алгоритма составило 97,5% на публичных тестах и 95,5%
на приватных. Топ-3 команд подошел к решению задачи с нескольких сторон: сбор
данных, выбор архитектуры построения моделей и методов оптимизации алгоритмов,
что обеспечило им высокие результаты. Решения команд-лидеров универсальны и
заметно лучше работают на различных группах транспорта, в том числе на самых
сложных для задачи верификации — тяжелых транспортных средствах и
производителях бывшего СССР. Всего соревнование длилось 28 дней, заявки подали
243 участника, было отправлено 1348 решений, при этом одна из команд предложила
рекордные 92 варианта решения задачи. Алгоритмы победителей и собранные ими данные
будут доступны как open-source, что поможет развитию решений задачи по верификации
автомобилей в целом. В датасете победителей собрано более 400 тысяч
изображений, таких крупных наборов данных с изображениями транспорта в мире
практически нет в открытом доступе.
Одной из
основных тем среди кейсов бизнес-сессии стало создание КБС[1] и ЕБС[2] . Наталья
Бессонова, менеджер проектов ПАО «Ростелеком», выступила с презентацией «Единая
биометрическая система: от технологий до практики применения». Спикер рассказала, что у ЕБС широкие перспективы
использования не только в финансовой сфере, но и в других отраслях — в
образовании, спорте, на транспорте. Идентификация по биометрии может
применяться при сдаче сессии в университете, для прохода на спортивные
мероприятия или для посадки в самолет без предъявления посадочного талона и
паспорта.
Руководитель центра
идентификации и цифровых продуктов ПАО МТС Сергей Яковлев также рассказал о применении биометрических технологий в федеральном
масштабе, но уже в рамках МТС. Компания первой в телеком-рознице стала
обслуживать клиентов в офисе по лицу без документов, удостоверяющих личность. Спикер
подчеркнул, что технологии позволяют ускорить обслуживание на 2-3 минуты, что в
масштабе офисов МТС дает большую экономию.
Помимо этого, эксперты
обсудили кейсы, в которых использование компьютерного зрения вышло за пределы
распознавания лиц. Директор по цифровой трансформации Segezha Group Сергей
Меркулов рассказал о применении технологий компьютерного зрения для
контроля сырьевых потоков и обеспечения производственной безопасности на
заводах. Технологии позволяют автоматизировать приемку круглого леса, а также
на 46% снижает количество случаев, когда работник выходит на участок без
средств индивидуальной защиты.
Александр Гаценко, руководитель
центра технологий видеоаналитики Газпромнефть-цифровые решения, продолжил тему применения компьютерного зрения в промышленности. Видеоаналитика
в компании используется для обеспечения безопасности на транспорте и
промышленной безопасности, а также для контроля состояния сотрудников и их
идентификации. За счет широкого спектра применения Газпромнефть активно
развивает проекты с применением компьютерного зрения: за 2020-2022 года из идей
в НИОКР перешли более 30 проектов.
В выступлении Александра
Капитанова, руководителя R & D команды Computer Vision SberDevices , внимание было уделено жестовому управлению: от
виртуальных ассистентов на различных устройствах до автомобилей. Для решения
задач такого рода команда SberDevices собрала и выложила в открытый доступ один из самых больших жестовых
датасетов — HaGRID — Hand Gesture Recognition Image Dataset, содержащем 552 992 FullHD изображений и 18
функциональных жестов.
Также в рамках
бизнес-сессии прошла презентация «Кодекса этики в сфере искусственного
интеллекта» . Сергей Наквасин, заместитель руководителя аналитического
центра при Правительстве РФ, и Андрей Незнамов, управляющий директор-начальник
Центра регулирования AI Сбербанка , рассказали, что этические принципы
использования ИИ вырабатываются на самых разных уровнях: их предлагают НКО и
частные исследователи, мировые корпорации и правительства стран. Российский
кодекс состоит из шести принципов и помогает установлению мягкого регулирования
в области высоких технологий. В настоящее время к нему уже присоединились 83
участника российского рынка ИИ.
Завершила Machines Can See панельная дискуссия на тему
«Будущее цифровых сервисов», на которой спикеры обсудили, насколько массовым применение компьютерного
зрения становится в повседневной жизни и бизнесе, что влияет на развитие
подобных технологий и как вести подобные
инновационные проекты.
Запись выступлений на главной сцене вы можете посмотреть на ютуб-канале VisionLabs.
Стратегическими партнерами
саммита выступили Sber AI и MTS AI.
«Среди основных трендов в области
компьютерного зрения — взрывной рост количества кейсов применения, развитие
этики применения технологий, рост участия государства и появление новых методов
поддержки, а также появление таких масштабных проектов, как оплата по лицу в
метро или управление умными устройствами с помощью жестов, что делает
компьютерное зрение неотъемлемой частью повседневной жизни. Все эти темы мы
обсудили в рамках саммита. Рост рынка компьютерного зрения ежегодно достигает
практически 40%, поэтому очень важно создавать возможности для обсуждения
перспектив, обмена опытом и успешными кейсами, и Machines Can See за шесть лет
существования уже стал такой площадкой» , — рассказал Дмитрий Марков,
генеральный директор VisionLabs .
«Саммит
Machines Can See — уникальная площадка для обмена знаниями и идеями между
бизнесом, исследователями и разработчиками. Благодаря синергии науки и бизнеса,
компьютерное зрение стало одним из самых востребованных направлений в сфере
искусственного интеллекта и без сомнения частью повседневной жизни. MTS AI
применяет CV для целого ряда своих продуктов и решений, в том числе для
Платформы VSaaS — инструмента, позволяющего создавать системы видеонаблюдения и
видеоаналитики. Мы постоянно работаем над улучшением алгоритмов CV и ищем новые
способы применения этой технологии, в том числе с помощью обмена знаниями на
таких площадках, как Machines Can See» , —
рассказал Александр Ханин, генеральный директор компании MTS AI.
«Сбер
проводит огромную работу по внедрению искусственного интеллекта и машинного
обучения в индустриях присутствия. Развитие эффективных систем компьютерного
зрения и их интеграция в цифровые продукты и сервисы — одно из ключевых и
активно развивающихся направлений ИИ, в котором российские исследователи и
инженеры занимают лидирующие позиции мирового уровня. Ежегодный саммит Machines can see — это
возможность показать свои наработки как раз в области нейросетевых технологий
машинного зрения и посмотреть на опыт коллег. Каждая такая встреча даёт мощный
толчок исследователям и разработчикам, стимулирует появление новых интересных
решений и способствует развитию профессионального сообщества», — отметил Максим
Ерёменко, вице-президент, директор Департамента развития искусственного
интеллекта и машинного обучения Сбербанка.
[1] Коммерческие
биометрические системы.
[2] Единая биометрическая система (ЕБС) — это
российская цифровая платформа для дистанционной биометрической идентификации
граждан РФ. Согласно распоряжению правительства РФ от 22.02.2018 № 293
оператором ЕБС назначено ПАО «Ростелеком».