За кулисами дипфейков: как создаются цифровые копии реальности

От научной фантастики к повседневности: эволюция технологии
Изначально технология «глубокой подделки» (deepfake) основывалась на методе генеративно-состязательных сетей (GAN). Одна нейросеть (генератор) создавала изображение, а другая (дискриминатор) пыталась отличить его от реального. В этой «гонке вооружений» генератор учился создавать все более правдоподобные лица. Сегодня этот процесс упростился и ускорился благодаря появлению диффузионных моделей (как в Stable Diffusion или Midjourney) и готовых коммерческих сервисов.
Уже в 2023 году появились нейросети, способные создавать дипфейки в реальном времени во время видеозвонка, меняя лицо, голос и даже фон. Это открывает новые риски для сферы телекоммуникаций и удаленной аутентификации.
Конвейер создания: как собирают цифрового двойника
Создание убедительного дипфейка сегодня напоминает работу на конвейере, где каждый этап обслуживается специализированным ИИ-сервисом.
Для начала нужна биометрическая основа. Как и в известных случаях с фейковыми роликами Антона Силуанова или Эльвиры Набиуллиной, злоумышленники используют публичные фото и видео. Процесс автоматизирован: сервисы вроде Pimeyes или Search4Face могут за минуты найти в открытом доступе сотни снимков нужного человека под разными углами. Параллельно, инструменты вроде ElevenLabs или российского SaluteSpeech создают клон голоса по образцу речи длиной всего в несколько минут.
Далее статичное лицо «оживляют». Кто-то идёт сложным путем, как в случае с министром Силуановым, где использовалась точечная синхронизация губ (lip-sync) на реальном видео. А кто-то создаёт персонажа с нуля в HeyGen или Synthesia, задав ему текст для речи. Фон генерируется отдельно — например, в Runway или Pika Labs, что позволяет поместить цифрового двойника в любой нужный контекст: от кабинета до митинга.
Технологическая граница: что выдает подделку сегодня?
Несмотря на прогресс, у современных дипфейков есть характерные слабости, которые ищут системы детекции вроде российской «Зефир» или американской Reality Defender:
- Нейросети часто плохо справляются с отражением света в глазах и сложной геометрией зубов.
- Часто встречается неестественная мимика, асимметрия улыбки, редкое или несинхронное моргание.
- Физические несоответствия, например, тени, падающие не в ту сторону, размытые края волос, несоответствие освещения на лице и фоне.
- Цифровые шумы и следы сжатия (специфические паттерны, оставляемые алгоритмами генерации)
Тем не менее, с каждым обновлением модели эти артефакты становятся все менее заметными для человеческого глаза.
Этическая и правовая граница: где проходит красная линия?
Технология сама по себе нейтральна. Она используется для благих целей: оживление исторических личностей в документальном кино, создание цифровых каскадеров, персонализированное обучение с помощью аватаров преподавателей. Ключевой вопрос — согласие и контекст.
Правовая граница пока отстает от технологической. В большинстве стран нет отдельных законов, криминализирующих создание дипфейков как таковых. Преследование возможно только по смежным статьям: клевета, нарушение авторских прав или неприкосновенности частной жизни.
Эпоха дипфейков не отменяет правду — она делает ее самым ценным активом. Технология цифровых двойников — это лишь инструмент, зеркало, отражающее как наши творческие амбиции, так и социальные риски. Понимание того, как создается эта иллюзия, — это первый и главный шаг к тому, чтобы сохранить ясное видение реальности в мире.
Спасибо за внимание! За удалением дипфейков и защитой репутации от неправомерного контента обращайтесь в агентство YouStory Global.
Реклама. Рекламодатель — ИП Городничев. ИНН 590849322520. erid: 2VtzqxRmwxF