Tencent из Китая показала ИИ, превращающий фотографии в 3D-миры

Пользователь задаёт траекторию движения камеры — вперёд, назад, влево или вправо — и система генерирует ролик, где объекты сохраняют корректное расположение и перспективу.
Каждая генерация длится около 2 секунд, но клипы можно объединять в более длинные сцены. Voyager работает благодаря двум ключевым технологиям: одновременно генерирует изображение и данные о глубине, а также использует «мировой кэш» — набор 3D-точек из предыдущих кадров, который обеспечивает согласованность изображения при смене ракурсов.
Для обучения модель изучила более 100 тысяч видеороликов, включая сцены на Unreal Engine, что позволяет ей имитировать движение камеры, как в играх и фильмах. СМИ отмечают, что пока система работает не идеально.
Voyager уже доступен на платформе Hugging Face, но требует мощных систем с 60–80 ГБ видеопамяти. Использование модели в коммерческих проектах с большой аудиторией возможно только по отдельной лицензии.