редакции
Сбер представил нейросеть Kandinsky 2.1
Она также может смешивать несколько рисунков, изменять их по текстовому описанию, генерировать изображения, похожие на заданное, дорисовывать недостающие части картинки и формировать изображения в режиме бесконечного полотна (inpainting/outpainting). Модель понимает запросы на 101 языке (включая русский и английский) и умеет рисовать в различных стилях.

Нейросеть разработали и обучили исследователи Sber AI при партнёрской поддержке учёных из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и компании SberDevices.

Новая модель Kandinsky 2.1 унаследовала веса предыдущей версии, обученной на 1 млрд пар «текст —
изображение», и была дополнительно обучена на 170 млн пар «текст — изображение»
высокого разрешения. Затем она дообучалась на отдельно собранном датасете из 2
млн пар качественных изображений. В данный сет попали картинки с описаниями в
таких традиционно сложных для нейросетей областях, как тексты и лица людей.
Нейросеть также была усовершенствована за счёт новой обученной модели
автоэнкодера, которая используется в том числе в качестве декодера векторных
представлений изображений. Это кардинально улучшило генерацию изображений в высоком
разрешении: лица, сложные объекты и так далее. Благодаря этому новая модель
содержит 3,3 млрд параметров вместо 2 млрд в Kandinsky 2.0. Кроме того, Kandinsky 2.1 использует не только закодированное текстовое описание, но и
специальное представление изображения моделью CLIP. В таком виде нейросеть формирует
представление картинки на основе текстовой информации и подаёт его на вход
основной генеративной модели. Модель умеет визуализировать любой контент и может применяться в различных
отраслях. К примеру, в банковской сфере её можно использовать для создания персонализированных
маркетинговых решений, ярких образов продуктов, привлечения и удержания
внимания клиентов. Александр Ведяхин, первый заместитель Председателя Правления Сбербанка: «Обучая Kandinsky 2.1, мы учли мнения пользователей и реализовали смелую гипотезу, изучив
самые передовые концепции. В результате мы разработали мощное универсальное решение
для широкого круга задач на уровне лучших мировых аналогов. Оно открывает
колоссальные возможности как для бизнеса, так и для населения. По сути, это ещё один важный шаг к AGI — сильному искусственному
интеллекту. Думаю, у каждого найдётся задача для Kandinsky 2.1, и поэтому улучшенная модель,
как и её предыдущая версия, находится в открытом доступе: протестировать её
может любой желающий, причём бесплатно». Оценить
возможности нейросети можно на
промо-странице модели, при помощи команды «Запусти художника» на умных
устройствах Sber и в мобильном приложении Салют и на платформе
ML Space в хабе предобученных моделей и датасетов DataHub. Модель
также доступна для использования на платформе
Fusion Brain и в Telegram-боте. Sber AI — подразделение Сбера, отвечающее за
развитие технологий искусственного интеллекта и их внедрение в различные сферы
жизни и бизнеса.


