Сбер представил новую модель генерации изображений по тексту Kandinsky 4.1 Image.
Для нейрохудожников появился AI-редактор MALVINA (Multimodal Artificial Language VIsion Neural Assistant), который позволяет редактировать изображение, следуя текстовым инструкциям.
В основе новой версии модели генерации изображений Kandinsky лежит обновленная архитектура — теперь это диффузионный трансформер (DiT). Модель Kandinsky 4.1 Image была дополнительно дообучена на отобранных вручную изображениях, сбалансированных по 9 метакатегориям (люди, техника, природа и другие). Отбором этих качественных данных занималась команда, состоящая более чем из 100 специалистов.
Модель понимает стили известных художников — Айвазовского, Босха, Кранаха, Кандинского и других. Кроме того, пользователь может создавать изображения в произвольных художественных стилях от импрессионизма до поп-арта или же генерировать изображения, например, в стиле известной анимационной Studio Ghibli.
Интеграция телеграм-бота GigaChat с AI-редактором MALVINA открыла любому пользователю возможность редактировать любые изображения.
«Новый редактор изображений в GigaChat — это простой и удобный интеллектуальный помощник в реализации любых креативных задумок. Он работает с пиксельной точностью, сохраняя максимум исходных деталей, но при этом позволяет легко менять фон, объекты и даже стиль фото. Теперь пользователям можно не тратить часы в графических редакторах — достаточно освоить нескольких текстовых команд. Мы специально обучали обновлённую модель Kandinsky на разнообразных и при этом детально выверенных и размеченных данных, чтобы нейросеть могла работать с различными сценами: от портретов до пейзажей. Интеграция с GigaChat превращает нашу языковую модель в универсальный инструмент для творчества и работы, который может освоить любой желающий», — отметил старший вице-президент, руководитель блока «Технологическое развитие» СбербанкаАндрей Белевцев.