Сервис Kandinsky 2.1 появился весной 2023 года. Тогда Сбер сильно улучшил свою модель и повысил уровень генераций. У нее неплохо получались арты, но иностранные проекты Midjourney и Stable Diffusion к тому моменту уже перешли от красивых рисунков к фотореализму. Как раз в ответ на это летом появилась версия Kandinsky 2.2, главной фишкой которой называют фотореализм. Подробнее об этом можно почитать в блоге компании на «Хабре».
Принцип работы нейросети не отличается от конкурентов: она рисует изображения в разных стилях на основе текстового запроса. Но разработчики «Кандинского» заявляют о поддержке более 100 языков, в том числе и русского, чем не могут похвастаться преимущественно англоязычные Midjourney или Stable Diffusion. Есть и исключения — нейросеть Dall-E 3 от Open AI тоже хорошо работает с русским языком.
У нейросети от Сбера есть шесть основных режимов работы:
- Генерация по тексту. Стандартная функция: необходимо написать текстовый запрос, а нейросеть нарисует по нему изображение.
- Смешивание изображений. Можно загрузить две картинки и посмотреть на микс от нейросети.
- Вариации изображения. Если добавить уже готовую картинку или фото, а затем задать определенную стилистику, можно получить новое изображение.
- Дорисовка. Обычно этот режим называют outpainting. Можно взять фото или картинку, а затем попросить нейросеть дополнить ее — дорисовать оставшиеся за кадром детали.
- Перенос стиля. Это аналог плагина ControlNet от Stable Diffusion. Функция позволяет переносить позу персонажа или очертания исходного изображения на новую сгенерированную картинку.
- Генерация видео. Нейросеть генерирует четырехсекундные гифки, которые можно склеить в небольшой ролик.