Что собой представляет Kandinsky 2.2

Сервис Kandinsky 2.1 появился весной 2023 года. Тогда Сбер сильно улучшил свою модель и повысил уровень генераций. У нее неплохо получались арты, но иностранные проекты Midjourney и Stable Diffusion к тому моменту уже перешли от красивых рисунков к фотореализму. Как раз в ответ на это летом появилась версия Kandinsky 2.2, главной фишкой которой называют фотореализм. Подробнее об этом можно почитать в блоге компании на «Хабре».

Принцип работы нейросети не отличается от конкурентов: она рисует изображения в разных стилях на основе текстового запроса. Но разработчики «Кандинского» заявляют о поддержке более 100 языков, в том числе и русского, чем не могут похвастаться преимущественно англоязычные Midjourney или Stable Diffusion. Есть и исключения — нейросеть Dall⁠-⁠E 3 от Open AI тоже хорошо работает с русским языком.

У нейросети от Сбера есть шесть основных режимов работы:

  1. Генерация по тексту. Стандартная функция: необходимо написать текстовый запрос, а нейросеть нарисует по нему изображение.
  2. Смешивание изображений. Можно загрузить две картинки и посмотреть на микс от нейросети.
  3. Вариации изображения. Если добавить уже готовую картинку или фото, а затем задать определенную стилистику, можно получить новое изображение.
  4. Дорисовка. Обычно этот режим называют outpainting. Можно взять фото или картинку, а затем попросить нейросеть дополнить ее — дорисовать оставшиеся за кадром детали.
  5. Перенос стиля. Это аналог плагина ControlNet от Stable Diffusion. Функция позволяет переносить позу персонажа или очертания исходного изображения на новую сгенерированную картинку.
  6. Генерация видео. Нейросеть генерирует четырехсекундные гифки, которые можно склеить в небольшой ролик.
Источник:
Евгений Кузьмин
Поддержать автора
23:16
6
Нет комментариев. Ваш будет первым!