Как генерировать картинки в Kandinsky 2.2

Я пользовался двумя способами: телеграм-ботом и платформой fusionbrain.ai. Второе — полноценный сайт для генерации картинок. Есть область, вместо которой появится изображение, текстовое поле для запроса, а также выбор основных стилей.

Квадратом выделена как раз область генерации. Ее размеры можно изменять. Это не особенно полезно при стандартной генерации по тексту, может пригодиться в других режимах.

Поле для генерации. Картинка генерируется внутри рамки, которую затем можно отодвигать в сторону, чтобы дорисовывать новые части
Поле для генерации. Картинка генерируется внутри рамки, которую затем можно отодвигать в сторону, чтобы дорисовывать новые части.

Сейчас доступно около двадцати стилей, список и количество время от времени меняются. Набор обычен для аналогичных сервисов: киберпанк, аниме, карандашный рисунок, традиционная живопись. Из нестандартных отдельным пунктом значится хохлома. Иногда со списком стилей экспериментируют, например добавляют «Советские мультфильмы» или «Новый год». Это не что-то уникальное: с самыми известными стилями русских народных промыслов и художников знакомы и англоязычные приложения.

По большей части стили работают хорошо, хотя почти всегда нужно несколько попыток. В текстовом запросе можно добавлять стилистику самостоятельно, если ее нет в списке. В этом случае нужно поставить галочку у пункта «Без стиля».

Можно написать не только что вы хотите видеть на картинке — запрос в поле «Промпт», но и то, чего на ней быть не должно — на вкладке «Негативный промпт». Эта функция есть и в телеграм-боте: надо выбрать в меню «Изменить негативный промпт» или ввести команду /negative_prompt.

В запросах можно использовать эмодзи, но не все нейросеть поймет и воспримет. Например, на момент написания текста «Кандинский» узнает салатовый цвет, череп, единорога или цветочек, но по запросу с единорогом и цветочком рисует хамелеона в букете. А подарок, туалетную бумагу или клоуна не воспринимает. Понять закономерность не удалось.

Картинки генерируются в пяти разрешениях 1:1 (1024 × 1024 точек), 2:3(680 × 1024), 3:2 (1024 × 680), 9:16 (576 × 1024), 16:9 (1024 × 576).

Корги на мотоцикле в киберпанк⁠-⁠стилеКорги на мотоцикле в киберпанк⁠-⁠стиле

Корги на мотоцикле в стиле советского мультфильма

Корги на мотоцикле в стиле советского мультфильма
Корги на мотоцикле в стиле хохломы
Корги на мотоцикле в стиле хохломы
Корги на мотоцикле, портретное фото
Корги на мотоцикле, портретное фото

Корги на мотоцикле, Кандинский

Корги на мотоцикле, Кандинский
Корги на мотоцикле в аниме⁠-⁠стиле
Корги на мотоцикле в аниме⁠-⁠стиле
В телеграм-боте стандартно предлагается на выбор четыре стиля: artstation, 4K, anime и «без стиля». Но можно прописать его в текст запроса, хотя понимает в этом случае нейросеть хуже. Бот во «Вконтакте» и вовсе не предлагает выбрать стиль, только задать текстовое описание и выбрать соотношение сторон из трех вариантов: 1:1, 2:3, 3:2.

«Боевой енот в стиле хохлома», сгенерированный нейросетью Kandinsky 2.2 на сайте fusionbrain.ai, в официальном телеграм⁠-⁠боте и с помощью бота во «Вконтакте». Последний добавляет лого на изображения«Боевой енот в стиле хохлома», сгенерированный нейросетью Kandinsky 2.2 на сайте fusionbrain.ai, в официальном телеграм⁠-⁠боте и с помощью бота во «Вконтакте». Последний добавляет лого на изображения
«Боевой енот в стиле хохлома», сгенерированный нейросетью Kandinsky 2.2 на сайте fusionbrain.ai, в официальном телеграм⁠-⁠боте и с помощью бота во «Вконтакте». Последний добавляет лого на изображения
«Боевой енот в стиле хохлома», сгенерированный нейросетью Kandinsky 2.2 на сайте fusionbrain.ai, в официальном телеграм⁠-⁠боте и с помощью бота во «Вконтакте». Последний добавляет лого на изображения

Редактирование уже сгенерированного изображения — интересная функция. На готовой картинке можно воспользоваться инструментом «ластик» и закрасить им часть, которую нужно поменять. А затем снова нажать кнопку «Создать».

Так я несколько раз менял человека в красном пальто на улице киберпанковой Москвы. Нейросеть очень четко работала по контуру и не искажала остальное изображение. Это действительно полезный инструмент. Он доступен только если пользуетесь «Кандинским» на сайте fusionbrain.ai.

Оригинальная картинка: мужчина в красном пальто в Москве, киберпанкОригинальная картинка: мужчина в красном пальто в Москве, киберпанк

Вырезанный силуэт

Вырезанный силуэт
Женщина в красном пальто
Женщина в красном пальто

Женщина в азиатской одежде

Женщина в азиатской одежде

Самурай

Самурай
Капибара — можно прописывать что угодно
Капибара — можно прописывать что угодно

Дорисовка — тоже инструмент, который есть далеко не во всех сервисах. Работает это так: вы генерируете или загружаете картинку, а затем уменьшаете ее так, чтобы поле генерации было больше изображения. Потом дописываете текстовый запрос или выбираете стиль, после чего нейросеть будто дорисовывает картинку. Такая возможность есть только на fusionbrain.ai, в ботах ее нет.

Я попробовал режим на примере Шрека — изобразил его в киберпанк-стиле. Сервис неплохо дорисовал тело зеленого огра, сохранив его особенности и детали одежды. А вот лес c оригинального кадра стал проблемой, в итоге он сильно выделяется на фоне типичного киберпанк-города. Хотя нейросеть попыталась обыграть деревья, превратив их в странную зеленую сферу.

Вот такой получится киберпанк⁠-⁠Шрек
Вот такой получится киберпанк⁠-⁠Шрек

Перенос стиля позволяет задавать дополнительные входные условия — позу персонажа и очертания исходной картинки. Можно взять фото человека, прогнать его через нейросеть и заменить только внешность с сохранением остальной композиции. Функция доступна только в телеграм-боте.

Я попробовал смешать Шрека с Райаном Гослингом из «Бегущего по лезвию». Получилось неплохо: Kandinsky 2.2 скопировал стилистику и выражение лица Гослинга, но сохранил узнаваемые черты Шрека. Есть и недостаток: никак нельзя повлиять на результат генерации — к примеру, установить процент заимствования. Вы просто загружаете две картинки и ждете результата.

ШрекогослингШрекогослинг

Шрекогослинг
Шрекогослинг

Смешивание картинок работает похожим образом, но только нейросеть не принимает во внимание позу персонажа и положение объектов. Она просто смешивает элементы двух картинок случайным образом, поэтому могут получаться непредсказуемые результаты. Работает тоже только в телеграм-боте.

Из смешивания Шрека с Райаном Гослингом получился герой боевиков 90-х, не похожий ни на огра, ни на голливудского актера. Нейросеть заимствовала стилистику у обеих картинок: лес от Шрека и освещение от «Бегущего по лезвию».

Гослингошрек
Гослингошрек

Управлять результатами смешивания картинок можно в «Профессиональном режиме», если выбрать в меню телеграм-ботасоответствующий пункт или ввести команду /profmode. Тогда бот предложит выбрать влияние каждой из исходных картинок на результат. По умолчанию — 50:50, еще доступны варианты 30:70 и 70:30.

Стикеры для «Телеграма» можно создать прямо в боте. Kandinsky 2.2сгенерирует по запросу упрощенный стилизованный рисунок с белой обводкой. Можно сразу создать новый стикерпак, а можно добавить сгенерированную картинку в уже существующий.

Сложные запросы Kandinsky 2.2 не воспринимает: у него не получилось сделать капибару со стаканчиком кофе или капибару за компьютером. А вот капибара в одеяле получилась более-менее, хотя часть тела пропала.

Стикерпак с капибарами

Стикерпак с капибарами

У стикерпаков от бота Kandinsky 2.2 есть недостаток: доступ к управлению ими получаете не только вы, но и бот. Вот чем это неудобно. Когда вы сгенерировали стикер, бот спросит, создать для него новый стикерпак или добавить в какой-то из уже существующих — но тоже созданных только этим ботом. Можно вручную ввести название чужого пака и добавить туда свой стикер.

Стикерпак с капибарами и несанкционированным енотом

Стикерпак с капибарами и несанкционированным енотом
Источник:
Евгений Кузьмин
Поддержать автора
23:43
6
Нет комментариев. Ваш будет первым!