Как генерировать видео в Kandinsky 2.2

В октябре 2023 года Сбер объявил, что теперь «Кандинский» позволяет создавать короткие анимационные ролики. Их нельзя назвать полноценными видео, скорее четырехсекундными гифками, которые можно склеить между собой. До реализма качество генераций недотягивает.

Но доступ к телеграм⁠-⁠боту с этой функцией есть только у некоторых активных пользователей, остальным возможность создавать видео обещали дать до конца 2023 года. Пока же можно подать заявку в боте и посмотреть примеры на сайте проекта. Заявки рассматривают с разной скоростью: одному редактору Тинькофф Журнала дали доступ за неделю, а другому не ответили за две.

Вот как генерировать анимацию в боте:

  1. Сформулировать текстовый запрос как и при генерации картинки. Можно задать сюжет, стиль, детали.
  2. Бот предложит выбрать один из 16 эффектов анимации, то есть задать движение камеры: повернуть объект, обойти его, отдалить или приблизить. Примеры можно посмотреть прямо в боте по команде /examples. Обратите внимание: если камера движется вправо, объект на видео как будто движется влево. Это видно на примерах.
  3. Ввести еще два описания и выбрать для них эффекты. Это то, что будет происходить в видео дальше, как бы в следующих сценах. Но это не обязательно, можно генерировать одну сцену.
  4. Выбрать разрешение и завершить сценарий. Доступные варианты — квадратное видео 640 × 640 пикселей, вертикальное 448 × 832 или горизонтальное 832 × 448.
Движение камеры задано пиктограммами. Понять, что они означают, можно на примерах прямо в боте
Движение камеры задано пиктограммами. Понять, что они означают, можно на примерах прямо в боте

По одному запросу сгенерируется одно видео длиной четыре секунды. Если сцен в запросе несколько, то, соответственно, получится восемь или 12 секунд в одном ролике. Чтобы сделать видео подлиннее, можно склеить несколько генераций в стороннем сервисе.

Чтобы анимировать сцену, нейросеть рисует много-много картинок, в каждой следующей меняя положение элементов. А чтобы это смотрелось как единое движение, используется тот же перенос стиля — то есть каждый следующий кадр создается на основе предыдущего. Но такой контроль пока не полностью избавляет результаты от артефактов.

Люди сложные, результат анимации может получиться пугающим

Люди сложные, результат анимации может получиться пугающим

Вот несколько советов, которые помогут получать лучшие результаты при генерации видео в «Кандинском». Пока они касаются в основном того, как сгладить несовершенство ранних версий модели.

Меньше мелких деталей — меньше мерцание. Из-за того, что каждый кадр прорисовывается заново и чуть-чуть иначе, анимация заметно мерцает. Когда шевелятся листья на дереве или распущенные волосы, это воспринимается нормально. Когда оживают татуировки или начинают извиваться украшения — не всегда. Поэтому при генерации видео упоминания мелких деталей в запросе пока лучше избегать.

Стиль лучше прописывать, а формулировки повторять. Особенно это важно, когда в запросе две или три сцены. Стиль изображения нужно указать для каждой. А описание центрального объекта копировать слово в слово — так больше шансов, что он не изменится до неузнаваемости за 12 секунд.

В видео три сцены, все запросы копируют друг друга, меняется только цвет машины: «спортивный желтый/красный/синий автомобиль, дорога, на фоне рассвет, облака, скриншот DVD из фильма, ретро аниме»

В видео три сцены, все запросы копируют друг друга, меняется только цвет машины: «спортивный желтый/красный/синий автомобиль, дорога, на фоне рассвет, облака, скриншот DVD из фильма, ретро аниме»

В идеале «многоэтажный серый панельный дом, Москва, советский реализм» должен быть одинаковым на всех кадрах, просто камера все дальше и дальше. Но тут недостатки работы нейросети дают новый сюжет: эволюция архитектуры за десятилетия, например
В идеале «многоэтажный серый панельный дом, Москва, советский реализм» должен быть одинаковым на всех кадрах, просто камера все дальше и дальше. Но тут недостатки работы нейросети дают новый сюжет: эволюция архитектуры за десятилетия, например

Учитывайте движение. Еще одна особенность видео в Kandinsky 2.2 — морфинг. Это когда при движении объект как бы перетекает из одной формы в другую. Это стоит учесть в сценарии и продумать, как сделать переход между сценами плавным. Или же использовать как художественный прием: бумажный самолетик превращается в настоящий, волосы становятся волнами.

Одна сцена, простой запрос: «Темно-коричневая пушистая чихуахуа, портрет, смотрит прямо». Но выбрано движение камеры «Приблизить». Сочетание сюжета и движения камеры дает сцену из фильмов ужасов — ну или мем

Одна сцена, простой запрос: «Темно-коричневая пушистая чихуахуа, портрет, смотрит прямо». Но выбрано движение камеры «Приблизить». Сочетание сюжета и движения камеры дает сцену из фильмов ужасов — ну или мем

А тут сюжет картинки сам указывает на режим анимации: спиральная галактика закручивается
А тут сюжет картинки сам указывает на режим анимации: спиральная галактика закручивается

Лучше сначала проверить промпт на картинках. Сгенерируйте изображения, поправьте запрос, а потом уже делайте по нему анимацию — так получится гораздо быстрее. Убедитесь, что Kandinsky 2.2 генерирует более-менее похожие картинки по этому запросу: в видео они будут перерисовываться много раз.

Соотношение сторон зависит от сюжета. Если центральный объект вашей анимации продолговатый — выбирайте горизонтальный или вертикальный кадр. А вот апельсин, например, лучше анимировать в квадратном кадре. Так при движении камеры объект будет смотреться естественнее.

Но если изображение в кадре меняется движением камеры, а не поворотом объекта, соотношение сторон не так значимо.

Но если изображение в кадре меняется движением камеры, а не поворотом объекта, соотношение сторон не так значимо
Коту все равно, он не движется
Коту все равно, он не движется
Источник:
Евгений Кузьмин
Поддержать автора
00:05
5
Нет комментариев. Ваш будет первым!