DLStories

😱2

4.37K views16:57

Через буквально день после предыдущего поста скинули еще более новую статью про контролируемое изменение семантики картинок с помощью диффузионных моделей. И в этой работе можно изменять детали любых изображений, а не только тех, что предварительно были сгенерированны моделью.
#paper

Imagic: text-based редактирование изображений с помощью диффузионной модели.

Как это работает:
Берем предобученную диффузионную модель. Например, Imagen: авторы использовали именно его.
Также берем любую картинку, которую хотим изменить, и придумываем к ней описание, которое будет соответствовать уже новой картинке. Например, если мы хотим из картинки белой машины сделать черную, таргет текст может быть таким: “black sports car”.

И делаем следующее:
1. Прогоняем target text через text encoder, получаем эмбеддинг e_tgt. Далее делаем пару итераций тюнинга этого эмбеддинга: меняем его так, чтобы картинка, которую выдает диффузионная модель на этому эмбеддингу, получалась как можно более похожей на картинку, которую мы хотим поменять (на картинку белой машины). Это делается обычным backprop. Диффузионная модель при этом не обучается. Назовем полученный эмбеддинг на этом шаге e_opt.
2. Теперь замораживаем эмбеддинг текста и еще пару итераций дообучаем диффузию. Цель та же: чтобы диффузия выдавала по этому эмбеддингу картинку, более похожую на нашу картинку, которую мы хотим изменять.
3. Последний шаг. Берем e_opt и e_tgt, и интерполируем: e = alpha*e_opt + (1-alpha)*e_tgt. Результат e прогоняем через дообученную диффузию. Вуаля, получаем на выходе картинку. Ее основные детали остались теми же, что были на изначальной картинке, но некоторые детали поменялись в соответствии с target text.

Для разных alpha результат получится разным: для маленьких alpha картинка будет практически идентична изначальной, для alpha ~1 картинка получится абсолютно новой, не имеющей ничего общего с изначальной. Для промежуточных значений alpha будет получаться то, что нам нужно: все детали, кроме тех, что мы хотим поменять, будут сохранены (ну, почти сохранены, об этом ниже). Пример получаемых картинок для разных alpha — на второй картинке к посту.

Идея работы модели, конечно, крутая: так просто позволяет изменять вообще любые изображения. Но у алгоритма есть ограничения:
- Модель работает с довольно low-resolution картинками. Потому что иначе на 1-2 шагах алгоритма просто не выйдет подобрать эмбеддинг и веса модели так, чтобы на выходе диффузии получалась картинка, прям похожая на нужную. Получаемые low-resolution картинки потом прогоняются через super-resolution сети (как это и было у Imagen, собственно).
- Таким алгоритмом, очевидно, не выйдет добиться того, чтобы на получаемой картинке все детали, которые мы не хотели менять, в точности сохранялись такими, каким были на изначальной картинке. Вообще все детали чуть меняются: это видно на примерах работы модели (1 картинка к посту). Например, стена и окно дома за человеком со скрещенными руками чуть разные на изначальной и полученной картинке.
Изменения затрагивают все детали в основном из-за того, что на первом шаге алгоритма измененяется e_tgt. Именно поэтому первый шаг делается очень малое количество итераций, чтобы e_opt был как можно ближе к e_tgt, но все же содержал каку-то информацию из target text’а.
- Из второго пункта очевидно следует, что этим алгоритмом не получится делать сложные изменения деталей. Действительно, чтобы сделать солжные изменения, нужно сильно изменить e_tgt. Но тогда сильнее изменятся и остальные детали изображения, чего мы не хотим.

Больше примеров работы модели — на третьей картинке к посту.

📃 Статья

👍22🔥11❤4🤮1

5.34K viewsedited 16:57