DLStories

ControlNet, или как научить одну модельку генерить картинки на основе разных входных данных.
#paper

Ребята из Стенфорда придумали способ "обобщить" text-to-image модельки на генерацию на основе других видов входов (не только текста). То есть, научили одну модельку генерить картинки на основе:
- скетча;
- human pose;
- маски сегментации;
- карты глубины
- ...

Примеры генераций см. на первой картинке к посту. А вот какая идея у ControlNet:

Современные нейросети обычно имеют блочную структуру. Давайте возьмем предобученную нейросеть (например, Stable Diffusion — SD), и сделаем копию каждого блока этой сети. На вход сети-копии будет подаваться входная информация, на основе которой модель в итоге должна сгенерить картинку (т.е. скетч, human pose и т.п.).

Каждую блок-копию соединим с соответствующим ему блоком исходной сети (вторая картинка к посту). Соединим так: на вход блок-копия будет принимать сумму выхода предыдущего блока-копии и выхода предыдущего блока исходной сети. И далее выход блока-копии будет складываться с выходом соответствующего блока исходной сети и дальше течь по исходной сети.

На третьей картинке к посту показано, как будет выглядеть итоговое устройство модели (исходная сеть + сеть-копия) на примере U-Net из Stable Diffusion. Здесь авторы соединили соответствующие блоки двух копий сетей только в декодере U-Net. Это логично, потому что именно в декодере и происходит генерация картинки (точнее, в случае SD, ее латентного представления).

Ну и дальше, собственно, обучаем сеть-копию end-t-end. Подаем на вход сети-копии скетч/human pose/карту глубины/... и на выходе ожидаем картинку, сгенерированную в соответствии с этим скетчем/human pose/...

Вспомним еще, что Stable Diffusion — это text-to-image model. Поэтому на вход ContolNet можно подавать еще и текст, и тем самым чуть изменять вид получаемой картинки. Например, попросить "картинку на основе скетча в стиле Пикассо" или не просто черепашку, а "черепашку у реки" (см. первую картинку к посту)

Заметим, что исходная сеть (левая часть монстрика с третьей картинки) не обучается. Получается, задача сети-копии в такой модели — переработать информацию из входного скетча/карты глубины так, чтобы исходная предобученная сеть с помощью этой инфы смогла сгенерировать нужную картинку. То, что каждая блок-копия имеет доступ к выходу предыдущего блока исходной сети, помогает блоку-копии лучше переработать информацию для дальнейшего внедрения ее в исходную сеть.

Конечно, для обучения ControlNet понадобятся датасеты вида (скетч, картинка), (карта глубина, картинка) и т.д. Авторы статьи собрали несколько таких датасетов автоматическим способом. Т.е. использовали общедоступные инструмены для получения human pose/карт глубины по картинкам. Полученные датасеты получились небольшими, но ControlNet при этом не переобчается. Авторы утверждают, что это и есть одно из главных преимуществ ControlNet перед обычным дообучением исходной Stable Diffusion на каждую из задач в отдельности.

В завершение еще заметим, что идею ControlNet можно применить для совершенно разных моделей, а не только для Stable Diffusion .

Cсылки:
📄 Статья
🛠Код на GitHub

❤39👍18🔥10🎉3

12.3K viewsedited 19:25