Forwarded from Мишин Лернинг 🇺🇦🇮🇱
🔬DALL•E 2 и Stable Diffusion :: Text-to-Image второго поколения. В чем разница?
Поговорим про разницу между DALL•E 2 и Stable Diffusion. Но сначала, стоит сказать, что у них общего? Оба подхода — это диффузии. Если первое поколение Text2Image было авторегрессионным (gpt+vae), то второе поколение — диффузионные модели.
Разница DALL•E 2 и Stable Diffusion и в кондишен (prior > image-clip emb) vs (text-clip emb-s) и в реализации U-Net, но самое значимое различие между ними — пространство (space) в котором происходит диффузия.
▪️ DALL•E 2 от OpenAI (как и Imagen от Google, как и eDIFF•i от Nvidia) использует пространство пикселей! И первичная часть работы по моделированию происходит в разрешении всего 64х64 пикселя
▪️ Stable Diffusion тоже работает в разрешении 64х64! Но разница в том, что это не пиксели, а латентное представление KL-VAE/GAN f8. Картинка сначала сжимается из 512х512х3 (rgb) в 64х64х4 latent space и обучение происходит там.
🪬 LDM подходы (e.g.: stable diffusion) • latent space •
+ Нужен обучать и использовать всего один каскад диффузии. А значит компьют и веса можно вложить в один U-Net!
+ Генерация изображений в высоком разрешении требует небольших ресурсов!
+ У изображения может быть много мелких деталей, который чаще всего выглядят хорошо
- К сожалению, KL-VAE/GAN f8 не очень качественный энкодер-декодер с высоким rFID ☹️ И такой подход всегда будет иметь боттлнек в KL-VAE.
- Стилистически «отдает» первым поколением из-за VAE. Свои артефакты.
- Обучать LDM в 64х64х4 в latent сложнее, чем в 64x64x3 в pixel.
👾 Diffusion Cascades (e.g.: DALL•E) • pixel space •
+ Математически более совершенный подход, все этапы используют диффузии.
+ Более реалистичные изображения.
+ Сходится быстрее, чем в latent.
- Нужно обучать целых 3 U-Net каскада, в разрешениях 64, 256 и 1024 pix.
- При переходе из каскада в каскад копятся и усиливаются артефакты.
- Очень дорогое обучение и затратный инференс!
Поговорим про разницу между DALL•E 2 и Stable Diffusion. Но сначала, стоит сказать, что у них общего? Оба подхода — это диффузии. Если первое поколение Text2Image было авторегрессионным (gpt+vae), то второе поколение — диффузионные модели.
Разница DALL•E 2 и Stable Diffusion и в кондишен (prior > image-clip emb) vs (text-clip emb-s) и в реализации U-Net, но самое значимое различие между ними — пространство (space) в котором происходит диффузия.
▪️ DALL•E 2 от OpenAI (как и Imagen от Google, как и eDIFF•i от Nvidia) использует пространство пикселей! И первичная часть работы по моделированию происходит в разрешении всего 64х64 пикселя
▪️ Stable Diffusion тоже работает в разрешении 64х64! Но разница в том, что это не пиксели, а латентное представление KL-VAE/GAN f8. Картинка сначала сжимается из 512х512х3 (rgb) в 64х64х4 latent space и обучение происходит там.
В чем + и - каждого подхода?
🪬 LDM подходы (e.g.: stable diffusion) • latent space •
+ Нужен обучать и использовать всего один каскад диффузии. А значит компьют и веса можно вложить в один U-Net!
+ Генерация изображений в высоком разрешении требует небольших ресурсов!
+ У изображения может быть много мелких деталей, который чаще всего выглядят хорошо
- К сожалению, KL-VAE/GAN f8 не очень качественный энкодер-декодер с высоким rFID ☹️ И такой подход всегда будет иметь боттлнек в KL-VAE.
- Стилистически «отдает» первым поколением из-за VAE. Свои артефакты.
- Обучать LDM в 64х64х4 в latent сложнее, чем в 64x64x3 в pixel.
👾 Diffusion Cascades (e.g.: DALL•E) • pixel space •
+ Математически более совершенный подход, все этапы используют диффузии.
+ Более реалистичные изображения.
+ Сходится быстрее, чем в latent.
- Нужно обучать целых 3 U-Net каскада, в разрешениях 64, 256 и 1024 pix.
- При переходе из каскада в каскад копятся и усиливаются артефакты.
- Очень дорогое обучение и затратный инференс!
• Слева DALL•E 2 / Справа Stable Diffusion •
🤖 м и ш и н л е р н и н г 🎓Forwarded from Нейроэстетика
⚠️ Stable Diffusion v2.1 /// Что же на самом деле было с версией v2.0?
Ребята из стабилити не только пилят сетки в опенсорс, но и уважают свое комьюнити. Вот подвезли v2.1, не пройдя мимо фидбэка о проблемах v2.0.
Что же случилось на самом деле? Кое-кто (не скажу кто ☺️) вместе с Робином (автором SD), обнаружил проблему и они пофиксили баг (в одну строчку): пересталвили порно-фильтр с 0.1 на 0.98… Эх. И вместе с сиськами ушёл не только весь арт, но и почти все люди.
🖤 И чуть не забыл, бонус: 100 страниц Prompt трюков от самих StabilityAI. Вот это подгон!
👾 подпишись на Н е й р о э с т е т и к у
Ребята из стабилити не только пилят сетки в опенсорс, но и уважают свое комьюнити. Вот подвезли v2.1, не пройдя мимо фидбэка о проблемах v2.0.
Что же случилось на самом деле? Кое-кто (не скажу кто ☺️) вместе с Робином (автором SD), обнаружил проблему и они пофиксили баг (в одну строчку): пересталвили порно-фильтр с 0.1 на 0.98… Эх. И вместе с сиськами ушёл не только весь арт, но и почти все люди.
🖤 И чуть не забыл, бонус: 100 страниц Prompt трюков от самих StabilityAI. Вот это подгон!
👾 подпишись на Н е й р о э с т е т и к у
🤯 с помощью “IF” заставил радужного единорога ездить верхом на плюшевом мишке тедди, вероятность успешных генераций ~3/16 🍿
🕊 100 мирных голубей, скину пруф в комменты ✅
🕊 100 мирных голубей, скину пруф в комменты ✅
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from DeepFloyd
создам с помощью "IF" две генерации по вашим текстовым промптам - выберу интересные из комментариев к посту 🍿 го?
Please open Telegram to view this post
VIEW IN TELEGRAM
shonenkov AI
я не являюсь автором Kandinsky-Z (2.0) 😳 получил много поздравлений “с новым Kandinsky”, но я не принимал участия в разработке и тем более в релизе! первое, что я увидел - это готовый пост у @abstractDL (мы когда-то работали вместе в AIRI) - решил поддержать…
⚡️Последняя вечеринка в бункере или что снится фюреру. Фото. — Репортаж ТАСС
погенерим лениво “IF” перед сном?)
правила те же: сложные и интересные промпты в комментариях ❤️
P.S. @mishin_learning целый день занят кодом IF 👨🏼💻 скорее всего уже завтра погенерит с вами не так лениво как я - может трюки какие расскажет, или лекцию, или стрим проведет, или что-то еще 🤪 кстати, какой формат интереснее?
правила те же: сложные и интересные промпты в комментариях ❤️
P.S. @mishin_learning целый день занят кодом IF 👨🏼💻 скорее всего уже завтра погенерит с вами не так лениво как я - может трюки какие расскажет, или лекцию, или стрим проведет, или что-то еще 🤪 кстати, какой формат интереснее?