Telegram Web Link
🔬DALL•E 2 и Stable Diffusion :: Text-to-Image второго поколения. В чем разница?

Поговорим про разницу между DALL•E 2 и Stable Diffusion. Но сначала, стоит сказать, что у них общего? Оба подхода — это диффузии. Если первое поколение Text2Image было авторегрессионным (gpt+vae), то второе поколение — диффузионные модели.

Разница DALL•E 2 и Stable Diffusion и в кондишен (prior > image-clip emb) vs (text-clip emb-s) и в реализации U-Net, но самое значимое различие между ними — пространство (space) в котором происходит диффузия.

▪️ DALL•E 2 от OpenAI (как и Imagen от Google, как и eDIFF•i от Nvidia) использует пространство пикселей! И первичная часть работы по моделированию происходит в разрешении всего 64х64 пикселя

▪️ Stable Diffusion тоже работает в разрешении 64х64! Но разница в том, что это не пиксели, а латентное представление KL-VAE/GAN f8. Картинка сначала сжимается из 512х512х3 (rgb) в 64х64х4 latent space и обучение происходит там.

В чем + и - каждого подхода?

🪬 LDM подходы (e.g.: stable diffusion) • latent space •

+ Нужен обучать и использовать всего один каскад диффузии. А значит компьют и веса можно вложить в один U-Net!
+ Генерация изображений в высоком разрешении требует небольших ресурсов!
+ У изображения может быть много мелких деталей, который чаще всего выглядят хорошо

- К сожалению, KL-VAE/GAN f8 не очень качественный энкодер-декодер с высоким rFID ☹️ И такой подход всегда будет иметь боттлнек в KL-VAE.
- Стилистически «отдает» первым поколением из-за VAE. Свои артефакты.
- Обучать LDM в 64х64х4 в latent сложнее, чем в 64x64x3 в pixel.


👾 Diffusion Cascades (e.g.: DALL•E) • pixel space •

+ Математически более совершенный подход, все этапы используют диффузии.
+ Более реалистичные изображения.
+ Сходится быстрее, чем в latent.

- Нужно обучать целых 3 U-Net каскада, в разрешениях 64, 256 и 1024 pix.
- При переходе из каскада в каскад копятся и усиливаются артефакты.
- Очень дорогое обучение и затратный инференс!

• Слева DALL•E 2 / Справа Stable Diffusion •

🤖 м и ш и н л е р н и н г 🎓
⚠️ Stable Diffusion v2.1 /// Что же на самом деле было с версией v2.0?

Ребята из стабилити не только пилят сетки в опенсорс, но и уважают свое комьюнити. Вот подвезли v2.1, не пройдя мимо фидбэка о проблемах v2.0.

Что же случилось на самом деле? Кое-кто (не скажу кто ☺️) вместе с Робином (автором SD), обнаружил проблему и они пофиксили баг (в одну строчку): пересталвили порно-фильтр с 0.1 на 0.98… Эх. И вместе с сиськами ушёл не только весь арт, но и почти все люди.

🖤 И чуть не забыл, бонус: 100 страниц Prompt трюков от самих StabilityAI. Вот это подгон!

👾 подпишись на Н е й р о э с т е т и к у
Forwarded from DeepFloyd
If I were a swan,
I'd be rainbow-colored.
If I were a train,
I'd be intergalactic.
If I were a model,
I'd be open-source.

DeepFloyd
🤯 с помощью “IF” заставил радужного единорога ездить верхом на плюшевом мишке тедди, вероятность успешных генераций ~3/16 🍿

🕊 100 мирных голубей, скину пруф в комменты
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from DeepFloyd
A photo of a plush Tiger with t-shirt with text "I ♥️ Robin Rombach"

tweet
создам с помощью "IF" две генерации по вашим текстовым промптам - выберу интересные из комментариев к посту 🍿 го?
Please open Telegram to view this post
VIEW IN TELEGRAM
What IF, мы погенерим завтра вместе?
погенерим лениво “IF” перед сном?)

правила те же: сложные и интересные промпты в комментариях ❤️

P.S. @mishin_learning целый день занят кодом IF 👨🏼‍💻 скорее всего уже завтра погенерит с вами не так лениво как я - может трюки какие расскажет, или лекцию, или стрим проведет, или что-то еще 🤪 кстати, какой формат интереснее?
shonenkov AI
🤮
а почему бы просто не сгенерить новый взамен утраченному? 😂
2025/07/05 19:27:43
Back to Top
HTML Embed Code: