Мишин Лернинг 🇺🇦 1403

🛼 Microsoft представили Designer — первый профессиональный Text-to-Image инструмент основанный на DALL•E2

Представьте, “ламантины группой плещутся на закате”. Или “старый слепой китаец красиво делает свое ушу.” Добавьте artstation и 4K, Выберите шрифты и стили, создавайте открытки, постеры, иллюстрации и слайды за мгновения!

Microsoft 🛼 Designer является частью пакета Office 365! То есть он находится в одном ряду с Microsoft Word, Microsoft Excel, и обладает тесной интеграцией с PowerPoint!

А еще вдумайтесь в то, насколько громкое это название — 🛼 Designer! AI революция наступила, это уже не будущее, это уже сейчас.

И изменения ландшафта рабочих мест — лишь одно проявление этой революции. Такие инструменты как 🛼 Designer привнесут AI в массы и сделают Text-to-Image новым стандартом, новой нормой создания визуального контента.

К тому же поговаривают, что скоро в открытом доступе появится нечто на голову превосходящее DALL•E 2, не говоря уже о стебле. Так что 🛼 Designer не будет единственным таким инструментом.

🛼 Designer (уже можно оставить заявку)

🤖🎓 м и ш и н л е р н и н г

🔥60👍16❤2👎2🐳2⚡1💯1

12.6K views08:04

Мишин Лернинг 🇺🇦🇮🇱

🗡️

🔡

🅰️

🔡

🅰️

🔡

Помните, я писал, что LAION обучили CLIP-H? Кроме опенсорсной SOTA в Zero-Shot на ImageNet, CLIP можно использовать и для генерации в режиме Classifier-Guidance.

В этом посте хочется чуть рассказать про Classifier-Guidance. Ведь StabilityAI уже добавили эту фишку в свой редактор DreamStudio!

🥩 К а к р а б о т а е т C l a s s i f i e r G u i d a n c e ?

Classifier Guidance — это подход для улучшения генераций уже обученной диффузии. То есть дообучать ничего не нужно. Ну почти. Кроме обученной диффузии, еще нужен классификатор. Но зачем?

Дело тут в том, что DDPM и даже iDDPM не выдают нормальных семплов при генерации. Это одна из проблем диффузии. Семплированию нужно помогать! Без этой помощи у iDDPM на вышло составить конкуренцию BigGAN на ImageNet генерации, а вот Diffusion Models Beat GANs on Image Synthesis вышло! Кроме поиска архитектурного решения: UNet c оптимальным кол-вом residual блоков и атеншн, ключевой идеей стал Classifier Guidance.

DDPM предсказывает µ шума, который нужно убрать из картинки. iDDPM, кроме mean предиктят еще и Σ. Рассмотрим на примере генерации кота:

1) Предскажем µ и Σ зашумленного изображения x_t в момент (шаг диффузии) времени t

2) Подадим x_t на классификатор Pφ, и получим градиенты (по сути deep-dream-like градиенты) от класса y (кот) по входу:
grads = ∇x_t log Pφ(y|x_t)

3) Получим новый mean µ_new как сумму µ и Σ*grads. Смысл тут такой: µ (mean) это то, что нужно задейнозить по мнению диффузии, а grads то, что нужно изменить по мнению классификатора. Кстати, Σ предсказывает разброс в котором можно сэмплироваться, и логично использовать Σ для скейла градиентов:
µ_new = µ + Σ * grads

А что делать чтобы генерировать по текстовому описанию? Использовать zero-shot классификатор CLIP!

Конечно в таком подходе мы упираемся в понимание текста самим CLIP'ом, но для таких моделей как Stable Diffusion знания CLIP сильно помогают. см картинки

❤️

Попробовать CLIP-Guidance в DreamStudio

@ м и ш и н л е р н и н г

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15❤4🔥3❤‍🔥2🏆2

11.1K views12:52

Мишин Лернинг 🇺🇦🇮🇱

https://youtu.be/1Uy_8YPWrXo

YouTube

Stable Diffusion announcements

Stability AI, which produces Stability Diffusion announced a $100 million investment today and here is its presentation at its event tonight.

It is using AI to enable people to create images by sending text to its AI/Large Language Model.

Learn more at…

🔥29❤‍🔥4👍2❤1

6.66K views18:44

Мишин Лернинг 🇺🇦🇮🇱

Forwarded from Denis Sexy IT 🤖

2:19

Media is too big

VIEW IN TELEGRAM

Всем любителям нейро-музыки – тут выкатили клевую генерацию аудио в реалтайме, веса, и инстуркцию как на своих данных доучить алгоритм 🌚

Даже в LoFi умеет

Код: https://github.com/marcoppasini/musika

Онлайн демка: https://huggingface.co/spaces/marcop/musika

😍22⚡3👍3❤‍🔥2👎2🔥2

5.54K views13:15

Мишин Лернинг 🇺🇦🇮🇱

Forwarded from AI для Всех

Нейрокомпрессия звука

Сжатие является важной частью современного Интернета, поскольку оно позволяет людям легко обмениваться высококачественными фотографиями, прослушивать аудиосообщения, транслировать любимые передачи и многое другое.

Сегодня, исследователи из Мета совершили прорыв в области гиперкомпрессии аудио с помощью ИИ. Представьте себе, что вы слушаете аудиосообщение друга в районе с низким качеством связи, а оно не тормозит и не глючит.

Они создали трехкомпонентную систему и обучили ее сжимать аудиоданные до заданного размера. Затем эти данные могут быть декодированы с помощью нейронной сети.

Они добились примерно 10-кратной степени сжатия по сравнению с MP3 при 64 кбит/с без потери качества. Хотя подобные методы уже применялись для речи, они первыми применили их для стереофонического аудио с частотой дискретизации 48 кГц (т.е. качество CD), которое является стандартом для распространения музыки.

Pied Piper только что стал реальностью, более того - опенсорсной.

🦦 Блог-пост
📖 Статья
🤤 Код

🔥111❤‍🔥10👍8💯3👌2

5.54K views20:03

Мишин Лернинг 🇺🇦🇮🇱

Forwarded from Neural Shit

1:28

This media is not supported in your browser

VIEW IN TELEGRAM

Там на huggingface появилось пространство с text2music

Мелодии вполне годные выходят, генерация быстрая (при условии, что нет очередей и нагрузка не большая).

А если очередь большая, то можно запустить в колабе

👍39❤‍🔥11🔥8❤2🌚2

5.69K views11:44

Мишин Лернинг 🇺🇦🇮🇱

💭 Мысли Яныка про StabilityAI

очень интересно, советую послушать

👉 https://youtu.be/igS2Wy8ur5U

YouTube

Is Stability turning into OpenAI?

#stablediffusion #aiart #openai

Stability AI has stepped into some drama recently. They are accused of a hostile takeover of the community-led sub-reddits and Discord servers, of going after an alternative web UI, and of falsely dealing out IP takedown…

👍13🔥3❤2❤‍🔥1👎1💯1

5.54K viewsedited 12:48

Мишин Лернинг 🇺🇦🇮🇱

🚀 Встречайте новую SOTA Text-2-Image eDiffi: Диффузионные "Эксперты" от NVIDIA

Новый Text-to-Image. В данном случае на классических диффузионных пиксельных каскадах. Модель является гибридом DALL-E от OpenAI 2 и Imagen от Google.

Модель по прежнему использует 3 каскада:
1) Text-To-64pix
2) 64pix-To-256pix
3) 256pix-to-1024pix

Но в данном случае все три модели могут брать любую комбинацию кондишенов из следующих моделей:
— T5 XXL
— CLIP-L/14 Text
— CLIP-L/14 Image

Это позволяет использовать сеть в режиме генерации вариаций (Привет DALL-E 2), а так же юзать легковесный CLIP вместо T5 XXL (который имхо весит неоправданно много). Вообще интересно показано, что T5 работает в связке с CLIP-L/14 Text лучше, чем просто T5. И (спойлер) это действительно так (не скажу откуда знаю).

Кроме того, сеть использует модели — Диффузионные Эксперты для разных этапов денойзинга. Тут смысл такой, если не жалко видеопамять, то можно сделать моделт под разные этапы денойза, например одну под первые 256 шагов, вторую под следующие 256 и так далее. Такие 4 модели буду работать лучше, чем одна. Но и в памяти нужно будет держать их всех.

👑 Используя все эти фишки Karrasи компания добились того, что
eDiffi-Config-D 9.1B (Вместе с CLIP-L/14 и T5-XXL Enc) бьет Zero-shot FID ↓ на COCO-30K 2014 valid SOTA:

GLIDE : 5B - 12.24 FID ↓
MakeAScene : 4B - 11.84 FID ↓
DALL·E 2 : 6.5B - 10.39 FID ↓
StableD : 1.4B - 8.59 FID ↓
Imagen : 7.9B - 7.27 FID ↓
Parti : 20B - 7.23 FID ↓
eDiffi D: 9.1B - 7.04 FID ↓

Ну вот такие новости. Очень много полезных вещей попробовали, советую почитать статью.

🥑 eDiffi от NVIDIA
📇 Paper eDiffi

@ м и ш и н л е р н и н г

👍38🔥5❤1❤‍🔥1😍1🏆1💋1

12.9K views01:40

2025/07/13 06:23:48
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>