Telegram Web Link
🎄 Лучший способ поддержать канал — поддержать Украину! Ссылки для тех, кому не все равно!

👉 https://u24.gov.ua/
👉
https://savelife.in.ua/

p.s.: Всех с наступающим!

Даша, спасибо тебе!
Діма, спасибо!
Олексiй, спасибо!
Volodymyr, спасибо!
Саша, спасибо!
Натали, спасибо!
Алексей, спасибо!
Виталий, спасибо!
Антон, спасибо!
👎311268👍33🔥12❤‍🔥7🕊3🌚2🤯1😢1💔1
З НОВИМ РОКОМ 🇺🇦
❤‍🔥259👍25👎14🕊116🏆2🤝2🔥1🐳1💔1
🚀 ЧТО-ТО ПРОИСХОДИТ! И ЭТО ОПЯТЬ STABILITY AI

Эмад что-то мутит..
Твит следующий: две девушки, у обеих (не поверите) 5 пальцев!

Левая с серьезным лицом держит руку, как нечто среднее между "Vulcan Salute" и "Enough" — 🖖🏼 Enough 2022

Правая с улыбкой приветствует нас — 🖐🏾 Welcome 2023

Давайте попробуем разобраться, что же за подарок готовит Stability в 2023 году?

Вот комментарии под постом:
— Ну наконец то!! спасибо Эмад
— Ох, пять пальцев, похоже, многообещающий 2023 год😂
— IF? Вы тизерите новую модель текст-2-изображение?🤨
— Теперь получите SD 3.0 это поражает🤯
— Я ЛЮБЛЮ эти руки
— SD 3.0 неужели!?
— Что значит "IF" в нижнем углу!?

Попробуем сделать выводы:

— Что это вообще?
— Были мысли, что это файнтюн. Но Эмад бы не делал такой громкий пост, разделяя 2022 и 2023. Я думаю, что стабилити готовит большой релиз: новую Text-2-Image модель в 2023!

— Нас ждет SD 3.0?
— Возможно, но почему IF и что такое IF?? Да и если IF просто внутренне имя проекта, то зачем делать для него вотермарку?

— Насколько качественная будет модель?
— Судя по рукам, это что-то действительно серьезное и умное. Плюс мы видим сцены, цвет платья, расу, позу, прическу.

— Скоро ждать новую модель?
— +- Месяц. Почему? Эмад очень открытый человек, и скорее всего поделился промежуточными результатами. Но они уже поражают, несмотря на некоторые проблемы с детализацией (волосы, глаза, зубы у девушки справа). Мне кажется, что это не финальный чекпоинт. Помню как Эмад показывал результаты SD за +- месяц до релиза.

— Что такое IF?
— Тут я хз. 🤔 Мне вспоминается одна из самых трогательных песен группы пинк флойд — IF:

If I were a swan, I'd be gone
If I were a train, I'd be late again
If I were a good man, I'd talk with you more often than I do

Но а так я понятия не имею, что это значит...

p.s.: Видна еще пачка генерация под квадратом с правой девушкой. Возможно намек на новые улики? но меня волнует другое...

Ч Т О Ж Е Т А К О Е IF ?

👾 Твит Эмада
@ м и ш и н л е р н и н г
👍59❤‍🔥5👎5🥰21🤯1😍1🏆1
Мишин Лернинг 🇺🇦🇮🇱
🚀 ЧТО-ТО ПРОИСХОДИТ! И ЭТО ОПЯТЬ STABILITY AI Эмад что-то мутит.. Твит следующий: две девушки, у обеих (не поверите) 5 пальцев! Левая с серьезным лицом держит руку, как нечто среднее между "Vulcan Salute" и "Enough" — 🖖🏼 Enough 2022 Правая с улыбкой приветствует…
🎄 UPD; Скорее всего речь идет про файнтюн и дистил

Все что далее — не более чем догадки комьюнити, но прошло уже несколько дней и можно сделать выводы на основании сообщений Эмада и комментариев под его постом:

> https://fortune.com/2022/12/07/a-i-luminaries-expressed-awe-and-caution-at-the-technologys-breakthrough-moment/ <

— Обещает 30x по-скорости в сравнение с SD 1,2

— Скорее всего IF это дистил — Implicit Fine-tune (a.k.a denoising diffusion implicit models (DDIM) distillation)

— Руки тоже могли быть улучшены на этапе файнтюна модели учителя.

tl;dr DDIM distillation, идея берущая начало в ddim и Progressive Distillation for Fast Sampling of Diffusion Models, позволяет сократить кол-во шагов с 50-250 до 8-16 с сохранение с качества.

Подход предполагает дистил семплинга ddim из учителя в 512-шагового студента, затем студент становится учителем и учит следующего студента в 256 шагов и т.д.
👍333🐳3🕊2👨‍💻2😢1
😈 Тут Мэттью Беллами отложил гитару и выпустил Pereto SOTA Text-to-Image — MUSE

Все знают, что Мэттью Беллами не любил авторегрессировать и его мутило от диффуза:

Отойдя от мейнстримной диффузии, пропустив скучную Parti, и оставив DALL-E в дали, Метью Беллами выбрал BERT 3B Muse: Text-To-Image Generation via Masked Generative Transformers.

И что, подход оказался Сотой? Да. Вот уж действительно — suck & see.

Рецепт композиции прост:

— Замораживаем T5, как известно энкодер в text2image, чаще всего, это блюдо, которое подают холодным.

— VQ-GAN двух размеров: 256 для главного блюда, и 512 для супер-реза

— Подаем картинку в VQ-vae-GAN, аккуратно и с Вниманием «нарезаем» на токены

— Все это дело вместе с кросс-аттеншен прокручиваем через Vaswani et al., 2017

— Обучаем по Cosine scheduling через зашумление — маскировку токенов.

— Инферить, постепенно предсказывая замаскированные токены от 100% до 0.

— При удачной генерации в 256, подать на супер-рез

— Такой подход можно из коробки использовать для разных форм инпеинтинга и аутпентинга.

Интересно то, что получается очень эффективная сеть по Pereto: COCO FID@30K 7.88 при CLIP score = 0.32
А это, прям очень очень сильно!

Вместо вывода: Трансформеры наносят ответный удар, или не диффузом единым

p.s.: Д
ругими словами это Paella здорового человека: «Маскировочный» Muse гомологичен диффузионному Imagen (с блекджеком, кросс аттеншн и t5 xxl), тогда как «маскировочный» «мама, я ПАЕЛЛА» гомологична диффузионному DALL-E 2.

И быстрая вещь, как Paella. Скорость 0.5 sec на 256 и еще 1.3 sec на 512!

💻
Проект MUSE от GOOGLE
📄 paper MUSE
🔥49👍112💋2❤‍🔥1🤯1
Microsoft готовятся к интеграции поисковика Bing с ChatGPT

💻 bloomberg

Это самая важная новость за сегодня?
56🔥27🤯17👎5👍1
🐤 Мишин Лернинг теперь в Twitter

Очень советую подписаться, чтобы не пропустить сегодняшний супер важный твит!

👉 https://twitter.com/_bra_ket
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥47👎18👍9❤‍🔥2🕊21🤯1🌚1🍓1💋1
Forwarded from DeepFloyd
If I were a swan,
I'd be rainbow-colored.
If I were a train,
I'd be intergalactic.
If I were a model,
I'd be open-source.

DeepFloyd
🔥39🕊53👎2💋2👍1🥰1🤯1💔1
📰 В The Neuron Daily статья про то, что, вероятно, нас ожидает новая модель!

Дальше перевод статьи источника The Neuron Daily:

***

Это просто совпадение или какое-то дружеское соревнование?

Вчера мы говорили о новой text2image модели Muse от Google . Небольшая деталь, которую мы не указали: на странице их проекта изображения, на которых написано «Muse».

Исследователи подмечают, что Muse отлично генерирует изображения, содержащие текст. С чем, кстати, не справляются ни DALL-E 2, ни Stable Diffusion!

Сегодня в твиттере появлись несколько картинок, которые намекают: «Смотрите какой сложный текст мы можем генерировать».

Выводы: Скорее всего, это новая модель под названием IF (см. правый нижний угол изображений), разработанная новой лабой DeepFloyd .

Некоторые надеются, что это еще и долгожданная «дистиллированная» модель, способная ускорить генерацию изображений в 20 раз. Это тоже была одна из центральных тем Muse!

Наконец, Stability AI — это Stability AI .

Пока ничего официального, и мы можем ошибаться. Мы вернемся, когда у нас будут новости о IF и DeepFloyd.

***

мишин лернинг
🔥37👍8❤‍🔥4🌚2💯2👎1😍1🐳1
Причина всего в сексуальном желании.

Это лучшее описание нашей модели!
А я, блядь, думал — в чем же причина?
А тут все так просто человек объяснил..

https://twitter.com/raptor_notice/status/1611366315549425664
🍓23💋4👍2❤‍🔥1💔1
Последнее время мне очень инетерсно наблюдать за поисковиком Bing. Сначала новость об интеграции ChatGPT, а теперь генеративный сток с DALL-E 2 под капотом.

Потестил мой любимый DALL-E 2 промпт: a woman holding the paper with the text "

sapienti sat

https://www.bing.com/images/create
👍28🌚4🐳3
Похоже IF в скором времени покажет генерацию текста и лучше понимание текста для генерации

Емад(основатель StabilityAI) делится небольшими анонсами сразу после МишинЛернинг

IF
🔥17👍21
Forwarded from DeepFloyd
A photo of a plush Tiger with t-shirt with text "I ♥️ Robin Rombach"

tweet
❤‍🔥59🌚1
2025/07/10 23:14:03
Back to Top
HTML Embed Code: