Telegram Web Link
This media is not supported in your browser
VIEW IN TELEGRAM
🔮 Стебель Диффузии v1.5 доступен всем в DreamStudio

Улечшения в сравнении с v1.4
:
— Большая насмотренность эстетическими изображениями
— Лучшая сходимость: артефакты VAE/GAN f8 декодера не так манифестируют
— Более качественные лица
— Более целостная картинка
— Более детальный бэкграунд

👉 200 генераций в DreamStudio бесплатно

🤖 Мишин Лернинг
👍353👎3🔥3
🚀 Про <ЭТО> или как генерить <Это>, если <Это> не включили в претрейн

Добавление новых объектов и концептов через p-tuning стало возможно в Стебле Диффузии
!

Давайте представим ситуацию:
— Вы обучили огромную Text2Image модель на 1B данных
— Она умеет почти все, но не ЭТО! Время идет вперед и выходит фильм или игра, и новый сеттинг и новых персонажей сеть не знает, так как на момент тренировки этих данных в интернете просто не было

Сеть <это> не умеет, а генерировать <это> нужно... Что делать?

1) Дообучить модель добавив в датасет новые данные. Можно! Не ради же одного объекта, персонажа или концепта.. Слишком жирно будет..

2) Зафайнтюнить на новых данных. Хм, и потерять генерализацию?

3) Добвить новые зания в словарь модели, (пркатически) не трогая при этом сами веса! А вот это то, что нужно!

Ресерчеры из Университета Тель-Авива и NVIDIA решили это через старый добрый p-tuning. Работа получила имя An Image is Worth One Word (привет, VIT).

Взяв ~5 картинок они пустили градиенты
— Через 1000 шагов, тихо на денойзинге
— Через юнет и кросс-аттеншен
— Через языковой трансформер
— Прямо на эмбеддинг слой, так где находится токин с <этим> Смотри картинку к посту.

По факту это обыкновенный p-tuning, адаптированный под Imagen/Glide/LatenDiffusion модели.

Сегодня ребята адпатиорвали модель под Стебель! Так что если вы хотели генерить стеблем <Это>, то самое время!

Доступны 2 колаба:
1) для p-tuning'а стебля под <ЭТО>
2) для инференса, чтобы генерить <ЭТО>

Я сгенерировал игрушиченую машинку в стиле кота из примеров. Действительно запоминает.

📇 project
📄 paper
💻 code
🔮 train colab
👁 inference colab

🤖 Мишин Лернинг
🔥47👍54
This media is not supported in your browser
VIEW IN TELEGRAM
🫐🍝🍓 Андрей Карпаты, устав от Тесла, запилил Stable Diffusion Video

Андрей Карпаты, как и ваш покорный слуга, получил доступ к весам Стебля Диффузии еще до того, как про стебель что-то было известно. Дело в том, что Андрей устал от Теслы, и заявил что хочет пилить опенсорс. Сказано — сделано!

Встречайте Stable Diffusion Video, основанный на коде Andrej Karpathy.

Как оно работает? На самом деле достаточно просто. Берётся несколько текстовых описаний, и затем CLIP text embedding’и интерполируются. При заданном seed можно получить относительно гладкую (все же не StyleGAN 3) анимацию.

Самое кайфовое, что можно уже начать генерить анимацию в гугл колабе!

🫐 code 🍓 colab
🤖 Мишин Лернинг
41👍9🔥41🏆1
Сегодня (через 5 часов) состоится презентация Apple

Мне лично интересны AirPods Pro 2, и будет ли там Bluetooth 5.2 с поддержкой LE Audio, а так же есть ли смысл надеяться на в тройных кавычках """lossless"""?

Ну и новый дизайн часов тоже интересно глянуть.

👉 ссылка на вечерную Youtube трансляцию
👍21👎71🔥1
смотрите?
Anonymous Poll
14%
да
86%
нет
👎26👍13
⌚️ Apple Watch Ultra
👎30🔥30😍9🌚5👌4
🎧 Airpods Pro 2

H2, spatial audio, noise cancellation 48000hz (что логично, Котельников же), спикер на корпусе.

249$
23👎6👍3
The Queen is dead, long live The King 😢

по-моему в небесной канцелярии ошиблись
😢114👎6🙏6👍4🐳4👌1
This media is not supported in your browser
VIEW IN TELEGRAM
👁 DreamStudio — Космический корабль на подходе

Сразу оговорюсь, на слитом видео очень ранний билд, который был еще какое-то время назад.

Как видно, функционал далеко не ограничен Стеблем. DreamStudio это не просто про API, а полноценная AI студия.

Различные нейросети, методы, функции, ноды. По факту это первый инструментарий для AI художников.

🌊 Н е й р о э с т е т и к а
40❤‍🔥15👍5
This media is not supported in your browser
VIEW IN TELEGRAM
🥽 Видео с VR гарнитурой Quest Pro слили за месяц до официального показа

Немного оффтопа. В 2021-ом году я купил свой первый VR хедсет. Хотя многие скажут, что 2021 год — поздно для знакомства с VR, но я скажу, что именно к 2021 году технология созрела:

— Доступная цена в 300$ за хэдсет
— Приемлемое разрешение и высокая герцовка
— Возможность комфортно играть без проводов по Wi-Fi 6

Я поиграл в множество тайтлов, весело проводил время в vr чатах, и смотрел всякое разное. Для себя могу выделить:

🎮 Half-Life Alyx — Просто шедевр. Уникальный экспириенс ради которого смело стоит брать VR.

⚔️ Skyrim VR — с кучей модов и на 2080ti (конечно на 4090ti будет еще лучше). Первая прогулка пешком от Ривервуда до Вайтрана это незабываемо.

И вот в конце 2021го года появилась информация о неком Project Cambria от террористов-экстремистов из Meta. Было известно, что хэдсет будет обладать большей компактностью и возможностью оперировать в дополненной реальность, благодаря цветным камерам на устройстве.

И вот сегодня появился слив, полноценное видео с хэдсетом. Где все подробно можно разглядеть. Устройстов получит имя Quest Pro. Так что буду ждать с нетерпением. Скорее всего устройстов можно будет приобрести к концу октября этого года. Скорее всего увеличат угол обзора и подтянут разрешение, а благодаря новым камерам и датчикам, погружение в VR выйдет на новый уровень.

🤖 Мишин Лернинг
👍228🏆1
CLIP ViT-H/14 надо?

Самый большой публично доступный клип, с топовым из доступных качеством 77,9% 0-shot ImageNet

👉 https://huggingface.co/laion/CLIP-ViT-H-14-laion2B-s32B-b79K
🔥24👍4
🗄 Stable Diffusion как мощный Lossy codec

На самом деле речь в блог посте больше идет о 8-bit пост-квантизации уже обученного f8 KL-VAE/GAN, но если добавить потенциальную возможностью манипуляции через CLIP, то выходит, что можно притянуть и Stable Diffusion.

В любом случае для 512x512 изображения в 5 kB — результат шикарный, но энкодинг декодинг несоизмеримо медленный в сравнении с JPEG. В любом случае, Deep Learning compression имеет большой потенциал для стримига в условиях низкого битрейта.

📇 собственно блог пост

🤖 Мишин Лернинг
👍24🔥91
🥁 Nvidia 4090 — трянсляция

24gb, 2x 3090-ti, 1600$, October 12th

А еще все говорят про Stable Diffusion 👌
🔥33🐳4❤‍🔥2
🫦 OpenAI обучили и опенсорснули трансформер Whisper для распознавания речи

TL;DR
>>> OpenAI обучили и выложили нейронную сеть Whisper, которая приближается к человеческому уровню распознавания английской речи.

🫦 Whisper это трансформер, обученный на 680,000 часах мультиязычной речи, собранной из интеренета. Такой огромный датасет позволил получить модель, устойчивую к разным акцентам, фоновому шуму, и понимающую технический язык. Кроме того, модель может не просто траскрибировать иностранную речь, а сразу переводить ее на английский язык!

🦾 Архитектура Whisper

1) Аудио семплы разбиваются на чанки по 30 секунд, которые преобразуются log-Mel спектрограмму

2) Затем спектрограмма обрабатывается двумя блоками 1D сверток c GELU активациями, к которым добавляются тригонометрические тайм-эмбеддинги

3) Затем все это добро подается в энкодер-декодер трансформер. Декодер же в свою очередь начинает транскрипцию после пары служебных токенов, отвечающих за язык семпла, время, и выбор задачи (перевод на английский или оригинальная траскрипция).

📇 Blog пост от OpenAI
📄 paper Whisper
💻 Код
🤗 Model Card

p.s.: В свете опенсорса stable diffusion, OpenAI решили прикунуться чуть-чуть open. Но не стоит питать иллюзий по поводу GPT-4

🤖 м и ш и н л е р н и н г
51👍71🔥1🏆1
😂 Keras обернул собой Stable Diffusion

что не сделает умирающий керас, чтобы хоть еще чуть-чуть удержаться за "жизнь"

👉 https://github.com/keras-team/keras-cv/pull/828

🤖 м и ш и н л е р н и н г
Please open Telegram to view this post
VIEW IN TELEGRAM
33🌚10🕊4💯3❤‍🔥1👍1👎1🔥1
🪖 Стебель Диффузии добрался и до Юлии Латыниной

Листаю ютуб, а там такая обложка к видео про «частично-волновую» могилизацию создана в сервисе миджерни. Рад, что Латыниной зашло.

Прогресс и ИИ уже не остановить. Генерации действительно повсеместно заменяют иллюстрации.

🤖 м и ш и н л е р н и н г
👍56👎32🔥10💯1🏆1
2025/07/13 22:05:54
Back to Top
HTML Embed Code: