Telegram Web Link
Forwarded from AI для Всех
Всех подписчиков с Новым Годом. Рош-ха-Шана самеах!
❤‍🔥58👍8👎3🙏2💋2
😐 Полиглот от EleutherAI

В рамках нашей работы по демократизации и расширению доступа к языковым моделям во всем мире сформировалась команда Polyglot, лаба в EleutherAI, исследования которых сосредоточены вокруг многоязычного и неанглоязычного НЛП.

Мы (да да) рады объявить об их первых моделях: корейских LLM с параметрами 1.3B и 3.8B

Так что ждите и другие языки натрененные нормально 😅

🗣 Polyglot от Eleuther
🌐 твит Стэллы
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥39👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🪗 Играй, Гармонь, да хуярь, чтоб погромче, руби, топор, да ебашь, чтоб пошире

Не успел мир получить Стебель Диффузии от CompVis, как вдруг откуда ни возьмись, появился Dance Diffusion от Гармоней (Harmonai). Гармони решили сделать диффузионный jukebox и опенсорснуть его миру.

Получится ли что-то кроме семплов, которые можно продавать или использовать для чего-то серьезного — вопрос. Умельцы из любого семпла сделают что угодно, и музыка будет топ. Но вот вопрос даст ли нейросеть новую палитру, как это было с Text2Image в визуальном искусстве?

Кроме заявлений, что «это не просто очередной семпл, а семпл прям из инференса нейросети, слушай этот трек, качай этот трек, там семпл то нейронный», хотелось бы иметь именно контроль над генерацией. Я бы хотел видеть глубокое понимание, низкое количество шума (если это не требуется специально) и возможности модульного синтезатора с огромным количеством крутилок. И пускай это будут не очередные: vcf, lfo и adsr кривые поверх семпла, а именно параметры генерации. Например: «звук извлечённый смычком по нескольким струнам открытого рояля, который ломается в конце семпла и слышит треск дерева» -cfg 9, -seed 42, -time 10s… Ну что, мечтать не вредно..

🔈 примеры семплов в видео к посту

Ждёте ли вы аудио диффузию?

🎥 видоисик с Глав Гармонем
🪗 wandb blog гармоней
44👍10❤‍🔥3😍1💋1
🦊 OpenAI открыло DALL•E 2 для всех желающих.

Смотрите, что стебель живогенерящий с людьми творит. Не без регистрации и смс конечно. Но зато бесплатно с пару десятков можно генернуть.

🥁 регаться тут https://openai.com/dall-e-2/
👍45🔥163👎3
Завтра 🎬 WoW
🔥193🙏21👍1
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Просто Марк, просто фехтует в Mixed Reality с Олимпийскими золотыми медалистами.

Прибор в действии - новый хайэнд VR Headset, который выйдет в следующем месяце.

@ai_newz
👍35👎26🔥3🌚3
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 WoW! DALL-E 2 для генерации видео! MAKE-A-VIDEO от MetaAI

📄 tl;dr

Ресерчеры из MetaAI обучили диффузионную нейросеть (типа DALL-E 2, Imagen, Стебель) MAKE-A-VIDEO, способную генерировать короткие видео-ролики по текстовому описанию!

А самое крутое то, что для этого им не потребовался датасет, содержащий пары видео - текст!


🚬 Что же за заверь MAKE-A-VIDEO?

Начнем с того, что название MAKE-A-VIDEO, отсылает нас к Make-A-Scene от тех же MetaAI — DALL-E поколения, которая имела кондишн не только в тексте, но и в семантической маске. Название имхо не очень удачное, так как тут ничего подобного нет. НО это DALL-E-like 2-го поколения и, видно, они просто решили двигать свой бренд MAKE-A- ... Ок, их дело.

Основной фишкой этой работы является развитие мысли: "Картинка это видео с одним кадром". Но как это реализовано? И главное, как можно сделать Text-To-Video без Text-To-Video данных?!

Подход напоминает DALL-E 2разделяй и властвуй декомпозируй и генерь,с его CLIP_text_emb -> CLIP_image_emb Prior!

Генрация видео Y может быть представлена как композиция Модулей:

🗒 Y = SR(th) ◦ SR(tl) ◦ ↑F ◦ Dt ◦ P ◦ (X_t, C(X_i))

Идея очень простая и изящная давайте прост разберем ее элементы:

0. X_i — картинка, X_t — текст. {X_i, X_t} — пара картинка-текст.

1. C(X_i) — CLIP embedding изображения X_i. N-мерный вектор, содержащий в себе необходимые фичи для описания картинки.

2. P — Prior, диффузионная нейронная сеть, отображающая X_t текстовые CLIP embedding'и в CLIP image embedding'и

Теперь понятно, что имея текст, можно получить | P (X_t) —> C(X_i) | варианты визуальных эмбеддингов возможных изображений.

3. Дальше вступает модуль Dt, который готовит 16 RGB фреймов по 64 × 64 на основе CLIP эмбеддинга первого кадра!

И на этот этапе становится понятно, что не нужны пары текст-видео!

4. Модуль ↑F делает интерполяции между кадрами и SR(th) ◦ SR(tl) делают пространственно-временной апскейл из 64pix в 256 и 768

👾 Сайт Проект (тыкать обязательно!)
📄 Paper

🤖 м и ш и н л е р н и н г
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25❤‍🔥11👍6💋3👎21🏆1
This media is not supported in your browser
VIEW IN TELEGRAM
🦚 DreamFusion: Text-to-3D using 2D Diffusion от ?Google

Не успели мы насладиться Text2Video от MetaAI как выходит Text-To-3D диффузия.. Что за день..

🚀 Как работает? Идея супер изящная!

Это градиентный метод, основанный на Loss-функции, такой как DeepDream. По факту происходит оптимизация рандомно инициализированной 3D модельки (a Neural Radiance Field, or NeRF) через градиенты 2D диффузионных генераций.

То есть по факту, проворачивая такой трюк, не нужно иметь 3D данных вообще!

Подробнее:
1) Рандомная фигура рендерится через NERF (плотность, освещение, цвет)

2) Этот изначальный бред (так как это начало) рендерится в 2D проекцию

3) Затем к картинке подмешивают шум, и все это подается на!!! внимание!! ИМАГЕН

4) После чего Имаген предсказывает необходимый денойз

5) Затем из пересказанного денойза вычитается подмешанный шум. и ВУАЛЯ! Дальше все дифференцируемо! Можно пускать градиенты обратно на 3D-модель

А то что у ребят был доступ к IMAGEN мне на 99.9999999% кажется, что это Google. Ну, а так, чем Тьюринг не шутит..

👁 gallery
📄 paper
📇 project

🤖 м и ш и н л е р н и н г
🔥236👍4❤‍🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Google создал нейросеть, способную создавать 3D модели по текстовому описанию!

А самое крутое то, что самую сложную ее часть даже не нужно было обучать 💖 За основу Text-to-2D взяли Imagen!

🦾 подробнее тут
39🔥22👍4🏆4❤‍🔥3
☠️ Colab — Все!

Все мы любили колаб. Но увы, ничто не вечно под луной. И теперь можно купить или 100 или 500 compute units, что в переводе на бытовой означает, что колаб сдулся.

🪦 Царство небесное, вечн Йисгадал вэйискадаш шмэй рабо..

🤖 м и ш и н л е р н и н г
😢121🙏1
Полный зал народу
ну убейте уже эту тварь
👍295👎4137🙏17🔥13💯11😢7🌚63❤‍🔥2
😈 Новояз Машоба

— Генератор и дискриминатор вооруженных сил рф

— Loss продолжил отрицательное падение

— Dropout в рядах вооруженных сил

— Произошел хлопок градиентов

— "CUDA error: out of memory" — Обучение совершило жесткую посадку

— Чистка датасета в фильтрационных лагерях

— Шаг доброй воли по отрицательному направлению к сходимости

— Феномен пропадающих без вести градиентов

— Срочников будут посылать на глубокие обучения

— Параллельный import torch as th

— Превентивный gradient clipping

— Недружественные фреймворки

— Традиционные свертки вместо их нетрадиционных Трансформеров

— Локальные минимумы и седловые точки признаны Экстремистскими

— Показывает все признаки латентного вектора

— 140 миллионов точек Z-пространства

— Специальная градиентная аккумуляция

— Частичная квантизация

— Свой трейн не бросаем (С) Z-вектор Vq-gan'ов

— Денормализация и детокенизация

— RL-алгоритмы признаны иностранными агентами

— Прунинг войск с целью оптимизации

p.s.:
- А в какой концлагерь нас везут?
- Я не знаю, я вне политики.

🤖 м и ш и н л е р н и н г
Please open Telegram to view this post
VIEW IN TELEGRAM
👍98👎36🔥20🕊43💋3🐳21🌚1
🤷‍♀️ 55% подписчиков считают, что бункерный применит ядерное оружие

(да применит + попытается) / (все - посмотреть результат)

окей, пошёл работать дальше
🕊86👎21🌚11👍6😢2😍2🏆21🐳1💋1
👾 Мысли вслух про диффузионные модели

Я озвучу основную мысль из этого блог поста, а потом немного разовью ее. Мысль наивная, но все же:

Диффузионные модели — это автоэнкодеры. Особенно, если немного прищуришься.

Что еще можно сказать про диффузионные модели:

▪️Обучение скор-функции x log p(x) распределения сводится к предсказанию денойзинга распределения, которое изначально зашумили. Это супер просто — не нужно городить никаких сложных концепций, десяков лоссов, контролировать сходимость и ухищряться.

▪️В сравнении с вариационными автоэнкодерами (VAE), диффузиям не просто не нужно делать боттлнэк с репараметризациями или прчими vq-, gumbel- приколами, а вообще не нужно делать боттлнэк!

▪️На разных этапах денойзинга модель может сосредоточиться на разных задачах:
— на ранних шагах заниматься формой объектов
— на поздних прорисовывать детали

К чему я это веду? К тому "Почему Диффузии круче, чем VAE для обучения генеративок?"

1) Диффузу не нужен боттлнэк.

А без него намного проще обучать. Не нужно накладывать ограничения на глубину и размер, на vq-словарь и прочее, занимать репараметризацией. А вдобавок можно кидать резидиулы, делая полноценный юнет. И вот это все вместе прям очень-очень упрощает сходимость!

2) Многопроходные подходы лучше однопроходных.

Однопроходные сети (VAE, GAN) должны решить задачу генерации (или проявки изображения) за, простите за тавтологию, один forward pass. Диффузии же делают от 50 до 4000 шагов, имея возможность постепенно переходить от генерации формы к содержанию и деталям.

#мысли

🤖 м и ш и н л е р н и н г
👍53🐳5💯5🔥4🌚21🏆1
❤️‍🔥 AudioGen: нейросеть для генерации аудио по текстовому описанию

Очень много работы по визуальным диффузам, так что буду краток. Мета сделал то, что все мы ждали!

Как отметил Александр Шульгин, альфа-метилированные триптамины AudioGEN можно рассматривать как триптаминовые гомологи амфетамина аудиальный гомолог визуального DALL-E 1. И действительно, Александр Шульгин тут очень точно подметил!

Дело тут именно в том, что АудиоГена не гомологичен Имагену. Работа ведется не в пространстве пикселей — звуковой волны, и не в пространстве интегрального преобразования (фурье, вейвлет), а в VAE, в данном случае RVQ. И решение больше напоминает Parti, так как используется авторегрессия, а не диффуз.

1) Сначала аудио конвертируется при помощи VAE в латент.

2) Затем трансформер авторегрессионно предсказывает дискретные токены RVQ, через кроссаттеншен с текстового энкодинга, которые потом превращаются обратно в звук при помощи RVQ-декодера.

Результаты — WOW, писать можно долго, но это надо слушать.

📯 Примеры слушать обязательно: тут
📰 Пейпер Аудиогены
💻 код / будет тут?

🤖 м и ш и н л е р н и н г
🔥54👍4❤‍🔥2👌2💯21🙏1🏆1💋1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 IMAGEN VIDEO — Диффузии уже не остановить!

tl;dr
Помните Make-A-Video от MetaAI? Так вот — забудьте! Команда Google Brain только что создало лучшее Text-to-Video решение!

Если вкратце, то это имагеновый гомолог далишного Make-A-Video 🤖

Ну, а если чуть подробнее:

— Text Prompt подается в T5 энкодер
— Затем Base Model (5.6B ❤️) диффузит 16 кадров 40x24 pix в скромных 3 fps
— Затем темпоральный апсемплер TSR (1.7B) делает 32 кадра 40x24pix уже в 6 fps
— И пространственный апскейлер SSR-1 (1.4B) готовит предыдущие 32 кадра в разрешении 80x48 pix, и сразу второй SSR-2 (1.2B) делает 320x192
— Затем следуют еще два стейджа временного и один каскад пространственного суперреза и в итоге мы получаем 128 кадров в разрешении 1280x768 в 24fps

Основной фишкой такого подхода является Video U-Net — архитектура видео-юнет, пространственные операции которого выполняются независимо по кадрам с общими параметрами (батч х время, высота, ширина, каналы), тогда как временные операции работают уже по всему 5-ти мерному тензору (батч, время, высота, ширина, каналы).

Сделаю потом более подробный пост, а пока рекомендую всем посмотреть результаты на сайте проекта!

🚀 Imagen Video
📄 paper

🤖 м и ш и н л е р н и н г
🔥46👍146❤‍🔥2💋2🏆1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Помните недавний Dream Fusion: Imagen + Nerf? Встречайте Stable-Dreamfusion

Ну что Text-to-3D в массы? И ресерчеру и промпт-инженеру!

👉 https://github.com/ashawkey/stable-dreamfusion

За инфу спасибо Денису 💙💛

🤖 м и ш и н л е р н и н г
👍43😍95🕊3💋2👎1
2025/07/13 14:37:49
Back to Top
HTML Embed Code: