Мишин Лернинг 🇺🇦 1361 - Telegram Web

Telegram Web Link

Мишин Лернинг 🇺🇦🇮🇱

This media is not supported in your browser

VIEW IN TELEGRAM

🔮 Стебель Диффузии v1.5 доступен всем в DreamStudio

Улечшения в сравнении с v1.4:
— Большая насмотренность эстетическими изображениями
— Лучшая сходимость: артефакты VAE/GAN f8 декодера не так манифестируют
— Более качественные лица
— Более целостная картинка
— Более детальный бэкграунд

👉 200 генераций в DreamStudio бесплатно

🤖 Мишин Лернинг

👍35❤3👎3🔥3

6.91K viewsedited 09:16

Мишин Лернинг 🇺🇦🇮🇱

🚀 Про <ЭТО> или как генерить <Это>, если <Это> не включили в претрейн

Добавление новых объектов и концептов через p-tuning стало возможно в Стебле Диффузии!

Давайте представим ситуацию:
— Вы обучили огромную Text2Image модель на 1B данных
— Она умеет почти все, но не ЭТО! Время идет вперед и выходит фильм или игра, и новый сеттинг и новых персонажей сеть не знает, так как на момент тренировки этих данных в интернете просто не было

Сеть <это> не умеет, а генерировать <это> нужно... Что делать?

1) Дообучить модель добавив в датасет новые данные. Можно! Не ради же одного объекта, персонажа или концепта.. Слишком жирно будет..

2) Зафайнтюнить на новых данных. Хм, и потерять генерализацию?

3) Добвить новые зания в словарь модели, (пркатически) не трогая при этом сами веса! А вот это то, что нужно!

Ресерчеры из Университета Тель-Авива и NVIDIA решили это через старый добрый p-tuning. Работа получила имя An Image is Worth One Word (привет, VIT).

Взяв ~5 картинок они пустили градиенты
— Через 1000 шагов, тихо на денойзинге
— Через юнет и кросс-аттеншен
— Через языковой трансформер
— Прямо на эмбеддинг слой, так где находится токин с <этим> Смотри картинку к посту.

По факту это обыкновенный p-tuning, адаптированный под Imagen/Glide/LatenDiffusion модели.

Сегодня ребята адпатиорвали модель под Стебель! Так что если вы хотели генерить стеблем <Это>, то самое время!

Доступны 2 колаба:
1) для p-tuning'а стебля под <ЭТО>
2) для инференса, чтобы генерить <ЭТО>

Я сгенерировал игрушиченую машинку в стиле кота из примеров. Действительно запоминает.

📇 project
📄 paper
💻 code
🔮 train colab
👁 inference colab

🤖 Мишин Лернинг

🔥47👍5❤4

6.94K viewsedited 19:45

Мишин Лернинг 🇺🇦🇮🇱

This media is not supported in your browser

VIEW IN TELEGRAM

🫐🍝🍓 Андрей Карпаты, устав от Тесла, запилил Stable Diffusion Video

Андрей Карпаты, как и ваш покорный слуга, получил доступ к весам Стебля Диффузии еще до того, как про стебель что-то было известно. Дело в том, что Андрей устал от Теслы, и заявил что хочет пилить опенсорс. Сказано — сделано!

Встречайте Stable Diffusion Video, основанный на коде Andrej Karpathy.

Как оно работает? На самом деле достаточно просто. Берётся несколько текстовых описаний, и затем CLIP text embedding’и интерполируются. При заданном seed можно получить относительно гладкую (все же не StyleGAN 3) анимацию.

Самое кайфовое, что можно уже начать генерить анимацию в гугл колабе!

🫐 code 🍓 colab
🤖 Мишин Лернинг

❤41👍9🔥4⚡1🏆1

9.67K viewsedited 07:57

Мишин Лернинг 🇺🇦🇮🇱

Сегодня (через 5 часов) состоится презентация Apple

Мне лично интересны AirPods Pro 2, и будет ли там Bluetooth 5.2 с поддержкой LE Audio, а так же есть ли смысл надеяться на в тройных кавычках """lossless"""?

Ну и новый дизайн часов тоже интересно глянуть.

👉 ссылка на вечерную Youtube трансляцию

👍21👎7❤1🔥1

5.03K viewsedited 11:37

Мишин Лернинг 🇺🇦🇮🇱

смотрите?

Anonymous Poll

👎26👍13

846 voters4.63K views17:09

Мишин Лернинг 🇺🇦🇮🇱

⌚️ Apple Watch Ultra

👎30🔥30😍9🌚5👌4

4.79K views17:26

Мишин Лернинг 🇺🇦🇮🇱

Мишин Лернинг 🇺🇦🇮🇱

⌚️ Apple Watch Ultra

$799

❤11👎8🙏3

4.73K views17:37

Мишин Лернинг 🇺🇦🇮🇱

🎧 Airpods Pro 2

H2, spatial audio, noise cancellation 48000hz (что логично, Котельников же), спикер на корпусе.

249$

⚡23👎6👍3

4.96K viewsedited 17:42

Мишин Лернинг 🇺🇦🇮🇱

Что-то планируете брать?

Anonymous Poll

Apple Watch 8⌚️

Apple Watch Ultra❤️‍🔥

AirPods Pro 2 🎧

iPhone XIV max📱

iPhone XIV pro📱

iPhone XIV pro max 📱

👎36👍16❤‍🔥1⚡1🌚1

1.33K voters5.63K views17:57

Мишин Лернинг 🇺🇦🇮🇱

Чем занимаетесь в сфере машинного обучения?

Anonymous Poll

Работаю/ресерчу в Computer Vision

Работаю/ресерчу в NLP

Работаю/ресерчу в Мультимодалке

Работаю в Data Science

Работаю в Data Analytics

Работаю в ML, но не CV/NLP

Работаю в IT, хочу в ML

Работаю в IT, не хочу в ML

Не работаю в IT, но хочу в ML

Не работаю в IT, и хочу в ML

👍9🔥1

1.55K voters5.77K views15:34

Мишин Лернинг 🇺🇦🇮🇱

The Queen is dead, long live The King 😢

по-моему в небесной канцелярии ошиблись

😢114👎6🙏6👍4🐳4👌1

6.15K viewsedited 17:50

Мишин Лернинг 🇺🇦🇮🇱

Forwarded from Нейроэстетика

This media is not supported in your browser

VIEW IN TELEGRAM

👁 DreamStudio — Космический корабль на подходе

Сразу оговорюсь, на слитом видео очень ранний билд, который был еще какое-то время назад.

Как видно, функционал далеко не ограничен Стеблем. DreamStudio это не просто про API, а полноценная AI студия.

Различные нейросети, методы, функции, ноды. По факту это первый инструментарий для AI художников.

🌊 Н е й р о э с т е т и к а

❤40❤‍🔥15👍5

5.39K views12:11

Мишин Лернинг 🇺🇦🇮🇱

This media is not supported in your browser

VIEW IN TELEGRAM

🥽 Видео с VR гарнитурой Quest Pro слили за месяц до официального показа

Немного оффтопа. В 2021-ом году я купил свой первый VR хедсет. Хотя многие скажут, что 2021 год — поздно для знакомства с VR, но я скажу, что именно к 2021 году технология созрела:

— Доступная цена в 300$ за хэдсет
— Приемлемое разрешение и высокая герцовка
— Возможность комфортно играть без проводов по Wi-Fi 6

Я поиграл в множество тайтлов, весело проводил время в vr чатах, и смотрел всякое разное. Для себя могу выделить:

🎮 Half-Life Alyx — Просто шедевр. Уникальный экспириенс ради которого смело стоит брать VR.

⚔️ Skyrim VR — с кучей модов и на 2080ti (конечно на 4090ti будет еще лучше). Первая прогулка пешком от Ривервуда до Вайтрана это незабываемо.

И вот в конце 2021го года появилась информация о неком Project Cambria от террористов-экстремистов из Meta. Было известно, что хэдсет будет обладать большей компактностью и возможностью оперировать в дополненной реальность, благодаря цветным камерам на устройстве.

И вот сегодня появился слив, полноценное видео с хэдсетом. Где все подробно можно разглядеть. Устройстов получит имя Quest Pro. Так что буду ждать с нетерпением. Скорее всего устройстов можно будет приобрести к концу октября этого года. Скорее всего увеличат угол обзора и подтянут разрешение, а благодаря новым камерам и датчикам, погружение в VR выйдет на новый уровень.

🤖 Мишин Лернинг

👍22❤8🏆1

6.36K viewsedited 13:39

Мишин Лернинг 🇺🇦🇮🇱

🥽 Какие у вас отношения с VR?

Anonymous Poll

Есть vr-хэдсет, использую постоянно. В восторге от VR!

Есть vr-хэдсет, использую часто.

Есть vr-хэдсет, но использую редко.

Пробовал/а VR, понравилось. Планирую купить.

Пробовал/а VR, понравилось. Пока брать не планирую.

Пробовал/а VR, не понравилось..

Не пробовал/а VR, но хотелось бы попрбовать и решить!

Не хочу даже пробовать ваш VR!

👍14

1.2K voters7.59K views14:04

Мишин Лернинг 🇺🇦🇮🇱

✨ CLIP ViT-H/14 надо?

Самый большой публично доступный клип, с топовым из доступных качеством 77,9% 0-shot ImageNet

👉 https://huggingface.co/laion/CLIP-ViT-H-14-laion2B-s32B-b79K

laion/CLIP-ViT-H-14-laion2B-s32B-b79K · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

🔥24👍4

6.88K viewsedited 20:46

Мишин Лернинг 🇺🇦🇮🇱

🗄 Stable Diffusion как мощный Lossy codec

На самом деле речь в блог посте больше идет о 8-bit пост-квантизации уже обученного f8 KL-VAE/GAN, но если добавить потенциальную возможностью манипуляции через CLIP, то выходит, что можно притянуть и Stable Diffusion.

В любом случае для 512x512 изображения в 5 kB — результат шикарный, но энкодинг декодинг несоизмеримо медленный в сравнении с JPEG. В любом случае, Deep Learning compression имеет большой потенциал для стримига в условиях низкого битрейта.

📇 собственно блог пост

🤖 Мишин Лернинг

👍24🔥9❤1

14.7K viewsedited 12:33

Мишин Лернинг 🇺🇦🇮🇱

🥁 Nvidia 4090 — трянсляция

24gb, 2x 3090-ti, 1600$, October 12th

А еще все говорят про Stable Diffusion 👌

🔥33🐳4❤‍🔥2

8.39K viewsedited 16:10

Мишин Лернинг 🇺🇦🇮🇱

🫦 OpenAI обучили и опенсорснули трансформер Whisper для распознавания речи

TL;DR >>> OpenAI обучили и выложили нейронную сеть Whisper, которая приближается к человеческому уровню распознавания английской речи.

🫦 Whisper это трансформер, обученный на 680,000 часах мультиязычной речи, собранной из интеренета. Такой огромный датасет позволил получить модель, устойчивую к разным акцентам, фоновому шуму, и понимающую технический язык. Кроме того, модель может не просто траскрибировать иностранную речь, а сразу переводить ее на английский язык!

🦾 Архитектура Whisper

1) Аудио семплы разбиваются на чанки по 30 секунд, которые преобразуются log-Mel спектрограмму

2) Затем спектрограмма обрабатывается двумя блоками 1D сверток c GELU активациями, к которым добавляются тригонометрические тайм-эмбеддинги

3) Затем все это добро подается в энкодер-декодер трансформер. Декодер же в свою очередь начинает транскрипцию после пары служебных токенов, отвечающих за язык семпла, время, и выбор задачи (перевод на английский или оригинальная траскрипция).

📇 Blog пост от OpenAI
📄 paper Whisper
💻 Код
🤗 Model Card

p.s.: В свете опенсорса stable diffusion, OpenAI решили прикунуться чуть-чуть open. Но не стоит питать иллюзий по поводу GPT-4

🤖 м и ш и н л е р н и н г

❤51👍7⚡1🔥1🏆1

9.02K viewsedited 09:21

Мишин Лернинг 🇺🇦🇮🇱

😂

Keras обернул собой Stable Diffusion

что не сделает умирающий керас, чтобы хоть еще чуть-чуть удержаться за "жизнь"

👉 https://github.com/keras-team/keras-cv/pull/828

🤖 м и ш и н л е р н и н г

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡33🌚10🕊4💯3❤‍🔥1👍1👎1🔥1

6.21K viewsedited 19:34

Мишин Лернинг 🇺🇦🇮🇱

🪖 Стебель Диффузии добрался и до Юлии Латыниной

Листаю ютуб, а там такая обложка к видео про «частично-волновую» могилизацию создана в сервисе миджерни. Рад, что Латыниной зашло.

Прогресс и ИИ уже не остановить. Генерации действительно повсеместно заменяют иллюстрации.

🤖 м и ш и н л е р н и н г

👍56👎32🔥10💯1🏆1

7.81K viewsedited 14:43

2025/07/13 22:05:54
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>