This media is not supported in your browser
VIEW IN TELEGRAM
🔮 Стебель Диффузии v1.5 доступен всем в DreamStudio
Улечшения в сравнении с v1.4:
— Большая насмотренность эстетическими изображениями
— Лучшая сходимость: артефакты VAE/GAN f8 декодера не так манифестируют
— Более качественные лица
— Более целостная картинка
— Более детальный бэкграунд
👉 200 генераций в DreamStudio бесплатно
🤖 Мишин Лернинг
Улечшения в сравнении с v1.4:
— Большая насмотренность эстетическими изображениями
— Лучшая сходимость: артефакты VAE/GAN f8 декодера не так манифестируют
— Более качественные лица
— Более целостная картинка
— Более детальный бэкграунд
👉 200 генераций в DreamStudio бесплатно
🤖 Мишин Лернинг
👍35❤3👎3🔥3
🚀 Про <ЭТО> или как генерить <Это>, если <Это> не включили в претрейн
Добавление новых объектов и концептов через p-tuning стало возможно в Стебле Диффузии!
Давайте представим ситуацию:
— Вы обучили огромную Text2Image модель на 1B данных
— Она умеет почти все, но не ЭТО! Время идет вперед и выходит фильм или игра, и новый сеттинг и новых персонажей сеть не знает, так как на момент тренировки этих данных в интернете просто не было
Сеть <это> не умеет, а генерировать <это> нужно... Что делать?
1) Дообучить модель добавив в датасет новые данные. Можно! Не ради же одного объекта, персонажа или концепта.. Слишком жирно будет..
2) Зафайнтюнить на новых данных. Хм, и потерять генерализацию?
3) Добвить новые зания в словарь модели, (пркатически) не трогая при этом сами веса! А вот это то, что нужно!
Ресерчеры из Университета Тель-Авива и NVIDIA решили это через старый добрый p-tuning. Работа получила имя An Image is Worth One Word (привет, VIT).
Взяв ~5 картинок они пустили градиенты
— Через 1000 шагов, тихо на денойзинге
— Через юнет и кросс-аттеншен
— Через языковой трансформер
— Прямо на эмбеддинг слой, так где находится токин с <этим> Смотри картинку к посту.
По факту это обыкновенный p-tuning, адаптированный под Imagen/Glide/LatenDiffusion модели.
Сегодня ребята адпатиорвали модель под Стебель! Так что если вы хотели генерить стеблем <Это>, то самое время!
Доступны 2 колаба:
1) для p-tuning'а стебля под <ЭТО>
2) для инференса, чтобы генерить <ЭТО>
Я сгенерировал игрушиченую машинку в стиле кота из примеров. Действительно запоминает.
📇 project
📄 paper
💻 code
🔮 train colab
👁 inference colab
🤖 Мишин Лернинг
Добавление новых объектов и концептов через p-tuning стало возможно в Стебле Диффузии!
Давайте представим ситуацию:
— Вы обучили огромную Text2Image модель на 1B данных
— Она умеет почти все, но не ЭТО! Время идет вперед и выходит фильм или игра, и новый сеттинг и новых персонажей сеть не знает, так как на момент тренировки этих данных в интернете просто не было
Сеть <это> не умеет, а генерировать <это> нужно... Что делать?
1) Дообучить модель добавив в датасет новые данные. Можно! Не ради же одного объекта, персонажа или концепта.. Слишком жирно будет..
2) Зафайнтюнить на новых данных. Хм, и потерять генерализацию?
3) Добвить новые зания в словарь модели, (пркатически) не трогая при этом сами веса! А вот это то, что нужно!
Ресерчеры из Университета Тель-Авива и NVIDIA решили это через старый добрый p-tuning. Работа получила имя An Image is Worth One Word (привет, VIT).
Взяв ~5 картинок они пустили градиенты
— Через 1000 шагов, тихо на денойзинге
— Через юнет и кросс-аттеншен
— Через языковой трансформер
— Прямо на эмбеддинг слой, так где находится токин с <этим> Смотри картинку к посту.
По факту это обыкновенный p-tuning, адаптированный под Imagen/Glide/LatenDiffusion модели.
Сегодня ребята адпатиорвали модель под Стебель! Так что если вы хотели генерить стеблем <Это>, то самое время!
Доступны 2 колаба:
1) для p-tuning'а стебля под <ЭТО>
2) для инференса, чтобы генерить <ЭТО>
Я сгенерировал игрушиченую машинку в стиле кота из примеров. Действительно запоминает.
📇 project
📄 paper
💻 code
🔮 train colab
👁 inference colab
🤖 Мишин Лернинг
🔥47👍5❤4
This media is not supported in your browser
VIEW IN TELEGRAM
🫐🍝🍓 Андрей Карпаты, устав от Тесла, запилил Stable Diffusion Video
Андрей Карпаты, как и ваш покорный слуга, получил доступ к весам Стебля Диффузии еще до того, как про стебель что-то было известно. Дело в том, что Андрей устал от Теслы, и заявил что хочет пилить опенсорс. Сказано — сделано!
Встречайте Stable Diffusion Video, основанный на коде Andrej Karpathy.
Как оно работает? На самом деле достаточно просто. Берётся несколько текстовых описаний, и затем CLIP text embedding’и интерполируются. При заданном seed можно получить относительно гладкую (все же не StyleGAN 3) анимацию.
Самое кайфовое, что можно уже начать генерить анимацию в гугл колабе!
🫐 code 🍓 colab
🤖 Мишин Лернинг
Андрей Карпаты, как и ваш покорный слуга, получил доступ к весам Стебля Диффузии еще до того, как про стебель что-то было известно. Дело в том, что Андрей устал от Теслы, и заявил что хочет пилить опенсорс. Сказано — сделано!
Встречайте Stable Diffusion Video, основанный на коде Andrej Karpathy.
Как оно работает? На самом деле достаточно просто. Берётся несколько текстовых описаний, и затем CLIP text embedding’и интерполируются. При заданном seed можно получить относительно гладкую (все же не StyleGAN 3) анимацию.
Самое кайфовое, что можно уже начать генерить анимацию в гугл колабе!
🫐 code 🍓 colab
🤖 Мишин Лернинг
❤41👍9🔥4⚡1🏆1
Сегодня (через 5 часов) состоится презентация Apple
Мне лично интересны AirPods Pro 2, и будет ли там Bluetooth 5.2 с поддержкой LE Audio, а так же есть ли смысл надеяться на в тройных кавычках """lossless"""?
Ну и новый дизайн часов тоже интересно глянуть.
👉 ссылка на вечерную Youtube трансляцию
Мне лично интересны AirPods Pro 2, и будет ли там Bluetooth 5.2 с поддержкой LE Audio, а так же есть ли смысл надеяться на в тройных кавычках """lossless"""?
Ну и новый дизайн часов тоже интересно глянуть.
👉 ссылка на вечерную Youtube трансляцию
👍21👎7❤1🔥1
Что-то планируете брать?
Anonymous Poll
3%
Apple Watch 8⌚️
4%
Apple Watch Ultra❤️🔥
11%
AirPods Pro 2 🎧
1%
iPhone XIV📱
1%
iPhone XIV max📱
7%
iPhone XIV pro📱
7%
iPhone XIV pro max 📱
78%
ничего..
👎36👍16❤🔥1⚡1🌚1
Чем занимаетесь в сфере машинного обучения?
Anonymous Poll
25%
Работаю/ресерчу в Computer Vision
10%
Работаю/ресерчу в NLP
3%
Работаю/ресерчу в Мультимодалке
11%
Работаю в Data Science
3%
Работаю в Data Analytics
8%
Работаю в ML, но не CV/NLP
14%
Работаю в IT, хочу в ML
10%
Работаю в IT, не хочу в ML
8%
Не работаю в IT, но хочу в ML
8%
Не работаю в IT, и хочу в ML
👍9🔥1
Forwarded from Нейроэстетика
This media is not supported in your browser
VIEW IN TELEGRAM
👁 DreamStudio — Космический корабль на подходе
Сразу оговорюсь, на слитом видео очень ранний билд, который был еще какое-то время назад.
Как видно, функционал далеко не ограничен Стеблем. DreamStudio это не просто про API, а полноценная AI студия.
Различные нейросети, методы, функции, ноды. По факту это первый инструментарий для AI художников.
🌊 Н е й р о э с т е т и к а
Сразу оговорюсь, на слитом видео очень ранний билд, который был еще какое-то время назад.
Как видно, функционал далеко не ограничен Стеблем. DreamStudio это не просто про API, а полноценная AI студия.
Различные нейросети, методы, функции, ноды. По факту это первый инструментарий для AI художников.
🌊 Н е й р о э с т е т и к а
❤40❤🔥15👍5
This media is not supported in your browser
VIEW IN TELEGRAM
🥽 Видео с VR гарнитурой Quest Pro слили за месяц до официального показа
Немного оффтопа. В 2021-ом году я купил свой первый VR хедсет. Хотя многие скажут, что 2021 год — поздно для знакомства с VR, но я скажу, что именно к 2021 году технология созрела:
— Доступная цена в 300$ за хэдсет
— Приемлемое разрешение и высокая герцовка
— Возможность комфортно играть без проводов по Wi-Fi 6
Я поиграл в множество тайтлов, весело проводил время в vr чатах, и смотрел всякое разное. Для себя могу выделить:
🎮 Half-Life Alyx — Просто шедевр. Уникальный экспириенс ради которого смело стоит брать VR.
⚔️ Skyrim VR — с кучей модов и на 2080ti (конечно на 4090ti будет еще лучше). Первая прогулка пешком от Ривервуда до Вайтрана это незабываемо.
И вот в конце 2021го года появилась информация о неком Project Cambria от террористов-экстремистов из Meta. Было известно, что хэдсет будет обладать большей компактностью и возможностью оперировать в дополненной реальность, благодаря цветным камерам на устройстве.
И вот сегодня появился слив, полноценное видео с хэдсетом. Где все подробно можно разглядеть. Устройстов получит имя Quest Pro. Так что буду ждать с нетерпением. Скорее всего устройстов можно будет приобрести к концу октября этого года. Скорее всего увеличат угол обзора и подтянут разрешение, а благодаря новым камерам и датчикам, погружение в VR выйдет на новый уровень.
🤖 Мишин Лернинг
Немного оффтопа. В 2021-ом году я купил свой первый VR хедсет. Хотя многие скажут, что 2021 год — поздно для знакомства с VR, но я скажу, что именно к 2021 году технология созрела:
— Доступная цена в 300$ за хэдсет
— Приемлемое разрешение и высокая герцовка
— Возможность комфортно играть без проводов по Wi-Fi 6
Я поиграл в множество тайтлов, весело проводил время в vr чатах, и смотрел всякое разное. Для себя могу выделить:
🎮 Half-Life Alyx — Просто шедевр. Уникальный экспириенс ради которого смело стоит брать VR.
⚔️ Skyrim VR — с кучей модов и на 2080ti (конечно на 4090ti будет еще лучше). Первая прогулка пешком от Ривервуда до Вайтрана это незабываемо.
И вот в конце 2021го года появилась информация о неком Project Cambria от террористов-экстремистов из Meta. Было известно, что хэдсет будет обладать большей компактностью и возможностью оперировать в дополненной реальность, благодаря цветным камерам на устройстве.
И вот сегодня появился слив, полноценное видео с хэдсетом. Где все подробно можно разглядеть. Устройстов получит имя Quest Pro. Так что буду ждать с нетерпением. Скорее всего устройстов можно будет приобрести к концу октября этого года. Скорее всего увеличат угол обзора и подтянут разрешение, а благодаря новым камерам и датчикам, погружение в VR выйдет на новый уровень.
🤖 Мишин Лернинг
👍22❤8🏆1
🥽 Какие у вас отношения с VR?
Anonymous Poll
3%
Есть vr-хэдсет, использую постоянно. В восторге от VR!
3%
Есть vr-хэдсет, использую часто.
12%
Есть vr-хэдсет, но использую редко.
10%
Пробовал/а VR, понравилось. Планирую купить.
22%
Пробовал/а VR, понравилось. Пока брать не планирую.
7%
Пробовал/а VR, не понравилось..
35%
Не пробовал/а VR, но хотелось бы попрбовать и решить!
8%
Не хочу даже пробовать ваш VR!
👍14
✨ CLIP ViT-H/14 надо?
Самый большой публично доступный клип, с топовым из доступных качеством 77,9% 0-shot ImageNet
👉 https://huggingface.co/laion/CLIP-ViT-H-14-laion2B-s32B-b79K
Самый большой публично доступный клип, с топовым из доступных качеством 77,9% 0-shot ImageNet
👉 https://huggingface.co/laion/CLIP-ViT-H-14-laion2B-s32B-b79K
huggingface.co
laion/CLIP-ViT-H-14-laion2B-s32B-b79K · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥24👍4
🗄 Stable Diffusion как мощный Lossy codec
На самом деле речь в блог посте больше идет о 8-bit пост-квантизации уже обученного f8 KL-VAE/GAN, но если добавить потенциальную возможностью манипуляции через CLIP, то выходит, что можно притянуть и Stable Diffusion.
В любом случае для 512x512 изображения в 5 kB — результат шикарный, но энкодинг декодинг несоизмеримо медленный в сравнении с JPEG. В любом случае, Deep Learning compression имеет большой потенциал для стримига в условиях низкого битрейта.
📇 собственно блог пост
🤖 Мишин Лернинг
На самом деле речь в блог посте больше идет о 8-bit пост-квантизации уже обученного f8 KL-VAE/GAN, но если добавить потенциальную возможностью манипуляции через CLIP, то выходит, что можно притянуть и Stable Diffusion.
В любом случае для 512x512 изображения в 5 kB — результат шикарный, но энкодинг декодинг несоизмеримо медленный в сравнении с JPEG. В любом случае, Deep Learning compression имеет большой потенциал для стримига в условиях низкого битрейта.
📇 собственно блог пост
🤖 Мишин Лернинг
👍24🔥9❤1
🥁 Nvidia 4090 — трянсляция
24gb, 2x 3090-ti, 1600$, October 12th
А еще все говорят про Stable Diffusion 👌
24gb, 2x 3090-ti, 1600$, October 12th
А еще все говорят про Stable Diffusion 👌
🔥33🐳4❤🔥2
🫦 OpenAI обучили и опенсорснули трансформер Whisper для распознавания речи
TL;DR >>> OpenAI обучили и выложили нейронную сеть Whisper, которая приближается к человеческому уровню распознавания английской речи.
🫦 Whisper это трансформер, обученный на 680,000 часах мультиязычной речи, собранной из интеренета. Такой огромный датасет позволил получить модель, устойчивую к разным акцентам, фоновому шуму, и понимающую технический язык. Кроме того, модель может не просто траскрибировать иностранную речь, а сразу переводить ее на английский язык!
🦾 Архитектура Whisper
1) Аудио семплы разбиваются на чанки по 30 секунд, которые преобразуются log-Mel спектрограмму
2) Затем спектрограмма обрабатывается двумя блоками 1D сверток c GELU активациями, к которым добавляются тригонометрические тайм-эмбеддинги
3) Затем все это добро подается в энкодер-декодер трансформер. Декодер же в свою очередь начинает транскрипцию после пары служебных токенов, отвечающих за язык семпла, время, и выбор задачи (перевод на английский или оригинальная траскрипция).
📇 Blog пост от OpenAI
📄 paper Whisper
💻 Код
🤗 Model Card
p.s.: В свете опенсорса stable diffusion, OpenAI решили прикунуться чуть-чуть open. Но не стоит питать иллюзий по поводу GPT-4
🤖 м и ш и н л е р н и н г
TL;DR >>> OpenAI обучили и выложили нейронную сеть Whisper, которая приближается к человеческому уровню распознавания английской речи.
🫦 Whisper это трансформер, обученный на 680,000 часах мультиязычной речи, собранной из интеренета. Такой огромный датасет позволил получить модель, устойчивую к разным акцентам, фоновому шуму, и понимающую технический язык. Кроме того, модель может не просто траскрибировать иностранную речь, а сразу переводить ее на английский язык!
🦾 Архитектура Whisper
1) Аудио семплы разбиваются на чанки по 30 секунд, которые преобразуются log-Mel спектрограмму
2) Затем спектрограмма обрабатывается двумя блоками 1D сверток c GELU активациями, к которым добавляются тригонометрические тайм-эмбеддинги
3) Затем все это добро подается в энкодер-декодер трансформер. Декодер же в свою очередь начинает транскрипцию после пары служебных токенов, отвечающих за язык семпла, время, и выбор задачи (перевод на английский или оригинальная траскрипция).
📇 Blog пост от OpenAI
📄 paper Whisper
💻 Код
🤗 Model Card
p.s.: В свете опенсорса stable diffusion, OpenAI решили прикунуться чуть-чуть open. Но не стоит питать иллюзий по поводу GPT-4
🤖 м и ш и н л е р н и н г
❤51👍7⚡1🔥1🏆1
что не сделает умирающий керас, чтобы хоть еще чуть-чуть удержаться за "жизнь"
👉 https://github.com/keras-team/keras-cv/pull/828
🤖 м и ш и н л е р н и н г
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡33🌚10🕊4💯3❤🔥1👍1👎1🔥1
🪖 Стебель Диффузии добрался и до Юлии Латыниной
Листаю ютуб, а там такая обложка к видео про «частично-волновую» могилизацию создана в сервисе миджерни. Рад, что Латыниной зашло.
Прогресс и ИИ уже не остановить. Генерации действительно повсеместно заменяют иллюстрации.
🤖 м и ш и н л е р н и н г
Листаю ютуб, а там такая обложка к видео про «частично-волновую» могилизацию создана в сервисе миджерни. Рад, что Латыниной зашло.
Прогресс и ИИ уже не остановить. Генерации действительно повсеместно заменяют иллюстрации.
🤖 м и ш и н л е р н и н г
👍56👎32🔥10💯1🏆1