🔥BEiT-3: Image as a Foreign Language (by Microsoft)
Представлена новая мультимодальная Foundation модель, которая побила сразу 12 рекордов! (см. картинку)
Секрет успеха прост — нужно токенизировать картинки при помощи VQ-VAE и интерпретировать визуальные токены как текст на иностранном языке (авторы назвали его «Imglish»), а пары картинка-текст превращаются в параллельные предложения. Дальше всё это обучается на куче картинок, текстов и их парах через обычный MLM (как BERT).
Примечательно, что для обучения использовались только открытые данные.
Статья, GitHub
Представлена новая мультимодальная Foundation модель, которая побила сразу 12 рекордов! (см. картинку)
Секрет успеха прост — нужно токенизировать картинки при помощи VQ-VAE и интерпретировать визуальные токены как текст на иностранном языке (авторы назвали его «Imglish»), а пары картинка-текст превращаются в параллельные предложения. Дальше всё это обучается на куче картинок, текстов и их парах через обычный MLM (как BERT).
Примечательно, что для обучения использовались только открытые данные.
Статья, GitHub
machinelearning_interview - канал подготовит к собеседованию по машинному обучению, статисике ,алгоритмам и науке о данных.
golang_interview - Вопросы с настоящих Golang собеседований, помогут Вам получить успешно пройти интервью.
python_job_interview - здесь собраны все возможные вопросы и ответы с собеседований по Python.
ai_machinelearning_big_data - Мл, Наука о данных.
golang_interview - Вопросы с настоящих Golang собеседований, помогут Вам получить успешно пройти интервью.
python_job_interview - здесь собраны все возможные вопросы и ответы с собеседований по Python.
ai_machinelearning_big_data - Мл, Наука о данных.
🤖🎨 ИИ для рисования: раскрываем секреты нейронного переноса стиля
Раскладываем по полочками, как «думает» нейронная сеть VGG-19, когда ей прилетает задача скопировать стиль художника из вида Homo sapiens.
➡️ Читать дальше
⚙️ Ноутбук на Kaggle
⚙️ Код
🧠 Нейронный алгоритм переноса стиля
@data_analysis_ml
Раскладываем по полочками, как «думает» нейронная сеть VGG-19, когда ей прилетает задача скопировать стиль художника из вида Homo sapiens.
➡️ Читать дальше
⚙️ Ноутбук на Kaggle
⚙️ Код
🧠 Нейронный алгоритм переноса стиля
@data_analysis_ml
Geo-heatmap – генератор интерактивных геотепловых карт из данных о местоположении Google
Это скрипт, который генерирует интерактивную геотепловую карту из данных истории местоположения Google с использованием Python, Folium и OpenStreetMap
⤷ Ссылка на проект
#Python #Generator
@neural
Это скрипт, который генерирует интерактивную геотепловую карту из данных истории местоположения Google с использованием Python, Folium и OpenStreetMap
⤷ Ссылка на проект
#Python #Generator
@neural
GitHub
GitHub - luka1199/geo-heatmap: :world_map: Generate an interactive geo heatmap from your Google location data
:world_map: Generate an interactive geo heatmap from your Google location data - luka1199/geo-heatmap
🚀 Про <ЭТО> или как генерить <Это>, если <Это> не включили в претрейн
Добавление новых объектов и концептов через p-tuning стало возможно в Стебле Диффузии!
Давайте представим ситуацию:
— Вы обучили огромную Text2Image модель на 1B данных
— Она умеет почти все, но не ЭТО! Время идет вперед и выходит фильм или игра, и новый сеттинг и новых персонажей сеть не знает, так как на момент тренировки этих данных в интернете просто не было
Сеть <это> не умеет, а генерировать <это> нужно... Что делать?
1) Дообучить модель добавив в датасет новые данные. Можно! Не ради же одного объекта, персонажа или концепта.. Слишком жирно будет..
2) Зафайнтюнить на новых данных. Хм, и потерять генерализацию?
3) Добвить новые зания в словарь модели, (пркатически) не трогая при этом сами веса! А вот это то, что нужно!
Ресерчеры из Университета Тель-Авива и NVIDIA решили это через старый добрый p-tuning. Работа получила имя An Image is Worth One Word (привет, VIT).
Взяв ~5 картинок они пустили градиенты
— Через 1000 шагов, тихо на денойзинге
— Через юнет и кросс-аттеншен
— Через языковой трансформер
— Прямо на эмбеддинг слой, так где находится токин с <этим> Смотри картинку к посту.
По факту это обыкновенный p-tuning, адаптированный под Imagen/Glide/LatenDiffusion модели.
Сегодня ребята адпатиорвали модель под Стебель! Так что если вы хотели генерить стеблем <Это>, то самое время!
Доступны 2 колаба:
1) для p-tuning'а стебля под <ЭТО>
2) для инференса, чтобы генерить <ЭТО>
Я сгенерировал игрушиченую машинку в стиле кота из примеров. Действительно запоминает.
📇 project
📄 paper
💻 code
🔮 train colab
👁 inference colab
@neural
Добавление новых объектов и концептов через p-tuning стало возможно в Стебле Диффузии!
Давайте представим ситуацию:
— Вы обучили огромную Text2Image модель на 1B данных
— Она умеет почти все, но не ЭТО! Время идет вперед и выходит фильм или игра, и новый сеттинг и новых персонажей сеть не знает, так как на момент тренировки этих данных в интернете просто не было
Сеть <это> не умеет, а генерировать <это> нужно... Что делать?
1) Дообучить модель добавив в датасет новые данные. Можно! Не ради же одного объекта, персонажа или концепта.. Слишком жирно будет..
2) Зафайнтюнить на новых данных. Хм, и потерять генерализацию?
3) Добвить новые зания в словарь модели, (пркатически) не трогая при этом сами веса! А вот это то, что нужно!
Ресерчеры из Университета Тель-Авива и NVIDIA решили это через старый добрый p-tuning. Работа получила имя An Image is Worth One Word (привет, VIT).
Взяв ~5 картинок они пустили градиенты
— Через 1000 шагов, тихо на денойзинге
— Через юнет и кросс-аттеншен
— Через языковой трансформер
— Прямо на эмбеддинг слой, так где находится токин с <этим> Смотри картинку к посту.
По факту это обыкновенный p-tuning, адаптированный под Imagen/Glide/LatenDiffusion модели.
Сегодня ребята адпатиорвали модель под Стебель! Так что если вы хотели генерить стеблем <Это>, то самое время!
Доступны 2 колаба:
1) для p-tuning'а стебля под <ЭТО>
2) для инференса, чтобы генерить <ЭТО>
Я сгенерировал игрушиченую машинку в стиле кота из примеров. Действительно запоминает.
📇 project
📄 paper
💻 code
🔮 train colab
👁 inference colab
@neural
This media is not supported in your browser
VIEW IN TELEGRAM
🎨 OpenAI внедрили в DALL·E 2 "Outpainting"
Только что пришло письмо от OpenAI, где говорится, чтоиз-за опенсорса stable diffusion они решили внедрить Outpainting, про который я подробно писал весной, в интерфейс DALL-E 2.
Outpainting позволяет генерировать изображения любого размера. Но в отличие от гибкого разрешения в диффузионных UNet'ах с вниманием, Outpainting предполагает пошаговую генерацию со всеми своими плюсам и минусами.
+ Поэтапная, контролируемая генерация деталей и объектов
- Локальное рецептивное поле
Outpainting — это продолжение генерации изображения за его первоначальными границами. Outpainting добавляет визуальные элементы, развивая генерацию в новых направлениях, основываясь на вашем текстовом описании.
Это позволяет начать ваше полотно в одном стиле, а закончить в другом, уточнять элементы и менять их!
Outpainting — это Inpainting без привязки исходному разрешению..
📇 blog post
🥑 DALL-E 2 Editor
Только что пришло письмо от OpenAI, где говорится, что
Outpainting позволяет генерировать изображения любого размера. Но в отличие от гибкого разрешения в диффузионных UNet'ах с вниманием, Outpainting предполагает пошаговую генерацию со всеми своими плюсам и минусами.
+ Поэтапная, контролируемая генерация деталей и объектов
- Локальное рецептивное поле
Outpainting — это продолжение генерации изображения за его первоначальными границами. Outpainting добавляет визуальные элементы, развивая генерацию в новых направлениях, основываясь на вашем текстовом описании.
Это позволяет начать ваше полотно в одном стиле, а закончить в другом, уточнять элементы и менять их!
Outpainting — это Inpainting без привязки исходному разрешению..
📇 blog post
🥑 DALL-E 2 Editor
Multimodal Lecture Presentations (MLP)
Вышел набор данных для тестирования возможностей моделей машинного обучения в мультимодальном понимании образовательного контента. Для проверки понимания мультимодальной информации на слайдах лекций представлены две исследовательские задачи, которые должны стать первым шагом к разработке ИИ, способного объяснять и иллюстрировать слайды лекций: автоматический поиск (1) устных объяснений к рисунку (Figure-to-Text) и (2) иллюстраций, сопровождающих устное объяснение (Text-to-Figure).
Идеально, мне как раз не хватает рук и людей делать лекции, заменим ка мы их нейроночкой через пару лет 😀
📖 Датасет
Вышел набор данных для тестирования возможностей моделей машинного обучения в мультимодальном понимании образовательного контента. Для проверки понимания мультимодальной информации на слайдах лекций представлены две исследовательские задачи, которые должны стать первым шагом к разработке ИИ, способного объяснять и иллюстрировать слайды лекций: автоматический поиск (1) устных объяснений к рисунку (Figure-to-Text) и (2) иллюстраций, сопровождающих устное объяснение (Text-to-Figure).
Идеально, мне как раз не хватает рук и людей делать лекции, заменим ка мы их нейроночкой через пару лет 😀
📖 Датасет
stablediffusion-infinity – нейросеть, схожая по функциональности на DALL-E 2, которая может дорисовывать существующие иллюстрации, используя свободную Stable Diffusion
⤷ Ссылка на проект
GitHub | #Interesting
⤷ Ссылка на проект
GitHub | #Interesting
Forwarded from Машинное обучение RU
🧠 GraphSAGE: как масштабировать графовые нейронные сети до миллиардов соединений
Что общего между UberEats и Pinterest? Их рекомендательные системы работают с помощью GraphSAGE в огромных масштабах с миллионами и миллиардами узлов и ребер.
Pinterest разработал собственную версию под названием PinSAGE, чтобы рекомендовать пользователям наиболее актуальные изображения (пины). Граф этого ресурса содержит 18 миллиардов соединений и 3 миллиарда узлов.
UberEats также использует модифицированную версию GraphSAGE, чтобы предлагать блюда, рестораны и различные виды кухни. Эта платформа утверждает, что поддерживает более 600 000 ресторанов и 66 миллионов пользователей.
В этом руководстве мы используем набор данных с 20 тысячами узлов, а не миллиардами, из-за ограничений Google Colab. В процессе изучения будем придерживаться архитектуры оригинального GraphSAGE, а также затронем некоторые интересные функции из предыдущих вариантов.
➡️ Читать дальше
⚙️ Код
🗒 Dataset
@machinelearning_ru
Что общего между UberEats и Pinterest? Их рекомендательные системы работают с помощью GraphSAGE в огромных масштабах с миллионами и миллиардами узлов и ребер.
Pinterest разработал собственную версию под названием PinSAGE, чтобы рекомендовать пользователям наиболее актуальные изображения (пины). Граф этого ресурса содержит 18 миллиардов соединений и 3 миллиарда узлов.
UberEats также использует модифицированную версию GraphSAGE, чтобы предлагать блюда, рестораны и различные виды кухни. Эта платформа утверждает, что поддерживает более 600 000 ресторанов и 66 миллионов пользователей.
В этом руководстве мы используем набор данных с 20 тысячами узлов, а не миллиардами, из-за ограничений Google Colab. В процессе изучения будем придерживаться архитектуры оригинального GraphSAGE, а также затронем некоторые интересные функции из предыдущих вариантов.
➡️ Читать дальше
⚙️ Код
🗒 Dataset
@machinelearning_ru
Суперпозиция в нейронных сетях
Очень крутая статья про суперпозицию в нейронных сетях. Оказывается, нейросети могут кодировать больше информации, чем напрямую в эмбеингах. И они достигают это с помощью суперпозиции (которая пока не ясно что именно, но ребята нашли две подходящие теории в математике). Лучше полистайте их картинки и станет яснее.
Статья
Очень крутая статья про суперпозицию в нейронных сетях. Оказывается, нейросети могут кодировать больше информации, чем напрямую в эмбеингах. И они достигают это с помощью суперпозиции (которая пока не ясно что именно, но ребята нашли две подходящие теории в математике). Лучше полистайте их картинки и станет яснее.
Статья
Слева направо, сверху вниз: Леди Гага, Борис Джонсон, Владимир Путин, Ангела Меркель, Дональд Трамп, Платон.
Text2Pokemon
Превратите любого в покемона с помощью этой арт-модели с искусственным интеллектом.
За основу взяли Stable Diffusion и добавили несколько ключей, которые показывают только мультяшных персонажей.
• Попробовать
@neural
Text2Pokemon
Превратите любого в покемона с помощью этой арт-модели с искусственным интеллектом.
За основу взяли Stable Diffusion и добавили несколько ключей, которые показывают только мультяшных персонажей.
• Попробовать
@neural
SReC — нейронная сеть для сжатия изображения без потери качества.
SReC рассматривает сжатие без потерь как проблему сверхвысокого разрешения и применяет нейронные сети для сжатия изображений. SReC может достичь самых современныхq коэффициентов сжатия больших наборов данных с практичным временем выполнения.
* Обучение, сжатие и распаковка полностью поддерживаются и имеют открытый исходный код :0
Фотография сверху - пример сжатия изображения без потери качества(тг съел качество, поэтому я оставил ссылку).
Документация и примеры кода здесь :3
SReC рассматривает сжатие без потерь как проблему сверхвысокого разрешения и применяет нейронные сети для сжатия изображений. SReC может достичь самых современныхq коэффициентов сжатия больших наборов данных с практичным временем выполнения.
* Обучение, сжатие и распаковка полностью поддерживаются и имеют открытый исходный код :0
Фотография сверху - пример сжатия изображения без потери качества(тг съел качество, поэтому я оставил ссылку).
Документация и примеры кода здесь :3
Разработчики Meta представили нейросеть Make-a-Video: она генерирует короткие ролики по заданному описанию.
ИИ-программа только в начале разработки, поэтому видео выходят в низком качестве, без звука и длинной не больше 5 секунд.
• Подробнее
ИИ-программа только в начале разработки, поэтому видео выходят в низком качестве, без звука и длинной не больше 5 секунд.
• Подробнее
Unstable-Fusion – полноценное приложение на основе Stable Diffusion с функциями inpainting, img2img и многим другим
Подерживает запуск как локально, так и с помощью серверов colab
⤷ Ссылка на проект
| #Interesting #AI #Useful
Подерживает запуск как локально, так и с помощью серверов colab
⤷ Ссылка на проект
| #Interesting #AI #Useful
This media is not supported in your browser
VIEW IN TELEGRAM
VToonify: Controllable High-Resolution Portrait Video Style Transfer
VToonify: управляемая передача стиля портретного видео с высоким разрешением теперь так же доступна для тестов в веб.
• Попробовать
• GitHub
VToonify: управляемая передача стиля портретного видео с высоким разрешением теперь так же доступна для тестов в веб.
• Попробовать
• GitHub
This media is not supported in your browser
VIEW IN TELEGRAM
Pulse – инструмент, который превращает пиксилезированные фотографии лица в картинки с высоким качеством
Получив входное изображение с низким разрешением, PULSE ищет в выходных данных генеративной модели (StyleGAN) изображения с высоким разрешением, которые перцептивно схожи с входной картинкой
#Python #AI #Interesting
Получив входное изображение с низким разрешением, PULSE ищет в выходных данных генеративной модели (StyleGAN) изображения с высоким разрешением, которые перцептивно схожи с входной картинкой
#Python #AI #Interesting