Telegram Web Link
🔥BEiT-3: Image as a Foreign Language (by Microsoft)

Представлена новая мультимодальная Foundation модель, которая побила сразу 12 рекордов! (см. картинку)

Секрет успеха прост — нужно токенизировать картинки при помощи VQ-VAE и интерпретировать визуальные токены как текст на иностранном языке (авторы назвали его «Imglish»), а пары картинка-текст превращаются в параллельные предложения. Дальше всё это обучается на куче картинок, текстов и их парах через обычный MLM (как BERT).

Примечательно, что для обучения использовались только открытые данные.

Статья, GitHub
machinelearning_interview - канал подготовит к собеседованию по машинному обучению, статисике ,алгоритмам и науке о данных.

golang_interview - Вопросы с настоящих Golang собеседований, помогут Вам получить успешно пройти интервью.

python_job_interview - здесь собраны все возможные вопросы и ответы с собеседований по Python.

ai_machinelearning_big_data - Мл, Наука о данных.
🤖🎨 ИИ для рисования: раскрываем секреты нейронного переноса стиля

Раскладываем по полочками, как «думает» нейронная сеть VGG-19, когда ей прилетает задача скопировать стиль художника из вида Homo sapiens.

➡️ Читать дальше
⚙️ Ноутбук на Kaggle
⚙️ Код
🧠 Нейронный алгоритм переноса стиля

@data_analysis_ml
Geo-heatmapгенератор интерактивных геотепловых карт из данных о местоположении Google

Это скрипт, который генерирует интерактивную геотепловую карту из данных истории местоположения Google с использованием Python, Folium и OpenStreetMap

Ссылка на проект

#Python #Generator

@neural
🚀 Про <ЭТО> или как генерить <Это>, если <Это> не включили в претрейн

Добавление новых объектов и концептов через p-tuning стало возможно в Стебле Диффузии
!

Давайте представим ситуацию:
— Вы обучили огромную Text2Image модель на 1B данных
— Она умеет почти все, но не ЭТО! Время идет вперед и выходит фильм или игра, и новый сеттинг и новых персонажей сеть не знает, так как на момент тренировки этих данных в интернете просто не было

Сеть <это> не умеет, а генерировать <это> нужно... Что делать?

1) Дообучить модель добавив в датасет новые данные. Можно! Не ради же одного объекта, персонажа или концепта.. Слишком жирно будет..

2) Зафайнтюнить на новых данных. Хм, и потерять генерализацию?

3) Добвить новые зания в словарь модели, (пркатически) не трогая при этом сами веса! А вот это то, что нужно!

Ресерчеры из Университета Тель-Авива и NVIDIA решили это через старый добрый p-tuning. Работа получила имя An Image is Worth One Word (привет, VIT).

Взяв ~5 картинок они пустили градиенты
— Через 1000 шагов, тихо на денойзинге
— Через юнет и кросс-аттеншен
— Через языковой трансформер
— Прямо на эмбеддинг слой, так где находится токин с <этим> Смотри картинку к посту.

По факту это обыкновенный p-tuning, адаптированный под Imagen/Glide/LatenDiffusion модели.

Сегодня ребята адпатиорвали модель под Стебель! Так что если вы хотели генерить стеблем <Это>, то самое время!

Доступны 2 колаба:
1) для p-tuning'а стебля под <ЭТО>
2) для инференса, чтобы генерить <ЭТО>

Я сгенерировал игрушиченую машинку в стиле кота из примеров. Действительно запоминает.

📇 project
📄 paper
💻 code
🔮 train colab
👁 inference colab

@neural
Stable-Craiyon

Пример - "Portrait of Walter White, in the style of a GTA V Cover art, digital art , 4k , highly detailed , trending on artstation"

• GitHub
• Colab
This media is not supported in your browser
VIEW IN TELEGRAM
🎨 OpenAI внедрили в DALL·E 2 "Outpainting"

Только что пришло письмо от OpenAI, где говорится, что из-за опенсорса stable diffusion они решили внедрить Outpainting, про который я подробно писал весной, в интерфейс DALL-E 2.

Outpainting позволяет генерировать изображения любого размера. Но в отличие от гибкого разрешения в диффузионных UNet'ах с вниманием, Outpainting предполагает пошаговую генерацию со всеми своими плюсам и минусами.

+ Поэтапная, контролируемая генерация деталей и объектов
- Локальное рецептивное поле

Outpainting — это продолжение генерации изображения за его первоначальными границами. Outpainting добавляет визуальные элементы, развивая генерацию в новых направлениях, основываясь на вашем текстовом описании.

Это позволяет начать ваше полотно в одном стиле, а закончить в другом, уточнять элементы и менять их!

Outpainting — это Inpainting без привязки исходному разрешению..

📇 blog post
🥑 DALL-E 2 Editor
Multimodal Lecture Presentations (MLP)

Вышел набор данных для тестирования возможностей моделей машинного обучения в мультимодальном понимании образовательного контента. Для проверки понимания мультимодальной информации на слайдах лекций представлены две исследовательские задачи, которые должны стать первым шагом к разработке ИИ, способного объяснять и иллюстрировать слайды лекций: автоматический поиск (1) устных объяснений к рисунку (Figure-to-Text) и (2) иллюстраций, сопровождающих устное объяснение (Text-to-Figure).

Идеально, мне как раз не хватает рук и людей делать лекции, заменим ка мы их нейроночкой через пару лет 😀

📖 Датасет
stablediffusion-infinity – нейросеть, схожая по функциональности на DALL-E 2, которая может дорисовывать существующие иллюстрации, используя свободную Stable Diffusion

Ссылка на проект

GitHub | #Interesting
🧠 GraphSAGE: как масштабировать графовые нейронные сети до миллиардов соединений

Что общего между UberEats и Pinterest? Их рекомендательные системы работают с помощью GraphSAGE в огромных масштабах с миллионами и миллиардами узлов и ребер.

Pinterest разработал собственную версию под названием PinSAGE, чтобы рекомендовать пользователям наиболее актуальные изображения (пины). Граф этого ресурса содержит 18 миллиардов соединений и 3 миллиарда узлов.
UberEats также использует модифицированную версию GraphSAGE, чтобы предлагать блюда, рестораны и различные виды кухни. Эта платформа утверждает, что поддерживает более 600 000 ресторанов и 66 миллионов пользователей.
В этом руководстве мы используем набор данных с 20 тысячами узлов, а не миллиардами, из-за ограничений Google Colab. В процессе изучения будем придерживаться архитектуры оригинального GraphSAGE, а также затронем некоторые интересные функции из предыдущих вариантов.

➡️ Читать дальше
⚙️ Код
🗒 Dataset

@machinelearning_ru
Суперпозиция в нейронных сетях

Очень крутая статья про суперпозицию в нейронных сетях. Оказывается, нейросети могут кодировать больше информации, чем напрямую в эмбеингах. И они достигают это с помощью суперпозиции (которая пока не ясно что именно, но ребята нашли две подходящие теории в математике). Лучше полистайте их картинки и станет яснее.

Статья
Слева направо, сверху вниз: Леди Гага, Борис Джонсон, Владимир Путин, Ангела Меркель, Дональд Трамп, Платон.

Text2Pokemon

Превратите любого в покемона с помощью этой арт-модели с искусственным интеллектом.
За основу взяли Stable Diffusion и добавили несколько ключей, которые показывают только мультяшных персонажей.

• Попробовать

@neural
SReC — нейронная сеть для сжатия изображения без потери качества.

SReC рассматривает сжатие без потерь как проблему сверхвысокого разрешения и применяет нейронные сети для сжатия изображений. SReC может достичь самых современныхq коэффициентов сжатия больших наборов данных с практичным временем выполнения.

* Обучение, сжатие и распаковка полностью поддерживаются и имеют открытый исходный код :0

Фотография сверху - пример сжатия изображения без потери качества(тг съел качество, поэтому я оставил ссылку).

Документация и примеры кода здесь :3
Разработчики Meta представили нейросеть Make-a-Video: она генерирует короткие ролики по заданному описанию.

ИИ-программа только в начале разработки, поэтому видео выходят в низком качестве, без звука и длинной не больше 5 секунд.

• Подробнее
Чё пацаны, аниме?

StableDiffusion обученный на аниме.

• Попробовать
• Colab
Unstable-Fusionполноценное приложение на основе Stable Diffusion с функциями inpainting, img2img и многим другим

Подерживает запуск как локально, так и с помощью серверов colab

Ссылка на проект

| #Interesting #AI #Useful
This media is not supported in your browser
VIEW IN TELEGRAM
Stable-Dreamfusion

Преобразование текста в 3D, основанное на StableDiffusion.

GitHub
Colab
This media is not supported in your browser
VIEW IN TELEGRAM
VToonify: Controllable High-Resolution Portrait Video Style Transfer

VToonify: управляемая передача стиля портретного видео с высоким разрешением теперь так же доступна для тестов в веб.

• Попробовать
• GitHub
This media is not supported in your browser
VIEW IN TELEGRAM
Pulse – инструмент, который превращает пиксилезированные фотографии лица в картинки с высоким качеством

Получив входное изображение с низким разрешением, PULSE ищет в выходных данных генеративной модели (StyleGAN) изображения с высоким разрешением, которые перцептивно схожи с входной картинкой

#Python #AI #Interesting
2025/07/12 19:15:00
Back to Top
HTML Embed Code: