AbstractDL 161 - Telegram Web

Telegram Web Link

Flamingo: a Visual Language Model (by DeepMind)

На мой взгляд, это самая многообещающая работа за последнее время. Авторы представили модель, которая способна понимать смесь картинок и текста. Это позволяет решать кучу новых задач во few-shot режиме и даже вести визуальный диалог (см. картинку).

Идея довольно оригинальная — авторы предлагают вставить внутрь замороженной языковой модели (Chinchilla) дополнительные gated cross-attention блоки, которые будут показывать ей фичи от предобученного и замороженного визуального энкодера. А обучаются здесь ТОЛЬКО эти новые cross-attention блоки. В итоге получается языковая модель, с дополнительным вниманием на визуальные фичи картинок, вставленных в текст.

Для обучения собрали новый датасет — MultiModal MassiveWeb (M3W), состоящий из 43М веб-страниц, где картинки и текст идут вперемешку, а ещё к нему подмешивают датасет ALIGN.

Статья, GitHub

👍28

3.41K views15:52

Imagen: Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding (by Google)

Исследователи из Google Research сделали, казалось бы, очевидную вещь — приделали замороженную языковую модель (T5) в качестве энкодера текста в text2image пайплайне.

И — о, чудо! Генерация картинок стала ещё лучше понимать текст! И вообще, выяснилось, что масштабирование текстового энкодера гораздо важнее чем увеличение размера генератора картинок. То есть в text2image всё-таки самая сложная часть — это text.

Помимо замены текстового энкодера авторы немного улучшили UNet в диффузии и представили «dynamic threasholding» — чуть более умный способ ограничения значений каждого пикселя картинки (это добавляет фотореализм).

А ещё, чтобы в дальнейшем было проще сравнивать text2image модели, авторы представили крошечный датасет drawbench из 200 сложных для генерации промптов («лошадь едет на человеке» и тд.)

Статья, блог, GitHub, colab, DrawBench

👍26

3.82K views15:53

30-миллиардная модель OPT теперь доступна на Hugging Face!

Можно в несколько строк запустить самую большую и умную из доступных на сегодня языковых моделей 🤗

Статья, GitHub, HuggingFace

👍48

14.5K views15:26

Forwarded from Derp Learning

Удобный интерфейс к text-image датасетам LAION 400m и 5B (400млн и 5млрд картинок соответственно)

Вводите текстовый запрос, CLIP находит нужные картинки, качаете табличку со ссылками, скачиваете и вуаля - датасет готов.

Тык

👍19👎1

3.67K views14:40

GPT-3 умеет в ML!

Кто-то до сих пор считает, что все эти языковые модели умеют только запоминать и воспроизводить увиденное во время обучения?

Рад вас расстроить — они умеют гораздо больше! Тут попробовали во few-shot режиме скормить GPT-3 данные из Iris датасета, и она очень неплохо справилась — точность 95%! А ещё, она умеет в нелинейную регрессию (см. картинку).

Всё-таки языковые модели могут находить за токенами скрытый смысл 💁‍♂️

Блог, GitHub

👍32

4.31K viewsedited 14:40

🔥Яндекс выложил YaLM 100B

Cейчас это крупнейшая GPT-подобная нейросеть в свободном доступе. Она обучалась 65 дней на 1,7 ТБ текстов на 800 видеокартах A100. На хабре можно почитать подробности её обучения.

GitHub, хабр

👍59👎3

4.94K views08:59

Недообученные нейросети — лучшие feature экстракторы

К удивительному выводу пришли две независимые группы исследователей из Google и Baidu — чем дольше учить нейронную сеть, тем хуже выразительная способность её фичей. То есть, не смотря на рост top-1 accuracy по мере обучения, качество её репрезентаций в какой-то момент начинает падать!

VGG и AlexNet давно известны тем, что их фичи отлично подходят для оценки perceptual similarity, но оказалось, что и все современные SOTA модели тоже подходят — просто надо брать не самый последний чекпоинт.

Более того, похоже, что для down-stream задач тоже лучше использовать эмбеддинги от недообученных моделей.

P.S. Проблема в том, что в какой-то момент модель становится настолько умной, что её фичи только она сама и понимает 🤷‍♂️

статья1, статья2

👍55💯1

12.5K views11:09

This media is not supported in your browser

VIEW IN TELEGRAM

🔥В OpenAI научили нейронку играть в майнкрафт по видео из интернета

Их модель демонстрирует human-level перформанс и даже сама научилась создавать алмазную кирку! А для её создания нужно как минимум 24 тысячи игровых действий 🤯

Step-by-step:
1. Нанять несколько человек и разметить 100 часов игры (нажатия клавиш и движение мышки). Это обошлось всего в 2к$.
2. Обучить на этих данных модель для разметки новых видео.
3. Разметить в тысячу раз больше данных с помощью этой модели.
4. Обучить GPT-like архитектуру, которая по кадрам предсказывает дальнейшие действия игрока (behavioural cloning).
5. Зафайнтюнить эту модель при помощи RL (ppg), где reward даётся за крафтинг новых предметов.

Для борьбы с catastrophic forgetting они добавили KL лосс между старыми весами и новыми — это в несколько раз улучшило результат.

P.S. Вопреки традициям, OpenAI выложили и код и веса моделей! Датасеты тоже обещают скоро опубликовать.

Статья, блог, GitHub

👍44

5.49K views11:11

Typical sampling: идеальный метод генерации текста

Языковые модели (например GPT) предсказывают распределение вероятностей следующего токена, но способов генерации текста из этих распределений очень много и у всех свои недостатки — зацикленность, скучность и даже «галлюцинации».

Оказалось, что главная проблема всех прежних подходов в том, что они ориентировались на перплексию текста и вероятность токенов, а нужно было на условную энтропию — это следует из информационной теории речи. Новый подход позволяет генерировать гораздо более связный, интересный и «человеческий» текст.

Но самое крутое — этот метод уже интегрирован в transformers! Нужно всего лишь добавить параметр генерации typical_p. Чем ниже этот параметр, тем более knowledgeable будет текст, а чем выше, тем более интересным и непредсказуемым.

Подробнее можно почитать тут.

Статья, GitHub

👍44👎3

5.5K viewsedited 17:01

This media is not supported in your browser

VIEW IN TELEGRAM

Вау! Посмотрите как умеет DALL·E 2! А это всего лишь повторяющийся инпейнтинг типа «zoom-out». То есть сначала по тексту генерируется картинка, а потом несколько раз достраивается её продолжение.

Автор: @too_motion

👍87

7.34K views16:30

Forwarded from AI для Всех

Мета выпустила переводчик на 200 языков.

Зацените новый прорыв Меты в области машинного перевода, о котором только что объявил Марк Цукерберг. Они создали и выложили в открытый доступ модель, с громким названием No language left behind (Ни один язык не останется за бортом), которая переводит с 200 различных языков.

Методы из этой работы были применены для улучшения переводов на Facebook, Instagram и даже Wikipedia.

📖 Статья
🗽 Код

👍28

4.05K views15:18

Language Modeling with Pixels

А что будет, если учить нейронную сеть понимать текст по скриншотам? Оказалось, что такая модель будет работать ничуть не хуже, чем BERT, и, к тому же, ещё и понимать мультсимвольный шифр:
ᗪ🝗🝗尸㇄🝗闩尺𝓝讠𝓝Ꮆ.

Авторы предложили вместо дискретных токенов предсказывать пиксели буквенных символов. Подход очень похож на смесь BERT и ViT-MAE — сначала обучающие тексты рендерятся в изображение, а затем маскируются и восстанавливаются разные его куски. Этот подход позволил избавиться от так называемого vocabulary bottleneck — то есть нет необходимости хранить огромное количество эмбеддингов для десятков тысяч токенов и вычислять дорогостоящий софтмакс.

В итоге, модель демонстрирует сравнимый с бертом перформанс и гораздо более устойчива к adversarial атакам.

P.S. На картинке показана работа промежуточного чекпоинта модели, когда она научилась декодить замаскированный текст, но ещё не до конца.

Статья, GitHub, Hugging Face

👍45

7.59K viewsedited 12:45

An Image is Worth One Word: превращение картинок в псевдо-слова для использования в text2image

Некоторые концепты сложно выразить существующими словами, их проще показать на примерах. Поэтому в Nvidia предложили использовать гениальный и простой трюк — превращать картинки в «псевдо-слова», а точнее, находить эмбеддинг несуществующего токена (p-tuning), который будет соответствовать требуемому визуальному концепту. Дальше это «псевдо-слово» можно вставлять в текст и генерировать сложные композиции (см. картинку).

Такой техникой можно сгенерировать изображение по тексту:
«A и B держат в руках С в стиле D»,
где A,B,C,D — это псевдотокены с заранее вычисленными по примерам картинок эмбеддингами.

Самое крутое здесь то, что не нужно ничего обучать, можно взять готовую text2image модель (Latent Diffusion) и итеративно вычислить эмбеддинги псевдотокенов для нужных картинок.

Статья, блог, GitHub

P.S. Новость подглядел тут.

👍54

11.5K viewsedited 18:28

BlenderBot 3: лучший в мире чатбот (by Meta)

Встречайте третью версию чатбота от лидера в сфере Conversational AI! В нём собраны все последние разработки фейсбука:
- Умение гуглить.
- Долговременная память фактов о себе и юзере.
- Safety (не грубит, к суициду не приглашает).

Представлены сразу три версии: 3B, 30B, 175B. Последние две основаны на языковой модели OPT. Веса и код выложены в открытый доступ, поболтать с ботом можно тут.

Статья, GitHub, блог, бот

👍33

12K views17:53

Forwarded from эйай ньюз

Multimodal Learning with Transformers: A Survey

Все любят миксы 😁, особенно миксы разных модальностей при обучении сетей, например текст и фото, видео и аудио и т.д.. Из комбинации сигналов разных модальностей зачастую можно получить более богатый информацией сигнал.

Трансформеры как раз хорошо справляются с задачей моделирования кросс-модальных зависимостей.

В этой свежей статье-ревью авторы провели обзор трансформеров для мультимодаьных данных. От базовых принципов, до более сложных моделей для конкретных задач. Довольно полезная папира.

❱❱ PDF

@ai_newz

👍18

4.5K views12:33

🔥BEiT-3: Image as a Foreign Language (by Microsoft)

Представлена новая мультимодальная Foundation модель, которая побила сразу 12 рекордов! (см. картинку)

Секрет успеха прост — нужно токенизировать картинки при помощи VQ-VAE и интерпретировать визуальные токены как текст на иностранном языке (авторы назвали его «Imglish»), а пары картинка-текст превращаются в параллельные предложения. Дальше всё это обучается на куче картинок, текстов и их парах через обычный MLM (как BERT).

Примечательно, что для обучения использовались только открытые данные.

Статья, GitHub

👍41

6.86K views13:52

Мудрость древнего Китая и щепотка нейронной магии — встречайте Нейро Конфуция!

Вы уже не ждали, а я доделал замену старому чатботу. Теперь снова есть с кем поболтать 💁‍♂️

@neural_chat_bot

👍75👎3

28.2K views20:19

Forwarded from Соне нравится (или нет)

This media is not supported in your browser

VIEW IN TELEGRAM

Диффузионные модели начинают занимать лидирующую позицию и в задаче Motion Generation.

MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model

Авторы данного подхода решили использовать свойство широкой вариативности и высокого качества генерации у диффузионных моделей для анимации движения человека с помощью текстовой подсказки и получили новую SOTA в данной задаче. Предыдущие решения не справлялись со сложным текстом или со стилизацией сгенерированных движений. Также авторы указали в своём пейпере, что их решение позволяет использовать очень точные текстовые описания, которые являлись сложными для предыдущих решений, потому что MotionDiffuse делит генерируемый скелет на верхнюю и нижнюю части. Поэтому можно получить качественных результат, к примеру, с помощью текста «a person is drinking water while walking» или «a person is walking and then running».

Но перейдём к более техническим деталям, которые заставляют это решение работать.
Скажу сразу, что многие идеи в пейпере переиспользуются из GLIDE, поэтому если вы не читали ещё пейпер про эту модель, то советую ознакомиться.

В MotionDiffuse вместо U-Net-подобной архитектуры был разработан Cross-Modality Linear Transformer, с помощью которого происходит генерация движений с произвольной длительностью, которая зависит от продолжительности генерируемого движения. Cross-Modality Linear Transformer подразумевает под собой обычный трансформер с энкодером и декодером, каждый блок такого трансфомера содержит: multi-head attention module (с residual connections) и feed-forward network (с тремя линейными преобразованиями и двумя GELU-слоями между ними). Для улучшения к обобщительной способности используются веса из CLIP для инициализации первых слоёв, которые зафризили и не обновляли в обучении.

Также были использованы Linear Self-attention для учёта связности анимации между кадрами и Linear Cross-attention для учёта текста в последовательности движения.

@sonya_aesthetics

👍18

4.44K views07:53

Diffusion Models: A Comprehensive Survey

Отличная обзорная статья с таксономией диффузионных моделей и всех видов сэмплирования. Тут даже есть сравнение диффузии с остальными генеративными подходами (см. картинку).

Статья

👍39👎1

9.57K views08:33

2025/07/10 11:41:01
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>