Telegram Web Link
Charl-E: Text2image on your Mac

Stable Diffusion завернули в удобное оффлайн приложение для Mac с M1/M2. Теперь можно генерить картинки у себя на ноутбуке.

App, website
👍31
Forwarded from Kali Novskaya (Tatiana Shavrina)
No language left behind
#nlp #про_nlp

Достаточно тихо прошел важный релиз: Allen AI выложили датасет, воспроизведенный по одному из самых больших проектов по переводу: No language left behind

Суммарно 450Gb параллельных примеров доступно под открытой лицензией для 200 языков!

Статья: https://arxiv.org/pdf/2207.04672.pdf

Релиз данных от Allen AI: https://huggingface.co/datasets/allenai/nllb
👍32
Forwarded from AI для Всех
Dall-E стал доступным для всех

OpenAI только что отменили waitlist на доступ к Dall-E 2. Просто регаетесь и пользуетесь бесплатными кредитами
👍31👎2
Нашёл максимально компактный обзор всех RL-подходов (тык)
👍47
This media is not supported in your browser
VIEW IN TELEGRAM
FusionDream: Text-to-3D (by Google)

Помните Dream Fields? Это была первая попытка zero-shot генерации 3D объектов по тексту. Недавно те же самые рисёрчеры сильно апгрейднули эту штуку с помощью Imagen. Качество невероятное!

Как и раньше, здесь тренируют NeRF, но вместо обучения по эмббеддингам CLIP используют text2image диффузию в качестве источника информации для лосса.

Статья, блог, GitHub

P.S. увидел тут
👍19
This media is not supported in your browser
VIEW IN TELEGRAM
SayCan: как заставить языковую модель принести тебе колу (by Google)

Идея довольно простая: нужно взять робота, который уже умеет выполнять примитивные команды (найти, поднять, положить и тд), а в качестве мозгов для планирования взять языковую модель (PaLM) со специальным step-by-step промптом:

«How would you {TASK}? I would 1. ..., 2, …»

Дальше допустимые команды для робота ранжируются по перплексии и классификатором успеха (обученным с помощью RL). Таким образом, получилось заставить робота решать довольно сложные и многоступенчатые задачи.

Статья, блог, GitHub
👍44
🔥Grokking наконец обнаружили на нормальных датасетах! (by MIT)

И для этого даже не пришлось тратить миллиарды GPU-часов и покупать атомную электростанцию.

Чтобы воспроизвести эффект генерализации после оверфиттинга, нужно было всего лишь увеличить норму весов модели при инициализации!

Авторы описывают grokking через простую идею нормированного ландшафта лоссов. Предложенная теория отлично описывает не только этот эффект, но и double descent, и связь weight decay со временем обучения.

Статья

P.S. про grokking я рассказывал тут.
👍80
This media is not supported in your browser
VIEW IN TELEGRAM
Imagen Video

У гугла получилось адаптировать Imagen для генерации видео!

Авторам пришлось немного переделать UNet и подмешать 14М пар text-video к датасету LAION, причём картинки воспринимаются моделью тоже как видео, но длиной в 1 кадр. В качестве энкодера используется замороженный T5-XXL.

В отличие от предыдущих работ, здесь даже получилось сгенерировать анимированный текст.

Статья, блог
👍37👎1
Chain-of-Thought: дайте GPT поразмышлять перед ответом! (by Google)

Большинство промптов для zero-shot нацелены на немедленное получение ответа, но оказалось, если дать языковой модели «поразмышлять вслух» над задачей, то вероятность правильного решения значительно повышается.

Теперь это кажется чертовски логичным! Ведь требовать ответ сразу без возможности подумать это слишком жестоко даже для людей 😅

Добавление простого «Lets think step-by-step» промпта позволило языковой модели PaLM обойти человека на 10 из 23 задач Big-Bench! Думаю, что chain-of-thought подход теперь должен стать общепринятым.

А ещё Google выпустил мультиязычную модель Flan-T5-xxl, которая дополнительно затюнена под этот промпт + лосс из UL2.

P.S. На скриншоте результат генерации для GPT-j.

Статья
👍52
FusionBrain Challenge 2.0

Мои друзья из AIRI запустили соревнование по созданию универсальной multi-task модели, которая должна решать любую задачу в image&text доменах. Причём переключение задач должно осуществляться текстом (как в OFA).

Есть очень сильный бейзлайн на основе RUDOLPH-2.7B, который можно немного(?) дотюнить и выиграть 1М ₽.

Дедлайн 13 ноября.

Сайт, GitHub, модель
👍19
Существуют ли задачи, которые большие языковые модели решают хуже чем маленькие?

По результатам Inverse Scaling Prize было найдено 4 типа задач, для которых перформанс ухудшался по мере роста моделей:
1. Вопросы с отрицанием.
2. Вопросы с ложной подсказкой.
3. Повторение искажённых цитат.
4. Вопросы со странной математикой.

Для ребят из Google этот результат показался подозрительным и они решили увеличить количество параметров ещё больше — в результате обнаружился U-shaped scaling law — точность моделей, по мере их роста, падала только в начале, а затем начинала повышаться.

Возможно, это из-за того, что каждая из тех задач на самом деле состоит из двух частей — настоящей и отвлекающей (ложной). И только гигантские модели могут правильно в этом разобраться, а модели поменьше ошибочно фокусируются на ложной задаче.

Ещё оказалось, что использование подхода Chain-of-Thought тоже позволяет предотвратить падение качества, а иногда даже получить 100% accuracy 💁‍♂️

Статья
👍33
🔥Embedding Diffusion for Text Generation (by DeepMind)

Наконец у кого-то получилось применить диффузию для генерации текста.

В качестве базовой модели используется оригинальный трансформер, который учится денойзить эмбеддинги токенов (которые взяли из BERT). Дальше эти эмбеддинги отображаются в логиты и таким образом генерируется текст — сразу весь, целиком.

А ещё тут смогли адаптировать метод classifier-free guidance для заполнения больших пропусков внутри текста.

P.S. на картинке процесс текстовой диффузии.

Статья
👍43
🔥Draw things: диффузия на iPhone!

Stable Diffusion теперь можно скачать из AppStore! Работает полностью оффлайн и очень быстро.

Сайт, AppStore
👍30
Forwarded from эйай ньюз
OneFormer: One Transformer to Rule Universal Image Segmentation

Нам в компьютерном зрении давно нужен такой трансформер, который порешает все задачи за раз. Вот ступенька в этом направлении. OneFormer – это первый трансформер, который умеет решать три разных задачи сегментации : semantic, instance и panoptic segmentation.

Причем, он достигает SOTA на все трёх! Раньше нужно было тренировать три разные сетки для этого, а теперь – всего один OneFormer.

Чтобы указать модели, какую задачу сейчас решать, нужно просто подать нужный токен на вход. Удобненько.

❱❱ Код
❱❱ Arxiv

@ai_newz
👍23👎1
MinD-Vis: диффузия для чтения мыслей

Представлена диффузионная модель, которая умеет декодировать то, что видит человек по его мозговой активности (fMRI).

Сначала авторы обучили self-supervised модель для получения универсальных эмбеддингов мозговой активности (одинаковых для разных людей). Далее они взяли предобученную Latent Diffusion и добавили к ней cross-attention на эти мысленные репрезентации. После короткого файнтюна на 1.5к парах картинка-fMRI модель смогла полноценно декодировать то, что видит перед собой человек!

Данные для обучения и код выложены в открытый доступ, веса моделей дают по запросу.

Статья, GitHub, блог
👍127
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Galactica general-purpose scientific language model

Meta AI и Paperswithcode зарелизили первую 120B модель, которая обучена на научных текстах (статьи, учебники и тд.).

Сейчас быстро все дипломные работы допишутся🌚.

Galactica умеет генерить много интересного – например, научные тексты, лекции, формулы в Latex, конспекты, и даже Juputer ноутбуки!

Модель полностью в опен-соурсе с весами и кодом.

❱❱ Galactica.org
❱❱ Код и веса

@ai_newz
👍38
Kandinsky 2.0: первая мультиязычная диффузия! (by AIRI, SberAI, SberDevices)

Встречайте первую text2image модель для более чем 100 языков! Основано на архитектуре Latent Diffusion + несколько мультиязычных текстовых энкодеров (XLMR-clip, mT5). Код и веса уже доступны!

P.S. Я тоже в этом немного поучаствовал и даже написал статью на хабр 😊

Хабр, HuggingFace, GitHub, демо
👍88👎3
Forwarded from Complete AI (Andrey Kuznetsov)
Совсем недавно вышла бета версия библиотеки TorchMultimodal (ссылка), в которой авторы постарались собрать все лучшие техники и фичи обучения SoTA мультизадачных мультимодальных (М2) архитектур:
слои, обработчики для разных модальностей, лосс функции (Contrastive Loss, Codebook слои, Shifted-window Attention, Components for CLIP, Multimodal GPT, Multi Head Attention)
SoTA архитектуры (FLAVA, DETR, …)
скрипты обучения и инференса
примеры использования

Всё это позволит ставить быстрые и удобные эксперименты для обучения М2 моделей.

В довесок авторы сделали интересный пост о распределённом обучении (ссылка), где на примере модели FLAVA (мультимодальный late fusion трансформер) показали, как можно её масштабировать с 350M параметров до 10B. Рассмотрели два ключевых подхода:
1. Distributed Data Parallel - нарезка датасета по воркерам, градиенты синхронизируются ДО обновления весов, по сути вся модель «реплицируется»
2. Fully Sharded Data Parallel - параметры, градиенты и состояния оптимизатора нарезаются (шардируются) по воркерам (а-ля ZeRO-3), перед forward и backward propagation шарды объединяются.

Сравнение производительности (среднее число сэмплов в секунду за исключением первых 100 на warmup) можно оценить на графике.


github
статья про TorchMultimodal
статья про Scaling Multimodal Foundation Models

@complete_ai
👍24
ChatGPT — чатбот от OpenAI

В основе лежит GPT-3, затюненная аналогичным instructGPT способом.

Сначала авторы разметили синтетические данные для обучения ранжировщика ответов, а затем использовали его как reward модель для RL алгоритма PPO.

Поболтать с ChatGPT можно уже сейчас на их сайте, она даже понимает русский язык (см картинку). Надеюсь, скоро будет больше подробностей, а сама модель будет доступна хотя бы через API.

P.S. А это точно не GPT-4? Слишком уж круто работает.

блог, demo
👍34
2025/07/09 14:48:21
Back to Top
HTML Embed Code: