🔥Kandinsky 2.1: новая опенсорсная диффузия!
Это гибрид DallE-2 и Latent Diffusion — сначала происходит диффузионное отображение текстового CLIP эмбеддинга в картиночный (как в DallE-2), а дальше из него с помощью латентной диффузии генерируется изображение. Также доступен режим смешивания картинок (благодаря клипу). Качество потрясающее! А веса и код уже в открытом доступе!
Статья, GitHub, хабр, бот
Это гибрид DallE-2 и Latent Diffusion — сначала происходит диффузионное отображение текстового CLIP эмбеддинга в картиночный (как в DallE-2), а дальше из него с помощью латентной диффузии генерируется изображение. Также доступен режим смешивания картинок (благодаря клипу). Качество потрясающее! А веса и код уже в открытом доступе!
Статья, GitHub, хабр, бот
👍68👎9
Forwarded from Mashkka про Data Science
🤗 FRED-T5 теперь на HuggingFace
Понедельник начинается с приятных сюрпризов, коллеги выложили веса новой языковой модели FRED-T5 на HuggingFace.
Эта модель показывает SOTA на RussianSuperGlue, а теперь все желающие могут попробовать ее в бою!
Для обучения FRED-T5 использовался подход на основе денойзеров из статьи Google UL2.
🔻Модели:
FRED-T5 1.7B
FRED-T5-large
Training details
👉 P.S. Кстати, ребята делают много интересного в области NLP и PLP. И пишут про это в TG, так что залетаем к ним в канал @nlpcoreteam!
Понедельник начинается с приятных сюрпризов, коллеги выложили веса новой языковой модели FRED-T5 на HuggingFace.
Эта модель показывает SOTA на RussianSuperGlue, а теперь все желающие могут попробовать ее в бою!
Для обучения FRED-T5 использовался подход на основе денойзеров из статьи Google UL2.
🔻Модели:
FRED-T5 1.7B
FRED-T5-large
Training details
👉 P.S. Кстати, ребята делают много интересного в области NLP и PLP. И пишут про это в TG, так что залетаем к ним в канал @nlpcoreteam!
👍32👎3
Segment Anything
Meta представила крутейшую и полностью открытую модель для сегментации изображений. Говорят, что она претендует на роль GPT в мире CV. Моя знакомая написала небольшой обзор со всеми подробностями про эту модель и её обучение. Читается довольно легко, а также там много картинок — поэтому рекомендую всем заглянуть!
Meta представила крутейшую и полностью открытую модель для сегментации изображений. Говорят, что она претендует на роль GPT в мире CV. Моя знакомая написала небольшой обзор со всеми подробностями про эту модель и её обучение. Читается довольно легко, а также там много картинок — поэтому рекомендую всем заглянуть!
Teletype
Разбор SAM (Segment Anything Model)
SAM — это модель от Meta AI, обученная на новом огромном датасете для сегментации изображений. Этот датасет содержит 11 млн картинок...
👍47
This media is not supported in your browser
VIEW IN TELEGRAM
Смотрите какую красоту сгенерировал с помощью Кандинского ☺️
А тем временем у нас уже больше 2М уникальных пользователей за неделю! Это даже быстрее чем у chatGPT.
А тем временем у нас уже больше 2М уникальных пользователей за неделю! Это даже быстрее чем у chatGPT.
👍96👎8
🔥MiniGPT-4: почти как GPT-4, но всего 13B параметров
Оказалось, если соединить LLaMA (Vicuna) и FROMAGe, то получится не только на 90% приблизиться к GPT-4, но и даже воспроизвести её визуальные навыки! При том, что тут обучается всего лишь один единственный линейный слой.
По сравнению с FROMAGe тут добавили Q-former и файнтюнинг на своём чистейшем визуально-диалоговом сете (3.5к примеров).
С помощью этой модели можно даже сгенерировать код сайта по одному лишь наброску! Код и веса есть в открытом доступе.
Статья, GitHub, датасет, блог
Оказалось, если соединить LLaMA (Vicuna) и FROMAGe, то получится не только на 90% приблизиться к GPT-4, но и даже воспроизвести её визуальные навыки! При том, что тут обучается всего лишь один единственный линейный слой.
По сравнению с FROMAGe тут добавили Q-former и файнтюнинг на своём чистейшем визуально-диалоговом сете (3.5к примеров).
С помощью этой модели можно даже сгенерировать код сайта по одному лишь наброску! Код и веса есть в открытом доступе.
Статья, GitHub, датасет, блог
👍118👎2
Visual Instruction Tuning: как нагенерить визуальные диалоги не обладая зрением (by Microsoft)
Это какое-то читерство! Совсем не обязательно видеть картинки, чтобы генерировать по ним сложные инструктивные диалоги — достаточно подать в ChatGPT их кэпшны и попросить позадавать вопросы в формате чатбота.
«Сделай вид, что ты видишь картинку и можешь ответить на все вопросы»
Потом обучаем на этих синтетических диалогах FROMAGe и готово! SOTA на нескольких бенчмарках!
Статья, GitHub, датасет, демо
Это какое-то читерство! Совсем не обязательно видеть картинки, чтобы генерировать по ним сложные инструктивные диалоги — достаточно подать в ChatGPT их кэпшны и попросить позадавать вопросы в формате чатбота.
«Сделай вид, что ты видишь картинку и можешь ответить на все вопросы»
Потом обучаем на этих синтетических диалогах FROMAGe и готово! SOTA на нескольких бенчмарках!
Статья, GitHub, датасет, демо
👍43👎2
Дропаут ускоряет обучение глубоких моделей (by META)
Раньше считалось, что с дропаутом лосс наоборот падает медленнее, и это своего рода цена за спасение от переобучения — но оказалось, что это не так.
Eсли применять дропаут только в самом начале обучения, а потом отключать, то можно не только спастись от оверфиттинга, но и ускорить сходимость модели!
Это позволяет лучше синхронизировать градиенты на large-scale датасетах, что приводит к стабильному long-term выигрышу на всех архитектурах.
Статья, GitHub
Раньше считалось, что с дропаутом лосс наоборот падает медленнее, и это своего рода цена за спасение от переобучения — но оказалось, что это не так.
Eсли применять дропаут только в самом начале обучения, а потом отключать, то можно не только спастись от оверфиттинга, но и ускорить сходимость модели!
Это позволяет лучше синхронизировать градиенты на large-scale датасетах, что приводит к стабильному long-term выигрышу на всех архитектурах.
Статья, GitHub
👍123
Почему Adam иногда взрывается при обучении больших LM? (by META)
Очень тяжело учить гигантские языковые модели, к примеру, PaLM приходилось перезапускать десятки раз! И откатывать модель на сотни батчей назад из-за возникающих всплесков перплексии. Чтобы найти причины такой нестабильности, авторы провели кучу экспериментов и даже подвели теорию под всё это.
Главную вину возложили на оптимизатор Adam — оказалось, что при обучении больших моделей (от 60B параметров) возникает корреляция градиентов между разными степами. Это нарушает условия Центральной Предельной Теоремы, из-за чего распределение апдейтов весов становится бимодальным (см. картинку), а такие апдейты почти всегда ортогональны истинному направлению оптимизации. Именно это движение «вбок» и приводит к взрыву.
В конце статьи предлагается несколько способов как этого избежать, но единственный надёжный — откат модели на несколько шагов назад.
Статья
Очень тяжело учить гигантские языковые модели, к примеру, PaLM приходилось перезапускать десятки раз! И откатывать модель на сотни батчей назад из-за возникающих всплесков перплексии. Чтобы найти причины такой нестабильности, авторы провели кучу экспериментов и даже подвели теорию под всё это.
Главную вину возложили на оптимизатор Adam — оказалось, что при обучении больших моделей (от 60B параметров) возникает корреляция градиентов между разными степами. Это нарушает условия Центральной Предельной Теоремы, из-за чего распределение апдейтов весов становится бимодальным (см. картинку), а такие апдейты почти всегда ортогональны истинному направлению оптимизации. Именно это движение «вбок» и приводит к взрыву.
В конце статьи предлагается несколько способов как этого избежать, но единственный надёжный — откат модели на несколько шагов назад.
Статья
👍93
Forwarded from эйай ньюз
🔥DeepFloyd IF: новая text-2-image модель
StablityAI выпустили новую модель, которая очень похожа на Imagen от Google, но работает лучше и в open-source.
Архитектура IF, как и у Imagen состоит из трех диффузионных моделей, каждая из которых работает в пространстве RGB и прогрессивно увеличивают картинку. Сначала Text→64×64, затем (Text+64×64)→256×256, и наконец (Text+256×256)→1024×1024. А текст кодируется с помощью текстового энкодера T5.
Почему это круто?
— IF неплохо умеет генерировать текст (я даже генерил в канале ранее), явно лучше чем StableDiffusion XL
— Нормальная открытая имплементация по типу Imagen, которой до сих пор не было. Возможно с какими-то трюками, о которых мы узнаем, когда авторы выпустят блогпост
— FID скор измеряет похожесть снеренированных картинок на реальные. Это чуть ли не основная метрика для качества генерации. У IF FID=6.7, тогда как у Imagen 7.3. Меньше — лучше. Разрыв не космический, но приличный.
Код выложили, веса ждем тут. И ждем подробной статьи от авторов.
@ai_newz
StablityAI выпустили новую модель, которая очень похожа на Imagen от Google, но работает лучше и в open-source.
Архитектура IF, как и у Imagen состоит из трех диффузионных моделей, каждая из которых работает в пространстве RGB и прогрессивно увеличивают картинку. Сначала Text→64×64, затем (Text+64×64)→256×256, и наконец (Text+256×256)→1024×1024. А текст кодируется с помощью текстового энкодера T5.
Почему это круто?
— IF неплохо умеет генерировать текст (я даже генерил в канале ранее), явно лучше чем StableDiffusion XL
— Нормальная открытая имплементация по типу Imagen, которой до сих пор не было. Возможно с какими-то трюками, о которых мы узнаем, когда авторы выпустят блогпост
— FID скор измеряет похожесть снеренированных картинок на реальные. Это чуть ли не основная метрика для качества генерации. У IF FID=6.7, тогда как у Imagen 7.3. Меньше — лучше. Разрыв не космический, но приличный.
Код выложили, веса ждем тут. И ждем подробной статьи от авторов.
@ai_newz
👍39
Emergent Abilities of LLM — это всего лишь иллюзия (by Stanford)
Последнее время много говорят про эмерджентность гигантских языковых моделей — мол, некоторые их свойства(проблески сознания 😂) начинают резко проявляться на большом масштабе (~30B параметров). Но тут обнаружили, что это всего лишь следствие выбора сильно нелинейных метрик для тестирования (Multiple Choice Grade, String Accuracy). И если их поменять на более «плавные» аналоги (Brier Score, Edit Distance) — то вся эмерджентность куда-то пропадает и перформанс LLM масштабируется без резких скачков.
Авторы демонстрируют эту псевдо-эмерджентность на всём семействе моделей instructGPT/GPT-3 и даже на классических автоэнкодерах для MNIST. Похоже, что всё-таки никакого магического числа параметров для языковых моделей не существует, и все их свойства меняются постепенно и крайне предсказуемо.
Статья
Последнее время много говорят про эмерджентность гигантских языковых моделей — мол, некоторые их свойства
Авторы демонстрируют эту псевдо-эмерджентность на всём семействе моделей instructGPT/GPT-3 и даже на классических автоэнкодерах для MNIST. Похоже, что всё-таки никакого магического числа параметров для языковых моделей не существует, и все их свойства меняются постепенно и крайне предсказуемо.
Статья
👍129👎1
Нейро Конфуций стал понимать картинки! Ещё я сделал его ответы чуть более конкретными и добавил работу в групповых чатах ☺️
👍56
Deep learning models might be secretly (almost) linear
Линейные модели обычно сильно ограничены в своих возможностях, поэтому в нейронки всегда добавляются слои активации (ReLU и тп).
Забавно, но существует много свидетельств, что нейронные сети на самом деле почти линейные (по инпуту и по весам). В этом блогпосте собрано 17 таких примеров со ссылками. Вот несколько самых интересных из них:
1. Веса моделей обученных от одной инициализации можно складывать (да, прям W1 + W2) и всё будет работать (тык, тык)
2. Ластик концептов позволяет удалять целые понятия из моделей одним линейным оператором (тык)
3. Работает линейная алгебра внутренних репрезентаций (тык)
4. Unsupervised linear probing (тык)
5. GPT микроскоп (colab)
6. LoRa адаптеры линейно стыкуются (тык)
Похоже, что глубоким моделям достаточно совсем чуть-чуть нелинейности в поведении для получения потрясающих результатов.
Блогпост
Линейные модели обычно сильно ограничены в своих возможностях, поэтому в нейронки всегда добавляются слои активации (ReLU и тп).
Забавно, но существует много свидетельств, что нейронные сети на самом деле почти линейные (по инпуту и по весам). В этом блогпосте собрано 17 таких примеров со ссылками. Вот несколько самых интересных из них:
1. Веса моделей обученных от одной инициализации можно складывать (да, прям W1 + W2) и всё будет работать (тык, тык)
2. Ластик концептов позволяет удалять целые понятия из моделей одним линейным оператором (тык)
3. Работает линейная алгебра внутренних репрезентаций (тык)
4. Unsupervised linear probing (тык)
5. GPT микроскоп (colab)
6. LoRa адаптеры линейно стыкуются (тык)
Похоже, что глубоким моделям достаточно совсем чуть-чуть нелинейности в поведении для получения потрясающих результатов.
Блогпост
👍67
Wikipedia-based Image Text Datasets (by Google)
Представлены два крупнейших чистых мультимодальных датасета: WIT и WikiWeb2M — они содержат полные страницы википедии со всеми картинками, структурированным текстом и метадатой (37M изображений и 1.8М страниц).
Они идеально подходят для обучения таких штук как Flamingo или Fromage, а также отлично сочетаются с графами знаний.
Статья, WIT, WikiWeb2M
Представлены два крупнейших чистых мультимодальных датасета: WIT и WikiWeb2M — они содержат полные страницы википедии со всеми картинками, структурированным текстом и метадатой (37M изображений и 1.8М страниц).
Они идеально подходят для обучения таких штук как Flamingo или Fromage, а также отлично сочетаются с графами знаний.
Статья, WIT, WikiWeb2M
👍48
🔥СhatGPT+ теперь имеет доступ в интернет!
Нужно зайти в настройки и включить beta features. Я проверил, всё уже работает!
P.S. А у кого-то сегодня даже плагины появились (не у меня).
Релиз
Нужно зайти в настройки и включить beta features. Я проверил, всё уже работает!
P.S. А у кого-то сегодня даже плагины появились (не у меня).
Релиз
👍115👎1