Mood Board Search: ML-powered тулза от Google для создания мудбордов.
#tech
Мудборд — это набор изображений, которые отражают какую-либо идею или концепт. Например, это могут быть картинки, подходящие под ваше понимание "свободы", "умиротворенности" или "дуализма". Мудборды часто используют фотографы для подготовки к съемкам: ищут в интернете фотографии, которые наиболее соответствуют их задумке.
И Гугл придумал тулзу, которая поможет найти больше картинок для вашего мудборда.
Работает это так:
- загружаете несколько картинок, подходящих под ваш концепт. При этом можно отранжировать картинки по значимости, а также добавить "антикартинки": те, которые отражают противоположность нужному концепту. Это сделает поиск точнее.
- система ищет картинки, концептуально наиболее похожие на ваши;
- далее вы можете добавить какие-то из найденных картинок в ваш мудборд и снова запустить поиск. Так он станет еще точнее.
Работает это чудо на эмбеддингах из предобученных нейросетей для классификации картинок GoogLeNet/MobileNet и такой штуке, как Concept Activation Vectors (CAVs).
CAV — это такой способ анализа эмбеддингов предобученной нейросети, способ анализа того, как нейросеть "думает". С помощью CAV можно понимать, насколько присутствие того или иного паттерна на картинке влияет на результат классификации картинки нейросетью. Например, насколько сильно наличие черно-белых полос подталкивает нейросеть к тому, чтобы классифицировать картинку, как Зебру.
И вот, оказывается, как идею для interpretability можно использовать для создания полезного инструмента =)
Ссылки:
Блогпост о Mood Board Search в Google AI Blog
Демка
Код на GitHub (тут есть интро в то, как CAV работает)
Статья о CAV на arxiv
#tech
Мудборд — это набор изображений, которые отражают какую-либо идею или концепт. Например, это могут быть картинки, подходящие под ваше понимание "свободы", "умиротворенности" или "дуализма". Мудборды часто используют фотографы для подготовки к съемкам: ищут в интернете фотографии, которые наиболее соответствуют их задумке.
И Гугл придумал тулзу, которая поможет найти больше картинок для вашего мудборда.
Работает это так:
- загружаете несколько картинок, подходящих под ваш концепт. При этом можно отранжировать картинки по значимости, а также добавить "антикартинки": те, которые отражают противоположность нужному концепту. Это сделает поиск точнее.
- система ищет картинки, концептуально наиболее похожие на ваши;
- далее вы можете добавить какие-то из найденных картинок в ваш мудборд и снова запустить поиск. Так он станет еще точнее.
Работает это чудо на эмбеддингах из предобученных нейросетей для классификации картинок GoogLeNet/MobileNet и такой штуке, как Concept Activation Vectors (CAVs).
CAV — это такой способ анализа эмбеддингов предобученной нейросети, способ анализа того, как нейросеть "думает". С помощью CAV можно понимать, насколько присутствие того или иного паттерна на картинке влияет на результат классификации картинки нейросетью. Например, насколько сильно наличие черно-белых полос подталкивает нейросеть к тому, чтобы классифицировать картинку, как Зебру.
И вот, оказывается, как идею для interpretability можно использовать для создания полезного инструмента =)
Ссылки:
Блогпост о Mood Board Search в Google AI Blog
Демка
Код на GitHub (тут есть интро в то, как CAV работает)
Статья о CAV на arxiv
👍13🤮2🔥1
В канале AbstractDL недавно выложили пост о PIXEL — языковой модели, которая учится понимать и генерировать текст с rgb картинки.
Прочитала статью. Рассказываю, как это чудо работает и что умеет:
#paper
Тексты рендерятся в rgb картинки. Поддерживаются различные алфавиты, иероглифы, смайлики и даже языки, тексты на которых пишутся справа налево.
Картинка с текстом разбивается на патчи размера 16х16 пикселей. Далее некоторые из патчей закрываются маской, и задача нейросети — по контексту научиться предсказывать, какие патчи были под маской. Это один из стандартных способов обучения языковых моделей (только обычные LM предсказываюёт скрытые под маской токены, а не кусочки картинки).
Архитектура модели похожа на VIT-MAE (об этой нейронке я писала тут). Кратко, VIT-MAE — автоэнкодер, который получает на вход картинку, у которой закрыты некоторые части, а учится выдавать на вход всю картинку целиком. Но VIT-MAE работал с обычными картинками, а не с текстом. Чтобы PIXEL мог работать с картинками текстов, у которых важен порядок патчей, к патчам картинок добавляются positional embeddings.
Предсказание декодера PIXEL — это тоже патч, кусочек картинки. При обучении в качестве лосса используется MSE. После обучения encoder модели можно дообучить на другие задачи NLP, как и обычный BERT.
Какие преимущества у такой LM:
✔️ В обычных LM есть недостаток, который называется vocabulary bottleneck. LM оперируют текстом как набором токенов, и первый слой энкодера — это слой эмбеддингов, который имеет размер словаря. Короче, очень большой размер. Также последний слой декодера для предсказания следующего токена должен вычислять softmax от вектора, который также имеет размер словаря. Это очень долго.
У PIXEL этой проблемы нет, так как тупо нет словаря.
✔️ PIXEL намного проще дообучать на новые языки. Особенно на те, в которых символы похожи на английские (или на те, на которых PIXEL изначально был обучен). Обычные LM оперируют токенами, и если в новом языке есть новый токен, то как бы он ни был визуально и по смыслу похож на какой-то английский, LM этот токен не видела.
✔️ PIXEL более робастен к шуму, чем обычные LM. Шум — это опечатки/неверные написания слов/неверный порядок слов/нечеткий почерк и подобное. Такого рода вещи часто встречаются в тексах в интернете/соцсетях, поэтому очень важно уметь с ним справляться, и PIXEL делает это довольно хорошо.
(вывод сделан в результате тестирования BERT и PIXEL на бенчмарке Zeroe)
При этом всем чаще всего на чистых английских текстах PIXEL все же уступает BERT'у, но не сильно. Учитывая, что авторы статьи обучили только один вариант PIXEL с 112M параметрами (for lack of computational resources), то, может быть, в будущем какие-то виды PIXEL превзойдут BERT.
Ссылки:
Статья на arxiv
Код на GitHub
Модель на Hugging Face
Прочитала статью. Рассказываю, как это чудо работает и что умеет:
#paper
Тексты рендерятся в rgb картинки. Поддерживаются различные алфавиты, иероглифы, смайлики и даже языки, тексты на которых пишутся справа налево.
Картинка с текстом разбивается на патчи размера 16х16 пикселей. Далее некоторые из патчей закрываются маской, и задача нейросети — по контексту научиться предсказывать, какие патчи были под маской. Это один из стандартных способов обучения языковых моделей (только обычные LM предсказываюёт скрытые под маской токены, а не кусочки картинки).
Архитектура модели похожа на VIT-MAE (об этой нейронке я писала тут). Кратко, VIT-MAE — автоэнкодер, который получает на вход картинку, у которой закрыты некоторые части, а учится выдавать на вход всю картинку целиком. Но VIT-MAE работал с обычными картинками, а не с текстом. Чтобы PIXEL мог работать с картинками текстов, у которых важен порядок патчей, к патчам картинок добавляются positional embeddings.
Предсказание декодера PIXEL — это тоже патч, кусочек картинки. При обучении в качестве лосса используется MSE. После обучения encoder модели можно дообучить на другие задачи NLP, как и обычный BERT.
Какие преимущества у такой LM:
✔️ В обычных LM есть недостаток, который называется vocabulary bottleneck. LM оперируют текстом как набором токенов, и первый слой энкодера — это слой эмбеддингов, который имеет размер словаря. Короче, очень большой размер. Также последний слой декодера для предсказания следующего токена должен вычислять softmax от вектора, который также имеет размер словаря. Это очень долго.
У PIXEL этой проблемы нет, так как тупо нет словаря.
✔️ PIXEL намного проще дообучать на новые языки. Особенно на те, в которых символы похожи на английские (или на те, на которых PIXEL изначально был обучен). Обычные LM оперируют токенами, и если в новом языке есть новый токен, то как бы он ни был визуально и по смыслу похож на какой-то английский, LM этот токен не видела.
✔️ PIXEL более робастен к шуму, чем обычные LM. Шум — это опечатки/неверные написания слов/неверный порядок слов/нечеткий почерк и подобное. Такого рода вещи часто встречаются в тексах в интернете/соцсетях, поэтому очень важно уметь с ним справляться, и PIXEL делает это довольно хорошо.
(вывод сделан в результате тестирования BERT и PIXEL на бенчмарке Zeroe)
При этом всем чаще всего на чистых английских текстах PIXEL все же уступает BERT'у, но не сильно. Учитывая, что авторы статьи обучили только один вариант PIXEL с 112M параметрами (for lack of computational resources), то, может быть, в будущем какие-то виды PIXEL превзойдут BERT.
Ссылки:
Статья на arxiv
Код на GitHub
Модель на Hugging Face
👍25🤮4🔥2🤔1
Несколько новостей о DALL-E от OpenAI:
#news
1. DALL-E вышел в бета. Это значит, что теперь пользователи из листа ожидания будут быстрее получать доступ к модели. В течение следующих недель обещают дать доступ миллиону пользователей. Запрыгнуть в waitlist и попытать счастья можно тут.
Чтобы обеспечить большему количеству юзеров возможность генерить картинки, количество выдаваемых картинок на один запрос снизили до 4.
По поводу прайса: каждый юзер каждый месяц получает бесплатные 15 кредитов. Дальше генерации становятся платными по цене ~13 центов за запрос.
Подробнее про прайс читайте тут
2. Вообще все пользователи DALL-E получают право на распространение сгенеренных картинки, включая коммерческие цели. Можно печатать картинки на мерче, продавать картинки и т.п. Пользователи уже рассказали, что собираются использовать DALL-E для иллюстраций в книгах, создания персонажей для компьютерных игр, в дизайне и многом другом.
3. Еще OpenAI объявили, что внедрили в DALL-E алгоритм, который уменьшает bias и "improves safety". Это значит, что теперь для обезличенных запросов вроде "firefighter" будут генерироваться более разнообразные картинки по полу, расе и другим характеристикам пожарного. Говорят, что пользователи нововведение оценили: теперь они в 12 раз чаще оценивают сгенеренные картинки как "more diverse", чем раньше.
Однако что это за такой умный алгоритм, который уменьшает bias, OpenAI не поведали
Важно: если получите доступ к DALL-E, то прежде чем начать генерить картинки, ознакомьтесь с content policy. Если его нарушить, доступ к DALL-E могут отобрать насовсем. А там могут быть достаточно неожиданные для вас сюрпризы.
#news
1. DALL-E вышел в бета. Это значит, что теперь пользователи из листа ожидания будут быстрее получать доступ к модели. В течение следующих недель обещают дать доступ миллиону пользователей. Запрыгнуть в waitlist и попытать счастья можно тут.
Чтобы обеспечить большему количеству юзеров возможность генерить картинки, количество выдаваемых картинок на один запрос снизили до 4.
По поводу прайса: каждый юзер каждый месяц получает бесплатные 15 кредитов. Дальше генерации становятся платными по цене ~13 центов за запрос.
Подробнее про прайс читайте тут
2. Вообще все пользователи DALL-E получают право на распространение сгенеренных картинки, включая коммерческие цели. Можно печатать картинки на мерче, продавать картинки и т.п. Пользователи уже рассказали, что собираются использовать DALL-E для иллюстраций в книгах, создания персонажей для компьютерных игр, в дизайне и многом другом.
3. Еще OpenAI объявили, что внедрили в DALL-E алгоритм, который уменьшает bias и "improves safety". Это значит, что теперь для обезличенных запросов вроде "firefighter" будут генерироваться более разнообразные картинки по полу, расе и другим характеристикам пожарного. Говорят, что пользователи нововведение оценили: теперь они в 12 раз чаще оценивают сгенеренные картинки как "more diverse", чем раньше.
Однако что это за такой умный алгоритм, который уменьшает bias, OpenAI не поведали
Важно: если получите доступ к DALL-E, то прежде чем начать генерить картинки, ознакомьтесь с content policy. Если его нарушить, доступ к DALL-E могут отобрать насовсем. А там могут быть достаточно неожиданные для вас сюрпризы.
👍18💩2
Интересная работа: исследователи из Anthropic изучили "адекватность" языковых моделей: понимают ли они, что они сами генерируют. И пришли к выводу, что Language Models (Mostly) Know What They Know (это и есть название статьи 🙃)
#paper #ai_inside
Подробнее:
Рисерчеры провели несколько экспериментов. Самые интересные из них вот эти:
1. Обучили LM на задаче question-answering. Затем попросили модель дать ответы на несколько вопросов. И потом делали следующее: подавали на вход модели вопрос, ее же ответ и спрашивали: верный это ответ или нет? Примерно так:
""
Question: Who was the first president of the United States?
Proposed Answer: George Washington was the first president.
Is the proposed answer:
(A) True
(B) False
The proposed answer is:
""
Оказалось, что модель дает консистентные ответы: True тогда, когда proposed answer — это действительно то, что модель до этого выдала в качестве ответа на вопрос, и False, когда proposed answer — другой случайный ответ.
2. Обучили модель в ответ на вопрос предсказывать, знает модель ответ на этот вопрос или нет. Обучающая выборка собиралась так: у модели тридцать раз спрашивали один и тот же вопрос. Далее если 20 ответов модели были верны, а 10 — нет, то в обучающую выборку входили 20 примеров вида "вопрос, I know the answer" и 10 примеров вида "вопрос, I don't know the answer".
В итоге модель обучилась оценивать свои знания довольно хорошо. Далее сделали еще такой эксперимент: взяли несколько вопросов, на которые модель ответила "I don't know the answer". И подали ей на вход эти же вопросы вместе с контекстом: кусочком текста, в котором содержался правильный ответ. И в этом случае модель понимала, что теперь может дать верный ответ, и отвечала "I know the answer".
Эти эксперименты показывают, что модели довольно well-calibrated: они "понимают", что они "знают", а что нет, и выдают консистентные ответы на вопросы в разных формах.
В статье найдете еще несколько подобных экспериментов, описания данных и количественные оценки "адекватности" модели
Статья
#paper #ai_inside
Подробнее:
Рисерчеры провели несколько экспериментов. Самые интересные из них вот эти:
1. Обучили LM на задаче question-answering. Затем попросили модель дать ответы на несколько вопросов. И потом делали следующее: подавали на вход модели вопрос, ее же ответ и спрашивали: верный это ответ или нет? Примерно так:
""
Question: Who was the first president of the United States?
Proposed Answer: George Washington was the first president.
Is the proposed answer:
(A) True
(B) False
The proposed answer is:
""
Оказалось, что модель дает консистентные ответы: True тогда, когда proposed answer — это действительно то, что модель до этого выдала в качестве ответа на вопрос, и False, когда proposed answer — другой случайный ответ.
2. Обучили модель в ответ на вопрос предсказывать, знает модель ответ на этот вопрос или нет. Обучающая выборка собиралась так: у модели тридцать раз спрашивали один и тот же вопрос. Далее если 20 ответов модели были верны, а 10 — нет, то в обучающую выборку входили 20 примеров вида "вопрос, I know the answer" и 10 примеров вида "вопрос, I don't know the answer".
В итоге модель обучилась оценивать свои знания довольно хорошо. Далее сделали еще такой эксперимент: взяли несколько вопросов, на которые модель ответила "I don't know the answer". И подали ей на вход эти же вопросы вместе с контекстом: кусочком текста, в котором содержался правильный ответ. И в этом случае модель понимала, что теперь может дать верный ответ, и отвечала "I know the answer".
Эти эксперименты показывают, что модели довольно well-calibrated: они "понимают", что они "знают", а что нет, и выдают консистентные ответы на вопросы в разных формах.
В статье найдете еще несколько подобных экспериментов, описания данных и количественные оценки "адекватности" модели
Статья
🔥50👍19😱4💩2
Сегодня я опять весь день записывала видео для курса, снова очень устала. И раз сегодня нет сил на умный пост, расскажу вам про онлайн-семинар по data science и биоинформатике от Сберлоги. Там часто бывают интересные доклады (в том числе и просто о data science вне биоинформатики). Я их иногда смотрю.
И в этот четверг у них будет очередной интересный доклад о применении нейронок в генетике.
Тема: «DeepCT: Cell type-specific interpretation of noncoding variants using deep learning methods»
Спикеры: М. Синдеева и Н. Чеканов (Институт искусственного интеллекта AIRI)
Время: 28.07, четверг, 18:00 МСК
Анонс:
В последнее время все большую популярность приобретают ML-подходы, способные предсказать эпигенетические свойства клеток на основе последовательности ДНК. Новейшие модели Google и университета Стэндфорда, опубликованные за последний год, показывают высокую точность и могут использоваться для предсказания эффектов геномных вариантов некодирующих последовательностей ДНК. Однако эти подходы не могут обобщать предсказания по типам клеток, и применяются только к тем клеткам, в которых данные уже были получены экспериментально. Мы поговорим о новом подходе к задаче предсказания эпигенетических изменений, который позволяет выучить сложные зависимости между несколькими эпигенетическими характеристиками и предсказать их для любого входа, одновременно с этим выучив биологически значимые векторные представления типов клеток.
Ссылка на зум будет доступна на канале: @sberlogabig перед началом доклада. Там же можно найти записи предыдущих выступлений, и следить за анонсами будущих семинаров.
#learning
И в этот четверг у них будет очередной интересный доклад о применении нейронок в генетике.
Тема: «DeepCT: Cell type-specific interpretation of noncoding variants using deep learning methods»
Спикеры: М. Синдеева и Н. Чеканов (Институт искусственного интеллекта AIRI)
Время: 28.07, четверг, 18:00 МСК
Анонс:
В последнее время все большую популярность приобретают ML-подходы, способные предсказать эпигенетические свойства клеток на основе последовательности ДНК. Новейшие модели Google и университета Стэндфорда, опубликованные за последний год, показывают высокую точность и могут использоваться для предсказания эффектов геномных вариантов некодирующих последовательностей ДНК. Однако эти подходы не могут обобщать предсказания по типам клеток, и применяются только к тем клеткам, в которых данные уже были получены экспериментально. Мы поговорим о новом подходе к задаче предсказания эпигенетических изменений, который позволяет выучить сложные зависимости между несколькими эпигенетическими характеристиками и предсказать их для любого входа, одновременно с этим выучив биологически значимые векторные представления типов клеток.
Ссылка на зум будет доступна на канале: @sberlogabig перед началом доклада. Там же можно найти записи предыдущих выступлений, и следить за анонсами будущих семинаров.
#learning
👍14🔥7👎2🤮2
А может, соберем список из классных открытых онлайн-семинаров и докладов по ML? Я бы не против найти еще что-то новое. Пишите в комментарии, если знаете такой, и он вам нравится. Можно как отдельные доклады/видео, так и каналы/повторяющиеся ивенты.
Я тоже покидаю несколько ссылок в комментарии⬇️
#learning
Я тоже покидаю несколько ссылок в комментарии⬇️
#learning
🔥41👍14💩3
Еще одна классная новость!
Около года я наблюдала, как Артемий делал курс "Нейронные сети и их применение в научных исследованиях" в МГУ. Содержание курса очень классное, но, к сожалению, в первое время он был доступен только студентам МГУ.
Но вот, наконец, курс выложили в открытый доступ! Теперь лекции доступны бусплатно на Ютубе всем желающим. Очень рада, что это, наконец, случилось, и очень рада, что подобных открытых курсов появляется все больше на русском языке.
Подробную информацию про курс, расписание и ссылки на лекции ищите тут.
#learning
Около года я наблюдала, как Артемий делал курс "Нейронные сети и их применение в научных исследованиях" в МГУ. Содержание курса очень классное, но, к сожалению, в первое время он был доступен только студентам МГУ.
Но вот, наконец, курс выложили в открытый доступ! Теперь лекции доступны бусплатно на Ютубе всем желающим. Очень рада, что это, наконец, случилось, и очень рада, что подобных открытых курсов появляется все больше на русском языке.
Подробную информацию про курс, расписание и ссылки на лекции ищите тут.
#learning
🔥55👍11🤮5❤2💩1
Media is too big
VIEW IN TELEGRAM
Есть опыт в машинном обучении, но хотите двигаться ещё дальше?
#промо
Специально для вас Валерий Бабушкин, Head of Data Science в Blockchainꓸcom, вместе с командой опытных специалистов из Яндекса, AliExpress и X5 Retail Group подготовил продвинутый курс, который поможет глубже копнуть в машинное обучение и разобраться со всеми этапами работы ML-инженера: от сбора и разметки данных до деплоя собственных приложений.
К концу обучения вы создадите пять ML-сервисов, каждый из которых будет решать важную и востребованную бизнесом задачу.
Переходите по ссылке и записывайтесь на курс до 1 августа — по промокоду DLSTORIES дарим скидку 10%. Ждём вас!
#промо
Специально для вас Валерий Бабушкин, Head of Data Science в Blockchainꓸcom, вместе с командой опытных специалистов из Яндекса, AliExpress и X5 Retail Group подготовил продвинутый курс, который поможет глубже копнуть в машинное обучение и разобраться со всеми этапами работы ML-инженера: от сбора и разметки данных до деплоя собственных приложений.
К концу обучения вы создадите пять ML-сервисов, каждый из которых будет решать важную и востребованную бизнесом задачу.
Переходите по ссылке и записывайтесь на курс до 1 августа — по промокоду DLSTORIES дарим скидку 10%. Ждём вас!
👍15👎9💩5🤮2🤩1
This media is not supported in your browser
VIEW IN TELEGRAM
Смотрите, какую нейронку выкатили в Alibaba: классненькая стилизация изображений людей (aka style transfer)
Моделька называется DCT-Net. Она способна стилизовать портреты, используя совсем небольшое количество обучающих примеров (~100). Получается такая few-shot модель.
Преимущества DCT-Net перед другими подходами:
- качество стилизации. Во-первых, портреты реально круто выглядят и соответствуют стилю. Во-вторых, DCT-Net работает на совершенно разнообразных лицах: фотографиях и рисунках, в разных позах, с мейкапом/украшениями и без, и даже если на картинке есть артефакты (blur, occlusion, etc.) При этом модель хорошо сохраняет детали: например, серьги или другие мелкие нюансы. Также авторы утверждают, что сохраняется и identity, хотя это довольно сложный вопрос)
- DCT-Net работает не только с портретами, но и с фотографиями в полный рост.
Статья на arxiv вот.
Код на GitHub тут.
А здесь можно найти краткое описание архитектуры модельки и за что каждый ее модуль отвечает.
#paper
Моделька называется DCT-Net. Она способна стилизовать портреты, используя совсем небольшое количество обучающих примеров (~100). Получается такая few-shot модель.
Преимущества DCT-Net перед другими подходами:
- качество стилизации. Во-первых, портреты реально круто выглядят и соответствуют стилю. Во-вторых, DCT-Net работает на совершенно разнообразных лицах: фотографиях и рисунках, в разных позах, с мейкапом/украшениями и без, и даже если на картинке есть артефакты (blur, occlusion, etc.) При этом модель хорошо сохраняет детали: например, серьги или другие мелкие нюансы. Также авторы утверждают, что сохраняется и identity, хотя это довольно сложный вопрос)
- DCT-Net работает не только с портретами, но и с фотографиями в полный рост.
Статья на arxiv вот.
Код на GitHub тут.
А здесь можно найти краткое описание архитектуры модельки и за что каждый ее модуль отвечает.
#paper
👍24🤔3🤮3
Зацените заголовки новостей: "Новый британский истребитель Tempest сможет читать мысли пилотов" 🙃
На деле там все проще. Tempest — это новый прототип истребителя, который будет выпущен в Британии к 2030 году. Одна из его фичей — "AI tool", который с помощью шлема с датчиками будет мониторить активность мозга и нервной системы пилотов. На основе этой информации AI tool будет понимать, когда пилот находится в состоянии сильного стресса и, предположительно, не очень эффективен в управлении самолетом. Тогда истребитель будет переходить в режим автопилота.
У шлема есть еще вторая функция: собирать большую базу данных активности мозга и нервной системы пилотов во время полета. На основе этих данных потом что-нибудь эдакое обучат (но очень потом)
Мысли оно читает, да.
Ссылка на новость
#ai_fun
На деле там все проще. Tempest — это новый прототип истребителя, который будет выпущен в Британии к 2030 году. Одна из его фичей — "AI tool", который с помощью шлема с датчиками будет мониторить активность мозга и нервной системы пилотов. На основе этой информации AI tool будет понимать, когда пилот находится в состоянии сильного стресса и, предположительно, не очень эффективен в управлении самолетом. Тогда истребитель будет переходить в режим автопилота.
У шлема есть еще вторая функция: собирать большую базу данных активности мозга и нервной системы пилотов во время полета. На основе этих данных потом что-нибудь эдакое обучат (но очень потом)
Мысли оно читает, да.
Ссылка на новость
#ai_fun
😁29👍16💩4
NUWA-Infinity: модель для генерации изображений или видео произвольного размера
#paper
Если точнее, NUWA-infinity может решать 5 задач:
1. просто генерация картинок;
2. генерация картинок по тексту;
3. генерация видео по тексту
4. анимирование картинок;
5. Image outpainting (дополнение картинки по краям).
Модель авторегрессионная, не диффузионная. Для генерации картинка или видео представляются в виде набора патчей, и каждый патч генерируется отдельно. Чтобы иметь возможность сгенерировать картинку произвольного размера, к патчам добавляется positional encoding.
Архитектура модели состоит из text encoder и image decoder. Image decoder — это VQGAN. В задачах 1, 3 и 4 text encoder не участвует, картинка генерируется с помощью VQGAN либо из шума (задача 1), либо из картинки, которая подается на вход (задачи 3, 4). В задачах 2 и 3 сначала text encoder кодирует текст, затем на основе эмбеддинга текста декодер генерирует картинку.
Главная фишка NUWA-\infty — это Nearby Context Pool (NCP). Благодаря этому механизму и удается получать картинки произвольного размера, а также генерировать видео.
NCP — это что-то типа краткосрочной памяти. Чтобы модель могла генерировать огромные картинки и длинные видео, ей на каждом шаге нужно “помнить” то, что она уже сгенерировала. Однако запоминать абсолютно всю информацию не выйдет: ее слишком много; и такая модель не смогла бы генерить картинки и видео сильно большого размера или длины. Поэтому модель хранит в памяти только те патчи, которые находятся близко к тем патчам, которые еще предстоит сгенерировать. Перефразируя: для генерации каждого патча используется только его “локальный” контекст: информация о том, что происходит на патчах, которые находятся близко.
NCP — это модуль, который контролирует локальную память: какая информация с каких частей картинки сохранена в модели на данном этапе.
При генерации каждого следующего патча NCP:
- понимает, какая информация из каких патчей понадобится для генерации этого патча (операция select). Выбираются близкие к текущему патчи.
- добавляет информацию о текущем патче в memory (операция add).
- убирает из memory ненужную информацию (операция remove). Ненужная информация — это та, которая уже не пригодится ни при одном из следующих генераций патчей.
Вот такая простая идея, а работает круто!
Ссылка на статью
P.S. NUWA_infinity — это апгрейд модели NUWA. О ней был пост вот
#paper
Если точнее, NUWA-infinity может решать 5 задач:
1. просто генерация картинок;
2. генерация картинок по тексту;
3. генерация видео по тексту
4. анимирование картинок;
5. Image outpainting (дополнение картинки по краям).
Модель авторегрессионная, не диффузионная. Для генерации картинка или видео представляются в виде набора патчей, и каждый патч генерируется отдельно. Чтобы иметь возможность сгенерировать картинку произвольного размера, к патчам добавляется positional encoding.
Архитектура модели состоит из text encoder и image decoder. Image decoder — это VQGAN. В задачах 1, 3 и 4 text encoder не участвует, картинка генерируется с помощью VQGAN либо из шума (задача 1), либо из картинки, которая подается на вход (задачи 3, 4). В задачах 2 и 3 сначала text encoder кодирует текст, затем на основе эмбеддинга текста декодер генерирует картинку.
Главная фишка NUWA-\infty — это Nearby Context Pool (NCP). Благодаря этому механизму и удается получать картинки произвольного размера, а также генерировать видео.
NCP — это что-то типа краткосрочной памяти. Чтобы модель могла генерировать огромные картинки и длинные видео, ей на каждом шаге нужно “помнить” то, что она уже сгенерировала. Однако запоминать абсолютно всю информацию не выйдет: ее слишком много; и такая модель не смогла бы генерить картинки и видео сильно большого размера или длины. Поэтому модель хранит в памяти только те патчи, которые находятся близко к тем патчам, которые еще предстоит сгенерировать. Перефразируя: для генерации каждого патча используется только его “локальный” контекст: информация о том, что происходит на патчах, которые находятся близко.
NCP — это модуль, который контролирует локальную память: какая информация с каких частей картинки сохранена в модели на данном этапе.
При генерации каждого следующего патча NCP:
- понимает, какая информация из каких патчей понадобится для генерации этого патча (операция select). Выбираются близкие к текущему патчи.
- добавляет информацию о текущем патче в memory (операция add).
- убирает из memory ненужную информацию (операция remove). Ненужная информация — это та, которая уже не пригодится ни при одном из следующих генераций патчей.
Вот такая простая идея, а работает круто!
Ссылка на статью
P.S. NUWA_infinity — это апгрейд модели NUWA. О ней был пост вот
👍13🤮2💩1
Google выкатил MobileNERF: нейронный рендеринг, который может работать на мобилках
#paper
Нейронный рендеринг — это процесс, когда из пары-тройки фотографий сцены с разных ракурсов рендерится 3D-модель этой сцены. NeRF — нейронный алгоритм для этой задачи, один из самых популярных.
На протяжении больше года главной проблемой NeRF (да и других алгоритмов) была скорость. Сцены рендерились круто, но оочень медленно. Где-то годик-полтора назад для генерации одной(!) сцены требовалось несколько часов. Ну и были нужны мощные процессоры: чем процессор мощнее, тем быстрее он это все отрендерит.
Но за этот год область сильно продвинулась: то и дело в разных каналах я видела посты о том, что кто-то снова сильно ускорил рендеринг. Вот пример такого поста. Короче, за годик ребята продвинулись от нескольких часов до пары минут (во многих случаях) на сцену.
И вот сейчас Гугл показывает нам MobileNeRF, который может рендерить сцены на мобильных устройствах! Это крутой прорыв: процессоры мобилок совсем не такие мощные, как серверы.
Про техническое устройство модели MobileNeRF ничего говорить не буду: я совсем плохо разбираюсь в рендеринге. Мои познания ограничиваются двумя лекциями в ШАДе полгода назад (по одной из них я потом тест для студентов ШАДа составляла, кек). Собственно, поэтому я о рендеринге тут и не писала.
Но если хотите лучше разобраться в теме, то у Мишин Лернинг была подборка видео про NeRF. А еще вот недавнее видео о том, как запустить (и даже обучить) свой рендеринг. Тут используется модель от NVidia.
А вот ссылки по MobileNeRF:
- галерея демок, которые можно запустить у себя на телефоне. Тыкаете на ссылку под демкой, ждете, пока загрузятся файлы, наслаждаетесь.
- статья на arxiv.
#paper
Нейронный рендеринг — это процесс, когда из пары-тройки фотографий сцены с разных ракурсов рендерится 3D-модель этой сцены. NeRF — нейронный алгоритм для этой задачи, один из самых популярных.
На протяжении больше года главной проблемой NeRF (да и других алгоритмов) была скорость. Сцены рендерились круто, но оочень медленно. Где-то годик-полтора назад для генерации одной(!) сцены требовалось несколько часов. Ну и были нужны мощные процессоры: чем процессор мощнее, тем быстрее он это все отрендерит.
Но за этот год область сильно продвинулась: то и дело в разных каналах я видела посты о том, что кто-то снова сильно ускорил рендеринг. Вот пример такого поста. Короче, за годик ребята продвинулись от нескольких часов до пары минут (во многих случаях) на сцену.
И вот сейчас Гугл показывает нам MobileNeRF, который может рендерить сцены на мобильных устройствах! Это крутой прорыв: процессоры мобилок совсем не такие мощные, как серверы.
Про техническое устройство модели MobileNeRF ничего говорить не буду: я совсем плохо разбираюсь в рендеринге. Мои познания ограничиваются двумя лекциями в ШАДе полгода назад (по одной из них я потом тест для студентов ШАДа составляла, кек). Собственно, поэтому я о рендеринге тут и не писала.
Но если хотите лучше разобраться в теме, то у Мишин Лернинг была подборка видео про NeRF. А еще вот недавнее видео о том, как запустить (и даже обучить) свой рендеринг. Тут используется модель от NVidia.
А вот ссылки по MobileNeRF:
- галерея демок, которые можно запустить у себя на телефоне. Тыкаете на ссылку под демкой, ждете, пока загрузятся файлы, наслаждаетесь.
- статья на arxiv.
👍21🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
Если вам лень самим запускать демку MobileNeRF, то вот я принесла вам видео, как это работает на моем IPhone 11 pro. Круто же! И FPS огонь.
👍24🔥13❤1
А что я вам принеслаа:
Сейчас в Les Houches (Франция) проходит летняя школа по физике и машинному обучению. Среди лекторов — Ян ЛеКун, а также люди из NYU, Berkeley, Google, Princeton, EPFL и других классных мест.
Темы лекций школы тоже крутые. Мне, например, показались интересными эти:
- "Deep Learning at Large and Infinite Width"
- "Computational Complexity of Deep learning: Fundamental limitations and Empirical phenomena".
Также есть несколько лекций по ML в физике.
Иии все видео можно посмотреть бесплатно🙂⬇️
Сайт с ссылками на видео лекций
#learning
Сейчас в Les Houches (Франция) проходит летняя школа по физике и машинному обучению. Среди лекторов — Ян ЛеКун, а также люди из NYU, Berkeley, Google, Princeton, EPFL и других классных мест.
Темы лекций школы тоже крутые. Мне, например, показались интересными эти:
- "Deep Learning at Large and Infinite Width"
- "Computational Complexity of Deep learning: Fundamental limitations and Empirical phenomena".
Также есть несколько лекций по ML в физике.
Иии все видео можно посмотреть бесплатно🙂⬇️
Сайт с ссылками на видео лекций
#learning
🔥65👍11🤮3
Кто там вот под этим постом хотел такой же ИИ-шлем для авто? А вот же он:
#tech
Xiaomi анонсирует разработку обруча для головы, который способен считывать мозговую активность.
Предполагаемые сферы применения две:
- управление домашней техникой силой мысли (smart home нового поколения)
- помощь в управлении авто, когда по мозговой активности видно, что водитель перегружен и не справляется.
Думаю, в будущем такие штуки будут использоваться повсеместно. AI-алгоритмы действительно можно обучить детектить много всякого по мозговой активности. В МФТИ даже как-то проводили исследование, где по мозговой активности людей реконструировали картинку, которую эти люди видели перед собой. И получалось неплохо!
А если соединить эти фичи с какими-нибудь smart glasses, то получится штука, которую люди будут носить 24/7, я уверена)
#tech
Xiaomi анонсирует разработку обруча для головы, который способен считывать мозговую активность.
Предполагаемые сферы применения две:
- управление домашней техникой силой мысли (smart home нового поколения)
- помощь в управлении авто, когда по мозговой активности видно, что водитель перегружен и не справляется.
Думаю, в будущем такие штуки будут использоваться повсеместно. AI-алгоритмы действительно можно обучить детектить много всякого по мозговой активности. В МФТИ даже как-то проводили исследование, где по мозговой активности людей реконструировали картинку, которую эти люди видели перед собой. И получалось неплохо!
А если соединить эти фичи с какими-нибудь smart glasses, то получится штука, которую люди будут носить 24/7, я уверена)
👍21🔥7👏1🤔1
Я тут решила погуглить, не делает ли еще кто-то зачем-то шлемы для считывания мозговой активности. Пока что нашла только пару не взлетевших странных стартапов. Но еще я нашла вот это. И это очень смешно))
В Китае запрещено порно. И правительство нанимает людей, которые отсматривают фото и видео в инете и находят нелегальный контент. Да, ИИ алгоритмы для детекции порно тоже используют, но они часто допускают ошибки (те, кто порно в инет выкладывает, все же учатся обходить цензуру ИИ). Поэтому человеки-детекторы порно все еще востребованы.
Но и люди часто допускают ошибки, особенно когда устают и у них замыливается глаз. Поэтому исследователи сделали вот что:
Взяли шлем, который детектит мозговую активность человека. Посадили людей перед монитором и стали показывать им картинки с порно и без. И обнаружили, что всегда, когда человек видит перед собой sensitive картинку, в его мозговых волнах появляются характерные всплески. Причем это случается даже если картинка была перед глазами долю секунды, и реально человек даже не успел ее осознать.
Конечно, мозговой сингал людей зашумлен, и с первого взгляда суперточно определить, вызван всплеск активности порно-контентом или чем-то другим, нельзя. Но ученые планируют обучить на данных мозговой активности людей AI-алгоритм, который бы умел хорошо понимать, в каком случае человек видит порно-контент, а в каком — нет.
Получается, такой шлем поможет людям сильно точнее, да еще и быстрее заниматься фильтрацией контента в сети.
Тупо сидишь и пялишься в монитор, перед тобой мелькают картинки. Ты ничего не понимаешь, но работу делаешь)))
Ссылка на статью (она свежая, кстати, от июня 2022)
Что думаете по этому поводу? 🙃
#tech #ai_fun
В Китае запрещено порно. И правительство нанимает людей, которые отсматривают фото и видео в инете и находят нелегальный контент. Да, ИИ алгоритмы для детекции порно тоже используют, но они часто допускают ошибки (те, кто порно в инет выкладывает, все же учатся обходить цензуру ИИ). Поэтому человеки-детекторы порно все еще востребованы.
Но и люди часто допускают ошибки, особенно когда устают и у них замыливается глаз. Поэтому исследователи сделали вот что:
Взяли шлем, который детектит мозговую активность человека. Посадили людей перед монитором и стали показывать им картинки с порно и без. И обнаружили, что всегда, когда человек видит перед собой sensitive картинку, в его мозговых волнах появляются характерные всплески. Причем это случается даже если картинка была перед глазами долю секунды, и реально человек даже не успел ее осознать.
Конечно, мозговой сингал людей зашумлен, и с первого взгляда суперточно определить, вызван всплеск активности порно-контентом или чем-то другим, нельзя. Но ученые планируют обучить на данных мозговой активности людей AI-алгоритм, который бы умел хорошо понимать, в каком случае человек видит порно-контент, а в каком — нет.
Получается, такой шлем поможет людям сильно точнее, да еще и быстрее заниматься фильтрацией контента в сети.
Тупо сидишь и пялишься в монитор, перед тобой мелькают картинки. Ты ничего не понимаешь, но работу делаешь)))
Ссылка на статью (она свежая, кстати, от июня 2022)
Что думаете по этому поводу? 🙃
#tech #ai_fun
👍25😁15😱10🔥6❤3🤔2👎1👏1🤮1
Forwarded from AbstractDL
An Image is Worth One Word: превращение картинок в псевдо-слова для использования в text2image
Некоторые концепты сложно выразить существующими словами, их проще показать на примерах. Поэтому в Nvidia предложили использовать гениальный и простой трюк — превращать картинки в «псевдо-слова», а точнее, находить эмбеддинг несуществующего токена (p-tuning), который будет соответствовать требуемому визуальному концепту. Дальше это «псевдо-слово» можно вставлять в текст и генерировать сложные композиции (см. картинку).
Такой техникой можно сгенерировать изображение по тексту:
«A и B держат в руках С в стиле D»,
где A,B,C,D — это псевдотокены с заранее вычисленными по примерам картинок эмбеддингами.
Самое крутое здесь то, что не нужно ничего обучать, можно взять готовую text2image модель (Latent Diffusion) и итеративно вычислить эмбеддинги псевдотокенов для нужных картинок.
Статья, блог, GitHub
P.S. Новость подглядел тут.
Некоторые концепты сложно выразить существующими словами, их проще показать на примерах. Поэтому в Nvidia предложили использовать гениальный и простой трюк — превращать картинки в «псевдо-слова», а точнее, находить эмбеддинг несуществующего токена (p-tuning), который будет соответствовать требуемому визуальному концепту. Дальше это «псевдо-слово» можно вставлять в текст и генерировать сложные композиции (см. картинку).
Такой техникой можно сгенерировать изображение по тексту:
«A и B держат в руках С в стиле D»,
где A,B,C,D — это псевдотокены с заранее вычисленными по примерам картинок эмбеддингами.
Самое крутое здесь то, что не нужно ничего обучать, можно взять готовую text2image модель (Latent Diffusion) и итеративно вычислить эмбеддинги псевдотокенов для нужных картинок.
Статья, блог, GitHub
P.S. Новость подглядел тут.
👍23🔥6
Интересная статья: в Гарварде выяснили, что модные text-to-image модели совсем не понимают концепцию отношений между объектами.
#paper #ai_inside
Подробнее:
Человек с рождения вырабатывает понимание отношений между объектами. Пример: “имова лежит на иорае”. Даже если вы не знаете, что такое ”имова” или “иорая”, вы прекрасно понимаете, что “что-то лежит на чем-то”.
Понимание идеи отношений между объектами — одно из главных свойств человеческого восприятия и здравого смысла. И если мы хотим создать AI, имитирующий человека, этот AI тоже должен понимать идею relations.
Но, например, DALL-E 2 этого не умеет. Только 22% сгенеренных ею картинок отражают самые базовые понятия отношений между объектами. Пример того, как DALL-E 2 не справляется с пониманием простой связи — на картинке к посту.
Вот так вот. Еще один камень в огород тех, кто считает, что General AI — это просто огромная нейронка, которой нужно скормить много-много данных. Вот DALL-E 2 скормили, но разума она не особо набралась ¯\_(ツ)_/¯
📃Статья
#paper #ai_inside
Подробнее:
Человек с рождения вырабатывает понимание отношений между объектами. Пример: “имова лежит на иорае”. Даже если вы не знаете, что такое ”имова” или “иорая”, вы прекрасно понимаете, что “что-то лежит на чем-то”.
Понимание идеи отношений между объектами — одно из главных свойств человеческого восприятия и здравого смысла. И если мы хотим создать AI, имитирующий человека, этот AI тоже должен понимать идею relations.
Но, например, DALL-E 2 этого не умеет. Только 22% сгенеренных ею картинок отражают самые базовые понятия отношений между объектами. Пример того, как DALL-E 2 не справляется с пониманием простой связи — на картинке к посту.
Вот так вот. Еще один камень в огород тех, кто считает, что General AI — это просто огромная нейронка, которой нужно скормить много-много данных. Вот DALL-E 2 скормили, но разума она не особо набралась ¯\_(ツ)_/¯
📃Статья
👍50👏5🔥3🤔1