Telegram Web Link
Foundation Models in Computer Vision, часть 2.

Тут разберем идеи обучения CV моделей, которые можно назвать кандидатами на получение foundation model in CV.

1️⃣ SAM (Segment Anything Model).
SAM — это модель от Meta AI, обученная на огромном датасете для сегментации изображений. Датасет содержит 11 млн картинок и 1.1 млрд масок сегментации. Из-за того, что SAM была обучена на таком огромном количестве данных, это получилась действительно мощная модель. Она способна на одном изображении сегментировать сразу множество объектов, включая объекты небольшого размера и даже те, что модель не видела во время обучения.

В этом плане SAM действительно можно назвать foundation model — она много понимает об объектах, и ее можно успешно дообучать на новые задачи. Но тут есть нюанс: это supervised модель. Для ее обучения нужны размеченные данные. Поэтому масштабировать SAM сложно. Тут, правда, надо сказать, что авторы статьи предложили способ получения датасета сегментаций, который наполовину ручной, а наполовину автоматический. Возможно, таким способом можно будет легче получать еще большие датасеты сегментаций и масштабировать SAM. Но на 100% заменить ручную разметку автоматикой не удастся, особенно если захочется идти "вглубь": собрать датасет, где сегментированы мелкие части объектов.

Устройство SAM я подробно разбирала в статье тут.

2️⃣ Модели для генерации картинок (Stable Diffusion & co). Тут мысль такая: чтобы научиться хорошо генерировать картинки, нужно действительно много понимать о сути и взаимодействии объектов на изображении. Тут нужно большее понимание природы объектов, чем чтобы научиться решать какую-то задачу по входящей картинке (классификацию/детекцию/...). Поэтому если учить модель генерировать high-res картинки со сложными объектами и взаимодействиями между ними, модель в процессе обучения начнет много "понимать" о данных и построит полезные внутренние представления объектов. А еще эта задача по самой своей сути масштабиреума.

Еще круче учить модель генерировать картинку на основе текста. Так модель учится понимать не только связи между объектами на изображении, но и связи между визуальными объектами и текстовым представлением. И из такой модели можно получить еще более крутые представления.
Конечно, для text-to-image моделей нужна разметка данных. Но такие данные собираются чаще всего автоматически, не вручную, что уже хорошо.

3️⃣ Третий кандидат на получение foundation model в CV — разные подходы self-supervised обучения (SSL). До недавнего времени все идеи SSL на картинках не позволяли получить модели, которые бы выучивали достаточно хорошее внутреннее представление. Но в 2021 году предложили крутую идею: Masked AutoEncoders (MAE). Об этой нейронке я писала пост вот тут. Идея такая — берем изображение, делим его на патчи, случайные патчи закрываем, подаем на вход автоэнкодеру. Задача автоэнкодера — восстановить закрытые патчи.

Такой MAE правда выучивает полезные внутренние представления, которые потом можно использовать в downstream задачах. Из этой работы выросла более общая идея Masked Learning — когда мы какую-то модель (не обязательно автоэнкодер) обучаем восстанавливать закрытые части картинки. Этот подход отлично показал себя во многих задачах. К примеру, в начале 2023 года в Гугле придумали text-to-image модель Muse, которая брала SOTA, и была основана не на диффузии. Внутри нее — трансформер, который учится как раз на задачу Masked Learning. Эту модель я разбирала тут.

А совсем недавно Meta AI выпустили DINO-v2 — новую self-supervised модель для картинок. Она бьет SOTA среди всех self-supervised моделей, и выучивает действительно полезные представления. Одно из основных отличий DINO-v2 от DINO-v1 — в том, что во второй версии к обучению модели добавили Masked Learning.

В общем, идея masked learning кажется мне хорошим кандидатом на идею обучения, которая приводит к foundation model. Тут еще можно заметить аналогию с NLP: там языковые модели тоже обучаются на задачу masked language modeling.

Какие-то такие у меня сейчас мысли. Буду рада обратной связи)
45🔥29👍22🎉9👏8😁8🥰6🤩6❤‍🔥3💯32
Как не забывать теорию Deep Learning и учить новое?
#промо

Можно подписаться на канал DeepSchool! Авторы канала — практикующие ML-инженеры, и они понятным языком расскажут вам о своей работе.

В канале вы найдете:
- короткие посты с теорией;
- разборы статей;
- советы по обучению сетей;
- вопросы с собеседований;
- и обзоры фреймворков.

Примеры постов:
1. Обзор ключевых идей MobileNet — что делает эту архитектуру столь эффективной;
2. Инструкция: на что обращать внимание при выборе и подготовке датасета;
3. Что такое attention;
4. Об асинхронности вычислений на GPU;
5. Вопрос с собеседования на дообучение сегментационной модели.

Кроме этого, в канале бывают живые интервью с людьми из ML-сферы. Например, вот интервью с Владом Лялиным — PhD студентом в University of Massachusetts Lowell. Говорили про то, как попасть на PhD в США, как подготовиться к собеседованию на стажировку в Google, Apple, Amazon, и про отличия DS-сообществ СНГ и США.

Подписывайтесь, чтобы прокачиваться в ML и узнавать новое вместе c нами =)
🔥5722👍14👎4🤮4💩4🤔2
Сегодня в сенате США выступал Сэм Альтман (CEO OpenAI). Тема заседания — риски и регулирование AI. Были выступления нескольких людей, включая Альмана, а также ответы на вопросы.
#ai_inside

Я посмотрела только малую часть, поэтому суммаризовать не берусь. К тому же, говорят, что почти все там было по делу, и поэтому краткий пересказ вряд ли вообще возможен. Но все же хочу написать пару мыслей касательно этого события:

Во-первых, было ожидаемо, что Сэм Альтман будет появляться на подобных мероприятиях. Ожидаемо после публикации OpenAI текста "Planning for AGI and beyond". Он суммаризует видение компании о том, как должно выглядеть дальнейшее развитие AI, какие риски оно может нести и как эти риски можно нивелировать. Подробно о тексте я писала тут. Один из главных пунктов там — это сотрудничество между крупными AI-игроками, прозрачная проверка всех выпускаемых моделей и сотрудничество с государством. Вот мы и видим, как OpenAI в лице Альтмана к государству приходит.

В посте про "Planning for AGI and beyond" я писала, что меня пункт про "сотрудничество с государством" пугает. Пугал он потому, что было непонятно, как именно компания собирается сотрудничать. Но если под "сотрудничеством" имелись в виду подобные публичные дискуссии, просвещение политиков о состоянии AI и совместная разработка идей, как именно AI сферу нужно регулировать, то я такое поддерживаю. Конечно, тут еще нужно, чтобы государство было адекватным и сотрудничало именно в таком ключе, но это уже не ответственность OpenAI.

Почему я такое поддерживаю, прекрасно иллюстрирует еще одна сегодняшняя новость: в Европе собрали AI Act — документ, который предлагает лицензировать все AI-модели, которые используются на территории ЕС. Умные люди говорят, что его принятие просто заглушит любой opensource в ЕС, и это повлечет за собой закрытие многих AI-based продуктов там. На всякий случай: акт еще не приняли, но могут принять.

Мне это видится так: политики ЕС чуток испугались AI-штук, и решили посильнее закрутить страшной штуке гайки. А пугаются люди чаще всего тогда, когда не понимают. В парламент ЕС Сэмы Альтманы не приходили и дискуссий не вели (ну или я об этом не слышала), поэтому понимание взять неоткуда. А в США на той же самой сегодняшней дискуссии, кстати, прозвучала обратная мысль относительно opensource: вставлять палки в колеса opensource-решениям мы не будем, потому что это замедлит AI-индустрию (по крайней мере, Денис пишет, что эта мысль в выступлении была, я до нее не досмотрела)
Ну или я не права, и ЕС понимают что-то лучше США) Или просто сильнее боятся. Или же ЕС сильнее беспокоится за безопасность, а США больше заинтересованы в экономике и деньгах, которые приносят AI-компании.

Ну и из этого всего еще такая мысль: меня пару раз спрашивали (звучит-то как пафосно, но правда спрашивали)) о том, как, по моему мнению, будет развиваться вся эта история с регулированием AI, которого пока нет, но которое очень нужно. Я отвечала примерно так: когда люди сталкиваются с чем-то новым, они еще не знают, как себя вести и что делать, поэтому их мотает в крайности. Где-то будут технологии запрещать совсем (а-ля как этот акт в ЕС или запрет ChatGPT в Италии), где-то будут регулировать по-минимому (как opensource в США). Где-то будут паниковать, где-то — с оптимизмом смотреть в будущее. Какое-то время общество помотает из стороны в сторону, но потом на опыте себя и других стран все придут в примерный баланс, и в конце концов будет выработан единый "костяк" идеи регулирования AI-сферы.

К слову, вот это вот "мотание в крайности" заметно не только в сфере регулирования, но и в науке. Вспомните Юдковского (и уже, отчасти, Хинтона), которые наводят панику вокруг AI и сулят неминуемую катастрофу. А с другой стороны — Ян ЛеКун, который уже в нескольких интервью говорил, что ничего близкого к Терминатору у нас нет и бояться нечего. Ну или, по крайней мере, очень рано.
Думаю, что через какое-то время, когда мы поковыряем GPT-4 получше, сообщество тоже больше поймет о современном состоянии и перпективах AI, и придет в большее равновесие.

Вот как-то так. Ваши мысли?)
👍5113🕊10🤮3👎1🤔1💩1
Новая работа на тему реконструкции текста на основе сигналов МРТ головного мозга

Ребята из Техасского университета предложили новый метод реконструирования текста, который слышит человек, на основе МРТ-сигнала мозга. Причем декодирование происходит в связный текст, который семантически близок к реальному.

Как обычно, дислеймер: я мало понимаю в методах нейробиологии и том, как оценивать качество таких исследований. Также из-за этого не могу разобраться в некоторых нюансах работы. Если я где-то ошиблась, пишите об этом в комментарии.

Итак, задача реконструкции текста на основе сигналов головного мозга:

Задачу декодирования текста, которую слышит (или даже мысленно произносит) человек, пытались решать и раньше. Подходы тут делятся на два вида по тому, как извлекается сигнал из мозга. Первый вид — инвазивные методы извлечения сигнала. Это когда в голову человеку вживается чип, который считывает сигналы непосредственно с нейронов в мозга. Эти подходы, понятно, дорогие и сложные. Второй вид — неинвазивные методы извлечения сигнала, такие как МРТ, М/ЭЭГ. Эти подходы дешевле и проще, голову никому сверлить не надо.

Но у неинвазивных методов получения сигналов мозга есть большой недостаток. Когда человек подвергается какому-то стимулу (например, слышит слово), этот стимул влияет на показатели МРТ примерно в течение 10 секунд. Человек, который бегло говорит на английском языке, произносит примерно 2 слова в секунду. Получается, если записывать сигнал МРТ во время прослушивания английской речи, каждая МРТ-картинка будет содержать информацию об обработке мозгом примерно двадцати слов.

Из-за этого точно восстановить текст, который слышит человек, по МРТ не получается. И многие прошлые работы по теме восстановления текста по сигналам мозга, полученным неинвазивными методами, умели хорошо восстанавливать только отдельные слова и фразы.

А ребята из Техаса придумали, как по МРТ восстанавливать (почти) связный текст. Этот текст не будет точно таким же, что в реальности слышал человек. Но он будет семантически похож, т.е. будет отражать в целом правильный смысл.

Очень общая идея метода:
Сначала обучаем сеть-энкодер, которая учится по куску текста восстанавливать МРТ-картину могза, соответствующую этому куску текста. Затем берем предобученную языковую модель (например, GPT), и делаем следующее:
Каждые две секунды просим GPT сгенерировать несколько вариантов продолжения текста. Эти несколько вариантов подаем на вход сети-энкодеру, который по ним пытается обратно восстановить текущую МРТ-картину. Тот вариант текста, по которому удалось получить наиболее похожий на реальный МРТ-сигнал, считаем верным.

Таким нехитрым способом авторы получают (почти) связный текст по сигналам МРТ со смыслом, в основном отражающим смысл оригинала. Конечно, есть семантические ошибки, но статистически сгенерированные тексты по нескольким метрикам действительно ближе к оригиналу, чем случайный текст.

Вот пример:
Оригинал: I didn't know whether to scream cry or run away instead I said leave me alone I don't need your help adam disappeared and I cleaned up alone crying
Генерация: Started to scream and cry and then she just said I told you to leave me alone you can't hurt me anymore I'm sorry and then he stormed off thought he had left I started to cry

Если применить эту идею к воображаемой речи, а не к прослушиванию чужих записей, то у такой технологии будет масса применений. Авторы этой статьи даже провели эксперимент по реконструкции воображаемой речи. Опять же, полученные тексты оказались более близкими к оригиналам, чем случайные. Т.е. метод как-то работает.

А еще с помощью подобных моделей можно исследовать функции разных частей мозга. В этой работе МРТ сигнал брался с трез разных частей мозга, которые обрабатывают слышимую речь. Добавляя и убирая сигналы с разных частей мозга из входа модели, можно что-то понимать о том, какую часть информации обрабатывает какая часть мозга. А еще можно сравнивать реконструкции модели-энкодера на основе сигналов из разных частей.

📄 Статья
Инфу о ней прочитала у Дениса
🔥39👍16🤯133👎1
А у меня анонс: в четверг, 25 мая, в 18:00 МСК на YouTube-канале DLSchool будет живая лекция про беспилотные автомобили от Александра Петюшко. Вход свободный, во время лекции можно и нужно будет задавать вопросы. Запись будет.
#learning

Более подробно о лекции и спикере:

Тема встречи: Введение в технический стек беспилотных автомобилей. Открытые проблемы и вызовы.
Начнем рассказ с того, как устроены современные беспилотники с технической точки зрения. Затем перейдем к проблемам и вызовам, которые сейчас остро стоят в беспилотниках. Особенно подробно обсудим проблемы в поведенческой части технологии. А еще затронем тему регулирования беспилотных автомобилей в мире: насколько регуляция вредит или помогает разработке.
Обсуждение будет построено на основе материалов открытых лекций, которые Александр читал в университете Беркли.

О спикере: Александр Петюшко (Google Scholar) — технический руководитель направления Исследования Поведения в Nuro. Nuro — это компания-разработчик беспилотных автомобилей из Калифорнии. До Nuro Александр работал ведущим инженером и научным экспертом в Huawei, а также управляющим директором и ведущим научным сотрудником в AIRI. Кроме этого, Александр читает лекции по теории глубокого обучения в МГУ и МФТИ. А еще он был гостем подкаста Deep Learning Stories аж два раза: в первый раз мы говорили с ним о собеседованиях в AI Research, а во второй — о математике в deep learning.

Приходите! Будет интересно)
(В день лекции еще напомню о ней тут)
👍70🔥232🦄2
Такс, еще один анонс: на следующей неделе я буду записывать новый выпуск подкаста Deep Learning Stories. Гостьей будет Ольга Кардымон — научный сотрудник и руководитель группы «Биоинформатика» Института искусственного интеллекта AIRI
#podcast

С Ольгой планируем обсудить:
- Языковые модели в работе с ДНК и белками. Почему NLP вообще подходит для изучения ДНК и белков и зачем нужна языковая модель ДНК;
- Последние достижения в генетике и биоинформатике;
- Что получило человечество после появления Alphafold;
- Путь Ольги в науке: из чистой биологии до AI.

Как обычно, перед записью мне нужны ваши вопросы. Что вам было бы интересно узнать у Ольги? Пишите вопросы в комментарии, и во время записи мы добавим эти вопросы в программу.

P.S. Прошлые выпуски подкаста Deep Learning Stroeis можно найти тут:
- Yandex Music
- Apple Music
- Google Music
- Spotify
- Anchor.fm
- YouTube
🔥49👍124🦄1
Все забывала написать: уже с прошлой субботы идет DataFest. Это бесплатная открытая конференция, где с докладами выступают специалисты по AI в разных областях: CV, NLP, MLOps, и т.д. Фест будет идти до 4 июня.

Сегодня будут доклады в секции по NLP + RLHF. Это та тема, с помощью которой обучаются современные языковые модели (ChatGPT и иже с ними). Вас ждет интро в RLHF, воркшоп по тому, как заводить LLM + RLHF, разбор Instruction tuning и еще пара докладов вокруг темы.

Конкретнее:
- В 14:00 будет выступления Игоря из Сиолошной, он расскажет интро в RLHF (выступление в записи);
- В 17:00 будет воркшоп по LLM + RLHF;
- В 19:00 будет доклад "Instruction tuning: что, почему и как" от меня (я буду выступать онлайн вживую)
Между этими выступлениями есть и другие, подробнее — в программе феста.

Ссылки:
Подробная программа
Тг-канал DataFest
Стрим DataFest на YouTube (уже идет, сейчас утренние доклады)
Spatial.Chat — это платформа для просмотра вебинаров, где можно и нужно задавать вопросы спикерам. Пароль от Spatial.Chat: festparroteverywhere23

P.S. Если вам интересно, что я забыла в секции по NLP, хотя занимаюсь я CV, то я тоже не знаю. Я мимо проходила, меня позвали выступить)
🔥39👍72🦄1
Записали подкаст с Ольгой. Вышло очень классно, мне было оочень интересно! Как смонтируется запись, выложу ее везде и напишу об этом.

В конце Ольга упомянула, что в AIRI открылся прием заявок на летнюю школу по AI. Школа будет 17-30 июля в Татарстане. В программе — лекции, семинары и практика. Среди преподавателей — Евгений Бурнаев, Дмитрий Ветров, Александр Панов и другие.

Направления:
– RL (обучение с подкреплением)
– робототехника
– 3D компьютерное зрение
– генеративное и вероятностное моделирование
– моделирование данных на многообразиях машинного обучения
– графовые нейронные сети
– детектирование и диагностика аномалий по сенсорным данным

Школа бесплатная. Подробная информация и подача заявки на сайте. (подача до 4 июня)

P.S. Лекции прошлогодней школы AIRI выложены на YouTube
#learning
🔥32❤‍🔥10👍4🦄411
What do self-supervised transformers learn?
#paper

В этой статье авторы сравнивают две модели self-supervised vision transformer (SSL-ViT), обученные разными способами: contrastive learning (CL) и masked image modeling (MIM). Оказывается, эти две модели выучивают разное внутреннее представление изображений, которые по-разному влияют на способность этих моделей дообучаться под разные виды задач. Более того, внутренние представления CL и MIM в некотором роде "дополняют" друг друга. Т.е. модель, обученная с помощью CL+MIM, может быть в целом более "мощной", чем каждая из них в отдельности.

Подробнее:

Авторы статьи обучили ViT с помощью CL и MIM и проанализировали их карты внимания (attention maps). Выводы такие — трансформер, обученный на CL, обращает больше внимания на "глобальные" паттерны, такие как формы крупных объектов на картинке. MIM же больше внимания обращает на локальные паттерны.

Чтобы лучше понять, что это значит, рассмотрим пример. На картинке к посту вы видите:
- изображение фламинго (слева);
- карты внимания двух голов трансформера-CL на слоях 1, 4 и 11 (посередине);
- карты внимания двух голов трансформера-MIM на слоях 1, 4 и 11 (справа).

Видно, что карты внимания CL начинают как бы "сегментировать" объект на картинке, особенно на последних слоях. При этом карты внимания разных голов начинают быть все более похожими на последних слоях — все они начинают обращать внимание на одни и те же части картинки.
А карты внимания MIM остаются разными для разных голов и на последних слоях. При этом видно, что MIM обращает внимание на локальные части картинки.

Чем это все хорошо/плохо и какие выводы можно сделать, обсудим в посту ниже ⬇️
👍24🔥9❤‍🔥3🥰31
What do self-supervised transformers learn? (продолжение)

К чему приводят особенности внутренних представлений картинок у CL и MIM, которые мы обсудили в посте выше:
1️⃣ ViT, обученный с помощью CL, довольно просто использовать для решения задач типа классификации. Достаточно прицепить к эмбеддингам CL один линейный слой и обучить ее на нужную задачу классификации (сама модель SSL-ViT при этом остается замороженной). Скор будет хороший. А вот с ViT, обученным с помощью MiM, так не выйдет — если на основе его эмбеддингов обучать линейный слой, результаты классификации будут не очень хороши.
Это объясняется как раз тем, что CL "выделяет" формы главных объектов на изображении, и с помощью этой информации линейному слою очень просто научиться объекты классифицировать. А MiM такой понятной информации не выделяет.
2️⃣ А вот если дообучать саму модель ViT-CL, на другие задачи, то она будет давать худший результат, чем если дообучать ViT-MiM. Это следствие того, что ViT-CL выучивает менее разнообразные представления картинок. По сути, ViT-CL концентрируется только на выделении форм крупных объектов. А ViT-MIM выделяет больше разнообразной информации из картинки, и эта информация часто оказывается полезной при дообучении ViT-MIM на новые задачи.
3️⃣ При увеличении количества голов attention в ViT-MIM, внутреннее представление картинок в модели становится еще более разнообразным. А для ViT-CL это неверно. Получается, идея обучения ViT-CL как бы не "скейлится", то есть, не получится заставить модель выучить что-то "более умное", просто увеличив ее размер и скормив ей больше обучающих данных.
4️⃣ Большинство информации в ViT-CL содержится в последних слоях, в ViT-MIM — в начальных слоях. Авторы выяснили это так: обучали линейный слой на заадчу классификации на основе первых или последних слоев модели. Результаты получились лучше при обучении на первых слоях ViT-MIM и последних слоях ViT-CL
Это логично, потому что первые слои моделей обычно "обращают внимание" на низкоуровневые, локальные паттерны (которые важны для MIM), а дальние сли — на высокоуровневые, глобальные паттерны (на которых фокусируется CL).
5️⃣ Авторы также проверили, на сигналы какой частоты модели ViT-CL и ViT-MIM обращают внимание. Оказалось, что ViT-CL больше основывается на низкочастотных компонентах изображения, а ViT-MIM — на высокочастотных. Это логично, так как информация о форме объектов закодирована в низких частотах, а локальные паттерны — в высоких.

Ну и теперь вишенка на торте. Мы только что поняли, что ViT-CL и ViT-MIM отлично дополняют друг друга: одна модель обращает внимание на глобальные паттерны и низкие частоты, вторая — на локальные паттерны и высокие частоты. Почему бы тогда не объединить эти два подхода? К тому же, выше мы сказали, что для ViT-CL "более важны" последние слои, а для ViT-MIM — начальные слои. Кажется, что два подхода вместе как раз смогут "поделить" слои между собой и эффективно использовать все карты внимания на всех слоях.

Авторы так и сделали. Взяли ViT и обучили его с помощью взвешенной комбинации лосс-функций. Результаты получились лучше, чем у отдельных моделей, как при обучении линейного слоя поверх эмбеддингов, так и при дообучении модели на новые задачи.

Статья. В ней найдете описания экспериментов для подтверждения всех слов этого поста и еще несколько интересных выводов о работе ViT-CL и ViT-MIM
👍35🔥24🥰4❤‍🔥22
Как с помощью телеграм-бота разобраться, какие видео содержат ответы на вопросы?
#промо

Освойте метрики ранжирования в задаче NDCG из Симулятора ML. Вам предстоит помочь телеграм-боту CyberTolya понять, какие видео с YouTube-канала karpov.courses релевантны вопросам студентов. Кстати, сейчас эта задача доступна в бесплатной демоверсиии курса. 

В Симуляторе более 50 задач бизнеса, решив которые вы прокачаетесь не только в рекомендательных системах, но и в динамическом ценообразовании, матчинге, моделях прогноза, А/В-тестах и тестировании кода на Python.

Симулятор работает в режиме подписки и постоянно пополняется новыми задачами.

Присоединяйтесь!
💩18👍7👎5😐4🥱2🥰1🤮1
Media is too big
VIEW IN TELEGRAM
К теме об интерпретации внутренних представлений трансформеров: ребята из Гарварда и и Google Research сделали сайт Attention Viz с визуализацией key и query векторов разных голов self-attention разных трансформеров. Сайт тут.

В общих словах работает это так: авторы берут трансформер (например, BERT), подают ему на вход какой-то объект (например, предложение на английском языке). Далее для каждой головы self-attention получают key и query векторы каждого входящего токена. Делают так для кучи разных входов (например, кучи разных предложений), получают много key и query векторов для каждой головы self-attention. К этим векторам применяют метод понижения размерности (PCA, TSNE или UMAP), и сжатые векторы визуализируют в двумерном или трехмерном пространстве.

Таким образом можно смотреть, как относительно друг друга в пространстве расположены key и query векторы, соответствующие разным токенам в разных контекстах. Можно искать паттерны, которые тут возникают и понимать, на какую информацию "обращает внимание" та или иная голова self-attention. К примеру, визуализировав сжатые векторы key и query голов внимания Vision Transformer, авторы нашли голоы, которые обращают много внимания на яркость или цвет патча картинки.

Сейчас Attention Viz анализирует attention 4 видов трансформеров: GPT-2, BERT (текст), и два вида ViT (картинки).
Визуализация интерактивная: можно открыть визуализацию key-query эмбеддингов одной конкретной головы и смотреть, какие точки соответствуют каким токенам, из какого предложения/картинки этот токен был взят, и к каким другим токенам он близок.

Ссылки:
Сайт. Тут краткое описание принципа работы тулзы и что она умеет;
Демо Attention Viz;
Статья. Тут подробнее про построение визуализации и паттерны, которые авторы нашли с помощью своего инструмента.
🔥46👍15❤‍🔥21
А прикиньте что: тут вышел подкаст с моим участием!
#podcast

Machine Learning Podcast: #046 ML Татьяна Гайнцева. Чего не хватает для AGI, как учиться в Физтехе, чтобы доучиться и почему преподавать - это круто

Этот выпуск мы записывали еще в конце декабря 2022, прям под Новый Год. Вообще я долго отказывалась участвовать, считала, что мне особо нечего сказать) но Миша (автор подкаста) просил несколько раз, так что вот, записали 🌝

О чем говорили:
- мой путь в DL и AI research от самой школы до сейчас;
- про DLSchool и учебу в МФТИ;
- мои мысли о развитии AI

Слушать тут (ой как мне неловко, вы бы знали...)

А еще более прикольная новость состоит в том, что в начале мая мы записали вторую часть) С декабря по май AI продвинулся довольно далеко (читай: выпустили GPT-4), да и мое направления рисерча в аспирантуре обрело какую-то более понятную форму. Вот второй выпуск про это и будет.
Как выйдет, я о нем, конечно, тоже напишу. Но meanwhile можно еще на канал Миши подписаться, там он выкладывает все выпуски подкаста и другие интересные посты.
🔥6220👍13🥰6👎1👏1👌1
В прошлый четверг в Кембридже выступал Джефф Хинтон с докладом "Two Paths to Intelligence". Я на нем была вживую (фоточка как доказательство).

Доклад состоял из двух частей:
- Интеллект аналоговый (в "физическом" теле) vs интеллект цифровой. Идеи, как можно построить аналоговый AI, какие тут есть сложности, достоинства и недостатки. И почему цифровой интеллект может стать "умнее, чем человек" (простой ответ — он может обрабатывать больше информации и лучше скейлится, чем человек)
- Опасность super intelligence: how a super intelligence may take control и почему Хинтон не так давно изменил свою точку зрения и присоединился к мнению об опасности AGI

Записи доклада еще нет, но ее обещают выложить. Дам ссылку, когда появится.

Ниже напишу пару слов про про вторую часть доклада (опасность AI) ⬇️

(Первая часть тоже очень интересная, но мне сначала нужно пересмотреть выступление и прочитать связанную с ним статью, чтобы собрать мысли в кучку)
#ai_inside
🔥137👍3514❤‍🔥6🤮1
Для начала скажу, что поехала я на этот ⬆️ доклад, чтобы послушать, что насчет опасности AI скажет человек, который давно плотно занимается наукой в области AI. Именно наукой, а не философией, как Юдковский, к примеру. Наверное, по постам выше вы видели, что вообще мне скорее близка позиция ЛеКуна в плане опасности AI: я не разделяю паники и считаю, что настолько паниковать, чтобы как-то запрещать разработку AI, еще рано (ну и еще бессмысленно). Но также я понимаю, что явно не знаю всего, и легко могу в своих суждениях быть не права (да и я в принципе немного наивный и иногда овероптимистичный человек). А когда серьезный человек вроде Хинтона выражает свое мнение, то хочется послушать его рассуждения на этот счет.
👍65
Тут главных поинтов Хинтона, на мой взгляд, было два. Первый такой:

Вероятный сценарий, как AI может захватить над нами власть: смотрите, мы создаем AI, чтобы AI решал какие-то задачи. В идеале, мы хотим, чтобы AI научился решать довольно сложные и абстрактные задачи. А такие задачи обычно требуют разбиения на подзадачи и их выполнения. Очень вероятно, что для эффективного решения какой-нибудь задачи AI поставит себе промужуточную цель "получить больше контроля над Х", где Х — что угодно. И также вероятно, что AI додумается до того, что чтобы получить больше контроля над Х, для этого можно использовать людей. Отсюда у AI возникнет цель манипулировать человеком. А этому AI легко сможет научиться, копируя наше поведение (да хоть через тексты, в литуратуре таких примеров полно).

Получается, даже не имея "сознательной" цели захватить власть и уничтожить человеков, AI сможет это сделать. И велика вероятность это "проглядеть". Ну и, как бы, это не очень приятно.

В конце в секции QA к этому еще был вопрос:
Q: “Why do you think these AI systems will manipulate us?”
Hinton: “We are training neural networks on all of Machiavelli and then do you think they will not be able to manipulate us?”
👍7310😁8🔥3
Поинт номер два: очень многие аргументы, почему AI еще далек от реального "интеллекта" заключаются в том, что "у AI нет субъективного опыта, отсюда не может быть и сознания. И вообще мы, люди, в этом смысле особенные". И из того, что "у AI нет субъективного опыта" типа следует, что "AI никогда не сможет понять мир так, как человек".

Так вот, Хинтон верит, что это не так. Что механизм "субъективного восприятия" людей имеет аналог и у AI.

Тут сразу disclaimer: этот пункт — не строгое утверждение с доказательством, а, скорее, философские рассуждения и пища для размышлений. А еще я не на 100% уверена, что правильно поняла посыл (как появится видео, пересмотрю).

Так вот. Подумаем, что такое субъективный опыт. Пусть, к примеру, человек съел много лсд (это не я, это Хинтон так сказал!!). И теперь этот человек видит перед собой маленьких розовых слонёнков. Это субъективный опыт. Теперь: что делает этот человек, если хочет, чтобы другие поняли, что с ним происходит? Он не рассказывает другим, что именно происходит у него в голове, т.е. какие у него там загораются нейроны и как работает мозг. Он рассказывает, какой стейт реальности он видит. Т.е. "я испытываю что-то, что приводит к тому, что я вижу маленьких розовых слонёнков". И субъективным опытом тут можно назвать проекцию внутреннего состояния разума на стейт реальности.
То есть, вот было у вас внутреннее состояние мозга до приема лсд. И после приема лсд вы видите маленьких розовых слонёнков. Субъективный опыт — это процесс работы вашего мозга, который произошел с момента приема лсд до того, как вы увидели слоненков. Он субъективный, потому что у вас было свое, уникальное состояние мозга.

Хорошо, теперь посмотрим на GPT-4. Допустим, что вы — Хинтон, и вы общаетесь с GPT-4. И в какой-то момент понимаете, что GPT-4 считает вас девочкой 16 лет (это тоже пример Хинтона, если что). Вы смеетесь, прокручиваете диалог вверх и действительно находите некоторые свои фразы, которые при определенном толковании могли заставить собеседника считать, что вы — девочка 16 лет.
Что тут произошло? У GPT-4 в момент вашего разговора было такое внутреннее состояние, что из-за этих самых неоднозначных фраз GPT-4 подумал, что вы — девочка 16 лет. Это и есть субъективный опыт, который мы описали выше — внутреннее состояние модели + внешнее воздействие заставило модель решить, что вы — девочка 16 лет. Заставило модель "испытать ощущение, подумать", что вы — девочка 16 лет.

Еще раз: этот пункт оочень философский, без четких утверждений и доказательств. Начнем хотя бы с того, что никто не знает точно, что такое "субъективный опыт", а мы тут манипулируем этим термином. Перед тем, как это все рассказывать, Хинтон сам даже сказал: "сейчас мы перейдем к действительно crazy stuff")
Но это как минимум заставляет задуматься над тем, что, может быть, человеческие механизмы воприятия не такие уникальные, и их не так уж и невозможно смоделировать.
👍42🔥14🤔93😁3👎1😍1
Вот слайды к пункту номер два. Тут в конце слайда "sentience defence" к пункту "Many people still think we have something special that computers cannot have: subjective experience" есть приписка, что "I checked this by asking GPT-4"

Имеется в виду, что Хинтон спросил у GPT-4 что-то вроде "что люди думают по поводу того, чем они отличаются от ИИ". GPT-4 ответил: люди считают, что они умеют в субъективное восприятие, а компуктеры — нет🙃
В твиттере кто-то записал на видео момент, как Хинтон объясняет этот слайд: вот ссылка

Вообще в выступлении Хинтона было много веселых шутеек, рекомендую посмотреть, как выйдет нормальное видео =)
👍38😁6😱1
2025/07/12 22:16:08
Back to Top
HTML Embed Code: