Telegram Web Link
А у меня анонс: в четверг, 25 мая, в 18:00 МСК на YouTube-канале DLSchool будет живая лекция про беспилотные автомобили от Александра Петюшко. Вход свободный, во время лекции можно и нужно будет задавать вопросы. Запись будет.
#learning

Более подробно о лекции и спикере:

Тема встречи: Введение в технический стек беспилотных автомобилей. Открытые проблемы и вызовы.
Начнем рассказ с того, как устроены современные беспилотники с технической точки зрения. Затем перейдем к проблемам и вызовам, которые сейчас остро стоят в беспилотниках. Особенно подробно обсудим проблемы в поведенческой части технологии. А еще затронем тему регулирования беспилотных автомобилей в мире: насколько регуляция вредит или помогает разработке.
Обсуждение будет построено на основе материалов открытых лекций, которые Александр читал в университете Беркли.

О спикере: Александр Петюшко (Google Scholar) — технический руководитель направления Исследования Поведения в Nuro. Nuro — это компания-разработчик беспилотных автомобилей из Калифорнии. До Nuro Александр работал ведущим инженером и научным экспертом в Huawei, а также управляющим директором и ведущим научным сотрудником в AIRI. Кроме этого, Александр читает лекции по теории глубокого обучения в МГУ и МФТИ. А еще он был гостем подкаста Deep Learning Stories аж два раза: в первый раз мы говорили с ним о собеседованиях в AI Research, а во второй — о математике в deep learning.

Приходите! Будет интересно)
(В день лекции еще напомню о ней тут)
Такс, еще один анонс: на следующей неделе я буду записывать новый выпуск подкаста Deep Learning Stories. Гостьей будет Ольга Кардымон — научный сотрудник и руководитель группы «Биоинформатика» Института искусственного интеллекта AIRI
#podcast

С Ольгой планируем обсудить:
- Языковые модели в работе с ДНК и белками. Почему NLP вообще подходит для изучения ДНК и белков и зачем нужна языковая модель ДНК;
- Последние достижения в генетике и биоинформатике;
- Что получило человечество после появления Alphafold;
- Путь Ольги в науке: из чистой биологии до AI.

Как обычно, перед записью мне нужны ваши вопросы. Что вам было бы интересно узнать у Ольги? Пишите вопросы в комментарии, и во время записи мы добавим эти вопросы в программу.

P.S. Прошлые выпуски подкаста Deep Learning Stroeis можно найти тут:
- Yandex Music
- Apple Music
- Google Music
- Spotify
- Anchor.fm
- YouTube
Все забывала написать: уже с прошлой субботы идет DataFest. Это бесплатная открытая конференция, где с докладами выступают специалисты по AI в разных областях: CV, NLP, MLOps, и т.д. Фест будет идти до 4 июня.

Сегодня будут доклады в секции по NLP + RLHF. Это та тема, с помощью которой обучаются современные языковые модели (ChatGPT и иже с ними). Вас ждет интро в RLHF, воркшоп по тому, как заводить LLM + RLHF, разбор Instruction tuning и еще пара докладов вокруг темы.

Конкретнее:
- В 14:00 будет выступления Игоря из Сиолошной, он расскажет интро в RLHF (выступление в записи);
- В 17:00 будет воркшоп по LLM + RLHF;
- В 19:00 будет доклад "Instruction tuning: что, почему и как" от меня (я буду выступать онлайн вживую)
Между этими выступлениями есть и другие, подробнее — в программе феста.

Ссылки:
Подробная программа
Тг-канал DataFest
Стрим DataFest на YouTube (уже идет, сейчас утренние доклады)
Spatial.Chat — это платформа для просмотра вебинаров, где можно и нужно задавать вопросы спикерам. Пароль от Spatial.Chat: festparroteverywhere23

P.S. Если вам интересно, что я забыла в секции по NLP, хотя занимаюсь я CV, то я тоже не знаю. Я мимо проходила, меня позвали выступить)
Записали подкаст с Ольгой. Вышло очень классно, мне было оочень интересно! Как смонтируется запись, выложу ее везде и напишу об этом.

В конце Ольга упомянула, что в AIRI открылся прием заявок на летнюю школу по AI. Школа будет 17-30 июля в Татарстане. В программе — лекции, семинары и практика. Среди преподавателей — Евгений Бурнаев, Дмитрий Ветров, Александр Панов и другие.

Направления:
– RL (обучение с подкреплением)
– робототехника
– 3D компьютерное зрение
– генеративное и вероятностное моделирование
– моделирование данных на многообразиях машинного обучения
– графовые нейронные сети
– детектирование и диагностика аномалий по сенсорным данным

Школа бесплатная. Подробная информация и подача заявки на сайте. (подача до 4 июня)

P.S. Лекции прошлогодней школы AIRI выложены на YouTube
#learning
What do self-supervised transformers learn?
#paper

В этой статье авторы сравнивают две модели self-supervised vision transformer (SSL-ViT), обученные разными способами: contrastive learning (CL) и masked image modeling (MIM). Оказывается, эти две модели выучивают разное внутреннее представление изображений, которые по-разному влияют на способность этих моделей дообучаться под разные виды задач. Более того, внутренние представления CL и MIM в некотором роде "дополняют" друг друга. Т.е. модель, обученная с помощью CL+MIM, может быть в целом более "мощной", чем каждая из них в отдельности.

Подробнее:

Авторы статьи обучили ViT с помощью CL и MIM и проанализировали их карты внимания (attention maps). Выводы такие — трансформер, обученный на CL, обращает больше внимания на "глобальные" паттерны, такие как формы крупных объектов на картинке. MIM же больше внимания обращает на локальные паттерны.

Чтобы лучше понять, что это значит, рассмотрим пример. На картинке к посту вы видите:
- изображение фламинго (слева);
- карты внимания двух голов трансформера-CL на слоях 1, 4 и 11 (посередине);
- карты внимания двух голов трансформера-MIM на слоях 1, 4 и 11 (справа).

Видно, что карты внимания CL начинают как бы "сегментировать" объект на картинке, особенно на последних слоях. При этом карты внимания разных голов начинают быть все более похожими на последних слоях — все они начинают обращать внимание на одни и те же части картинки.
А карты внимания MIM остаются разными для разных голов и на последних слоях. При этом видно, что MIM обращает внимание на локальные части картинки.

Чем это все хорошо/плохо и какие выводы можно сделать, обсудим в посту ниже ⬇️
What do self-supervised transformers learn? (продолжение)

К чему приводят особенности внутренних представлений картинок у CL и MIM, которые мы обсудили в посте выше:
1️⃣ ViT, обученный с помощью CL, довольно просто использовать для решения задач типа классификации. Достаточно прицепить к эмбеддингам CL один линейный слой и обучить ее на нужную задачу классификации (сама модель SSL-ViT при этом остается замороженной). Скор будет хороший. А вот с ViT, обученным с помощью MiM, так не выйдет — если на основе его эмбеддингов обучать линейный слой, результаты классификации будут не очень хороши.
Это объясняется как раз тем, что CL "выделяет" формы главных объектов на изображении, и с помощью этой информации линейному слою очень просто научиться объекты классифицировать. А MiM такой понятной информации не выделяет.
2️⃣ А вот если дообучать саму модель ViT-CL, на другие задачи, то она будет давать худший результат, чем если дообучать ViT-MiM. Это следствие того, что ViT-CL выучивает менее разнообразные представления картинок. По сути, ViT-CL концентрируется только на выделении форм крупных объектов. А ViT-MIM выделяет больше разнообразной информации из картинки, и эта информация часто оказывается полезной при дообучении ViT-MIM на новые задачи.
3️⃣ При увеличении количества голов attention в ViT-MIM, внутреннее представление картинок в модели становится еще более разнообразным. А для ViT-CL это неверно. Получается, идея обучения ViT-CL как бы не "скейлится", то есть, не получится заставить модель выучить что-то "более умное", просто увеличив ее размер и скормив ей больше обучающих данных.
4️⃣ Большинство информации в ViT-CL содержится в последних слоях, в ViT-MIM — в начальных слоях. Авторы выяснили это так: обучали линейный слой на заадчу классификации на основе первых или последних слоев модели. Результаты получились лучше при обучении на первых слоях ViT-MIM и последних слоях ViT-CL
Это логично, потому что первые слои моделей обычно "обращают внимание" на низкоуровневые, локальные паттерны (которые важны для MIM), а дальние сли — на высокоуровневые, глобальные паттерны (на которых фокусируется CL).
5️⃣ Авторы также проверили, на сигналы какой частоты модели ViT-CL и ViT-MIM обращают внимание. Оказалось, что ViT-CL больше основывается на низкочастотных компонентах изображения, а ViT-MIM — на высокочастотных. Это логично, так как информация о форме объектов закодирована в низких частотах, а локальные паттерны — в высоких.

Ну и теперь вишенка на торте. Мы только что поняли, что ViT-CL и ViT-MIM отлично дополняют друг друга: одна модель обращает внимание на глобальные паттерны и низкие частоты, вторая — на локальные паттерны и высокие частоты. Почему бы тогда не объединить эти два подхода? К тому же, выше мы сказали, что для ViT-CL "более важны" последние слои, а для ViT-MIM — начальные слои. Кажется, что два подхода вместе как раз смогут "поделить" слои между собой и эффективно использовать все карты внимания на всех слоях.

Авторы так и сделали. Взяли ViT и обучили его с помощью взвешенной комбинации лосс-функций. Результаты получились лучше, чем у отдельных моделей, как при обучении линейного слоя поверх эмбеддингов, так и при дообучении модели на новые задачи.

Статья. В ней найдете описания экспериментов для подтверждения всех слов этого поста и еще несколько интересных выводов о работе ViT-CL и ViT-MIM
Как с помощью телеграм-бота разобраться, какие видео содержат ответы на вопросы?
#промо

Освойте метрики ранжирования в задаче NDCG из Симулятора ML. Вам предстоит помочь телеграм-боту CyberTolya понять, какие видео с YouTube-канала karpov.courses релевантны вопросам студентов. Кстати, сейчас эта задача доступна в бесплатной демоверсиии курса. 

В Симуляторе более 50 задач бизнеса, решив которые вы прокачаетесь не только в рекомендательных системах, но и в динамическом ценообразовании, матчинге, моделях прогноза, А/В-тестах и тестировании кода на Python.

Симулятор работает в режиме подписки и постоянно пополняется новыми задачами.

Присоединяйтесь!
Media is too big
VIEW IN TELEGRAM
К теме об интерпретации внутренних представлений трансформеров: ребята из Гарварда и и Google Research сделали сайт Attention Viz с визуализацией key и query векторов разных голов self-attention разных трансформеров. Сайт тут.

В общих словах работает это так: авторы берут трансформер (например, BERT), подают ему на вход какой-то объект (например, предложение на английском языке). Далее для каждой головы self-attention получают key и query векторы каждого входящего токена. Делают так для кучи разных входов (например, кучи разных предложений), получают много key и query векторов для каждой головы self-attention. К этим векторам применяют метод понижения размерности (PCA, TSNE или UMAP), и сжатые векторы визуализируют в двумерном или трехмерном пространстве.

Таким образом можно смотреть, как относительно друг друга в пространстве расположены key и query векторы, соответствующие разным токенам в разных контекстах. Можно искать паттерны, которые тут возникают и понимать, на какую информацию "обращает внимание" та или иная голова self-attention. К примеру, визуализировав сжатые векторы key и query голов внимания Vision Transformer, авторы нашли голоы, которые обращают много внимания на яркость или цвет патча картинки.

Сейчас Attention Viz анализирует attention 4 видов трансформеров: GPT-2, BERT (текст), и два вида ViT (картинки).
Визуализация интерактивная: можно открыть визуализацию key-query эмбеддингов одной конкретной головы и смотреть, какие точки соответствуют каким токенам, из какого предложения/картинки этот токен был взят, и к каким другим токенам он близок.

Ссылки:
Сайт. Тут краткое описание принципа работы тулзы и что она умеет;
Демо Attention Viz;
Статья. Тут подробнее про построение визуализации и паттерны, которые авторы нашли с помощью своего инструмента.
А прикиньте что: тут вышел подкаст с моим участием!
#podcast

Machine Learning Podcast: #046 ML Татьяна Гайнцева. Чего не хватает для AGI, как учиться в Физтехе, чтобы доучиться и почему преподавать - это круто

Этот выпуск мы записывали еще в конце декабря 2022, прям под Новый Год. Вообще я долго отказывалась участвовать, считала, что мне особо нечего сказать) но Миша (автор подкаста) просил несколько раз, так что вот, записали 🌝

О чем говорили:
- мой путь в DL и AI research от самой школы до сейчас;
- про DLSchool и учебу в МФТИ;
- мои мысли о развитии AI

Слушать тут (ой как мне неловко, вы бы знали...)

А еще более прикольная новость состоит в том, что в начале мая мы записали вторую часть) С декабря по май AI продвинулся довольно далеко (читай: выпустили GPT-4), да и мое направления рисерча в аспирантуре обрело какую-то более понятную форму. Вот второй выпуск про это и будет.
Как выйдет, я о нем, конечно, тоже напишу. Но meanwhile можно еще на канал Миши подписаться, там он выкладывает все выпуски подкаста и другие интересные посты.
В прошлый четверг в Кембридже выступал Джефф Хинтон с докладом "Two Paths to Intelligence". Я на нем была вживую (фоточка как доказательство).

Доклад состоял из двух частей:
- Интеллект аналоговый (в "физическом" теле) vs интеллект цифровой. Идеи, как можно построить аналоговый AI, какие тут есть сложности, достоинства и недостатки. И почему цифровой интеллект может стать "умнее, чем человек" (простой ответ — он может обрабатывать больше информации и лучше скейлится, чем человек)
- Опасность super intelligence: how a super intelligence may take control и почему Хинтон не так давно изменил свою точку зрения и присоединился к мнению об опасности AGI

Записи доклада еще нет, но ее обещают выложить. Дам ссылку, когда появится.

Ниже напишу пару слов про про вторую часть доклада (опасность AI) ⬇️

(Первая часть тоже очень интересная, но мне сначала нужно пересмотреть выступление и прочитать связанную с ним статью, чтобы собрать мысли в кучку)
#ai_inside
Для начала скажу, что поехала я на этот ⬆️ доклад, чтобы послушать, что насчет опасности AI скажет человек, который давно плотно занимается наукой в области AI. Именно наукой, а не философией, как Юдковский, к примеру. Наверное, по постам выше вы видели, что вообще мне скорее близка позиция ЛеКуна в плане опасности AI: я не разделяю паники и считаю, что настолько паниковать, чтобы как-то запрещать разработку AI, еще рано (ну и еще бессмысленно). Но также я понимаю, что явно не знаю всего, и легко могу в своих суждениях быть не права (да и я в принципе немного наивный и иногда овероптимистичный человек). А когда серьезный человек вроде Хинтона выражает свое мнение, то хочется послушать его рассуждения на этот счет.
Тут главных поинтов Хинтона, на мой взгляд, было два. Первый такой:

Вероятный сценарий, как AI может захватить над нами власть: смотрите, мы создаем AI, чтобы AI решал какие-то задачи. В идеале, мы хотим, чтобы AI научился решать довольно сложные и абстрактные задачи. А такие задачи обычно требуют разбиения на подзадачи и их выполнения. Очень вероятно, что для эффективного решения какой-нибудь задачи AI поставит себе промужуточную цель "получить больше контроля над Х", где Х — что угодно. И также вероятно, что AI додумается до того, что чтобы получить больше контроля над Х, для этого можно использовать людей. Отсюда у AI возникнет цель манипулировать человеком. А этому AI легко сможет научиться, копируя наше поведение (да хоть через тексты, в литуратуре таких примеров полно).

Получается, даже не имея "сознательной" цели захватить власть и уничтожить человеков, AI сможет это сделать. И велика вероятность это "проглядеть". Ну и, как бы, это не очень приятно.

В конце в секции QA к этому еще был вопрос:
Q: “Why do you think these AI systems will manipulate us?”
Hinton: “We are training neural networks on all of Machiavelli and then do you think they will not be able to manipulate us?”
Поинт номер два: очень многие аргументы, почему AI еще далек от реального "интеллекта" заключаются в том, что "у AI нет субъективного опыта, отсюда не может быть и сознания. И вообще мы, люди, в этом смысле особенные". И из того, что "у AI нет субъективного опыта" типа следует, что "AI никогда не сможет понять мир так, как человек".

Так вот, Хинтон верит, что это не так. Что механизм "субъективного восприятия" людей имеет аналог и у AI.

Тут сразу disclaimer: этот пункт — не строгое утверждение с доказательством, а, скорее, философские рассуждения и пища для размышлений. А еще я не на 100% уверена, что правильно поняла посыл (как появится видео, пересмотрю).

Так вот. Подумаем, что такое субъективный опыт. Пусть, к примеру, человек съел много лсд (это не я, это Хинтон так сказал!!). И теперь этот человек видит перед собой маленьких розовых слонёнков. Это субъективный опыт. Теперь: что делает этот человек, если хочет, чтобы другие поняли, что с ним происходит? Он не рассказывает другим, что именно происходит у него в голове, т.е. какие у него там загораются нейроны и как работает мозг. Он рассказывает, какой стейт реальности он видит. Т.е. "я испытываю что-то, что приводит к тому, что я вижу маленьких розовых слонёнков". И субъективным опытом тут можно назвать проекцию внутреннего состояния разума на стейт реальности.
То есть, вот было у вас внутреннее состояние мозга до приема лсд. И после приема лсд вы видите маленьких розовых слонёнков. Субъективный опыт — это процесс работы вашего мозга, который произошел с момента приема лсд до того, как вы увидели слоненков. Он субъективный, потому что у вас было свое, уникальное состояние мозга.

Хорошо, теперь посмотрим на GPT-4. Допустим, что вы — Хинтон, и вы общаетесь с GPT-4. И в какой-то момент понимаете, что GPT-4 считает вас девочкой 16 лет (это тоже пример Хинтона, если что). Вы смеетесь, прокручиваете диалог вверх и действительно находите некоторые свои фразы, которые при определенном толковании могли заставить собеседника считать, что вы — девочка 16 лет.
Что тут произошло? У GPT-4 в момент вашего разговора было такое внутреннее состояние, что из-за этих самых неоднозначных фраз GPT-4 подумал, что вы — девочка 16 лет. Это и есть субъективный опыт, который мы описали выше — внутреннее состояние модели + внешнее воздействие заставило модель решить, что вы — девочка 16 лет. Заставило модель "испытать ощущение, подумать", что вы — девочка 16 лет.

Еще раз: этот пункт оочень философский, без четких утверждений и доказательств. Начнем хотя бы с того, что никто не знает точно, что такое "субъективный опыт", а мы тут манипулируем этим термином. Перед тем, как это все рассказывать, Хинтон сам даже сказал: "сейчас мы перейдем к действительно crazy stuff")
Но это как минимум заставляет задуматься над тем, что, может быть, человеческие механизмы воприятия не такие уникальные, и их не так уж и невозможно смоделировать.
Вот слайды к пункту номер два. Тут в конце слайда "sentience defence" к пункту "Many people still think we have something special that computers cannot have: subjective experience" есть приписка, что "I checked this by asking GPT-4"

Имеется в виду, что Хинтон спросил у GPT-4 что-то вроде "что люди думают по поводу того, чем они отличаются от ИИ". GPT-4 ответил: люди считают, что они умеют в субъективное восприятие, а компуктеры — нет🙃
В твиттере кто-то записал на видео момент, как Хинтон объясняет этот слайд: вот ссылка

Вообще в выступлении Хинтона было много веселых шутеек, рекомендую посмотреть, как выйдет нормальное видео =)
И последний пост на сегодня (обещаю): что я вообще стала писать об этом докладе спустя неделю.

Вспомнила я о Хинтоне, потому что сегодня вышел Statement on AI Risk — абзац текста, под которым подписались (если верить сайту) многие известные люди, включая Хинтона, Сема Альтмана и Демиса Хассабиса.
Этот текст не призывает ничего нигде запрещать и паниковать, а призывает обратить внимание на возможные риски, связанные с AI. Призывает вести об этом дискуссии и обмениваться опытом.

Ссылка вот. Если хотите, документ можно подписать.
Гугл сделал прикольную штуку: Generative AI Learning Path. Это Tl;Dr из 10 мини-уроков о том, как работают современные генеративные модели в CV и NLP. Начинают с того, что вообще такое — эти ваши "большие языковые модели", переходят к общим описаниям архитектур и аттэншену, заканчивают туториалом о том, как самому создать и задеплоить такую модель (на Google Cloud, разумеется, хехе)

Кажется, может быть полезно тем, кто в DL понимает не особо, но хочет базово разобраться в том, на каких принципах работают совеременные модели и задеплоить свою.

📄 Ссылка
#learning
Вообще, с таким проникновением AI технологий в повседневную жизнь и в профессии людей, которые к AI отношения не имели, кажется, что потребность в подобных вводно-поверхностных курсах будет повышаться. Люди захотят больше понимать, как работает то, что они используют, при этом не залезая в дебри матричных операций и градиентных оптимизаций.

Хороший пример, кому такие курсы будут точно полезны — журналисты. Многие из них хотят понимать, о чем пишут, не написать бреда и уметь хоть как-то критически оценивать новости, чтобы потом их выкладывать. Еще лет 6 назад, когда мы только создавали DLS, к нашей команде даже поступило предложение создать подобный вводный курс по ML для студентов журналистики одного вуза. Правда, дальше это так и не пошло.

Так вот. В таких курсах встает вопрос, насколько глубоко и сложно рассказывать. Если рассказывать слишком просто, есть шанс, что это породит неверное понимание — например, слишком "простой" взгляд на модели с неверными последующими выводами. Посмотрите на курсы по созданию промптов для ChatGPT)).
А если рассказывать сложно — это отобъет желание учиться.

Я сама несколько раз думала над этим вопросом: мне интересно с точки зрения методики преподавания (свой подобный курс я выпускать не собираюсь, не переживайте, это не прогрев)

Короче, кажется, это такой вызов индустрии образования) Миникурс от Гугла выше — один из первых таких примеров. Посмотрим, как это будет развиваться.
Forwarded from addmeto (Grigory Bakunov)
Стерлинг Криспин, работавший исследователем нейротехнологических прототипов в Эппле более 3 лет делится тем, что они делали в группе, которая вчера выпустила VisionPro.

Там есть пугающие подробности, вот с цитатами небольшой перевод для вас:

... пользователь находится в смешанной реальности или виртуальной реальности, а модели ИИ пытаются предсказать, испытываете ли вы любопытство, рассеяность, страх, внимание, вспоминаете прошлый опыт или какое-то другое когнитивное состояние. Эти данные могут быть получены с помощью таких измерений, как слежение за глазами, электрическая активность в мозге, сердцебиение и ритмы, мышечная активность, плотность крови в мозге, кровяное давление, проводимость кожи и т.д.

Чтобы сделать возможными конкретные предсказания, было использовано множество трюков ... Одним из самых крутых результатов было предсказание того, что пользователь собирается нажать на что-то до того, как он это сделает... Ваш зрачок реагирует до того, как вы нажмете на кнопку, отчасти потому, что вы ожидаете, что что-то произойдет после нажатия...

Другие трюки для определения когнитивного состояния включают быструю подачу пользователю визуальных или звуковых сигналов, которые он может не воспринимать, а затем измерение его реакции на них.

В другом патенте подробно описывается использование машинного обучения и сигналов тела и мозга, чтобы предсказать, насколько вы сосредоточены, расслаблены или хорошо учитесь. А затем обновлять виртуальную среду, чтобы усилить эти состояния. Представьте себе адаптивную среду погружения, которая помогает вам учиться, работать или расслабляться, изменяя то, что вы видите и слышите на заднем плане.

https://twitter.com/sterlingcrispin/status/1665792422914453506
2025/07/05 22:33:49
Back to Top
HTML Embed Code: