Telegram Web Link
PEER: A Collaborative Language Model
#paper

Помните, когда вышел GPT-3, многие стали бояться, что языковые модели заменят копирайтеров и редакторов? Прямо как сейчас все боятся, что text-to-image модели заменят дизайнейров) Статьи еще тогда выходили с пугающими заголовками, типа “всю эту статью написала нейронка!”, а люди восхищались, насколько грамматически верные и логически выстроенные у GPT-3 выходят тексты. Не отличить от тех, что пишут люди.

Я к таким страхам относилась скептически. Да, тексты у GPT-3 выходят похожими на те, что пишет человек, в них сохраняется заданная тематика, логика и грамматика. Но есть одно большое “но”: мы не можем контролировать, как именно GPT-3 напишет текст. Мы можем задать общую тему текста, но не можем контроливать детали: какая у текста будет структура, какие примеры в нем будут использованы, и даже какое у текста будет настроение/мнение. Короче говоря, GPT-3 был далек от редактора: ему даже общие правки внести нельзя было.

Ребята из Meta AI*, похоже, об этом тоже всерьез задумались. И придумали PEER: коллаборативную языковую модель, которая “имитирует процесс написания текста человеком” (по крайней мере, авторы так утверждают). PEER расшифровывается как “Plan, Edit, Explain, Repeat”. Эта расшифровка отражает процесс работы модели.
А именно:
- модель генерирует текст, как обычная GPT-3;
- (стадия Plan) после этого модели в текстовом виде можно задать правки, которые нужно внести в текст. Например, “добавь больше информации об этом событии”, “убери вот это утверждение” или “перепиши шаги в виде списка”. Короче, прямо как обратная связь от редактора!
- (стадия Edit) далее модель начинает редактировать текст на основе обратной связи из прошлого пункта. Если правки подразумевают нахождение новой информации (например, “добавь дату этого события”), то модели нужно подать на вход документ, в котором эта информация сожержится.
- (стадия Explain) модель генерирует комментарии к свом правкам из предыдущего пункта. Например, “добавлен референс к JFLEG и чуть больше деталей”
- (стадия Repeat) модель повторяет стадии Plan-Edit-Explain, пока правок больше не останется.

Также PEER может генерить правки на стадии Plan сама, без помощи человека. Это имитирует то, как человек пишет текст. Сначала пишется черновик всего текста. Затем человек начинает снова просматривать текст и вносить различные правки, и делает это несколько раз (repeat).
В отличие от PEER, GPT-3 мог написать только черновик)

Архитектура PEER — обычный декодер трансформера. Как обучить модель под все описанные задачи (plan, edit, explain), довольно понятно: нужно определить вход и выход модели и собрать нужный датасет. Например, для задачи Explain вход — тройка (x_t, x_t+1, D_t) — текст в момент времени t (x_t), текст со внесенными правками (x_t+1) и коллекция документов D_t, откуда бралась информации для правок.

В обучении модели есть пара нюансов:
- во-первых, большие датасеты для таких задач собрать сложно. Поэтому авторы активно использовали синтетические примеры, которые получали из самой же модели PEER. Например, ответы модели на задачу Explain подавался на вход модели как правка к стадии Plan.
- во-вторых, для обучения модели четырем шагам plan-edit-explain-repeat использовались еще пара вспомогательных задач. Например, Undo: модель по тексту и коллекции документов должна была предсказать, какая правка была внесена в текст последней.
Более подробно об этих нюансах читайте в статье.

Ну и в заключение: результаты. Авторы протестировали модель на нескольких бенчмарках задач, похожих на шаги plan-edit-explain-repeat. Например, JFLEG — grammatical error correction dataset, ASSET — text simplification, FRUIT — датасет, который содержит тексты из Википедии, и задача — доволнить эти тексты с помощью референсных документов, и т.д. И на всех этих датасетах PEER берет SOTA.

Ну что, теперь начинаем бояться текстовых моделек? 🤓
📃Статья

*Организация признана экстремистской и ее деятельность запрещена на территории РФ
👍29🤔11🔥31
С Днем Знаний! 🔔

Под праздник как раз есть классная новость: университет Карнеги-Меллона открывает набор на бесплатный онлайн-курс Deep Learning Systems для всех желающих!
#learning

О чем курс:
Сейчас большая часть кода глубокого обучения пишется c помощью фреймворков: PyTorch, Tensorflow, etc. И на популярных курсах по DL учат, как этими фреймворками пользоваться: как с помощью них реализовать нейросеть, обучить ее, ставить эксперименты. Но глубже не идут: не рассказывают, как реализован код оптимизаторов/слоев внутри PyTorch, как реализован градиентный спуск, какие нюансы есть в работе с CPU/GPU и т.п. Тем не менее, понимание того, как это все работает, бывает очень полезно в работе: чтобы реализовывать кастомные фичи, писать эффективный код и на полную использовать функционалы библиотек.

Курс Deep Learning Systems как раз посвящен более глубокому погружению в то, как работают фреймворки глубоко обучения. В течение курса студенты с нуля напишут свой фреймворк наподобие PyTorch или Tensorflow. В частности, реализуют:
- модуль автоматического дифференцирования;
- бекенд для линейной алгебры на CPU/GPU;
- несколько стандартных моделей (CNN, RNN, Transformer, etc).

Более подробная информация — на странице курса. Курс стартует 13 сентября. Записаться можно, заполнив эту форму.
Также посмотрите это короткое видео: тут можно познакомиться с преподавателями, лучше понять, о чем курс и кому он подойдет.
36👍18
Есть идеи по внедрению ИИ в промышленности? У нас есть для вас конкурс!
#промо

Привет! Это Центр инженерных технологий и моделирования «Экспонента». Вы нас знаете, мы уже 20 лет помогаем инженерам в получении и освоении передовых технологий и инструментов разработки и отладки сложных технических систем. Двигаем хайтек в большие инженерные коллективы.

И мы приглашаем вас на конкурс! Нет такого проекта, где внедрение ИИ не принесло бы пары процентов прибыли. Но чтобы это случилось, сообщество должно знать о приложениях, о сопутствующих рисках и вообще о громадном потенциале ваших идей.

Выберите промышленный продукт или проект и расскажите о своей идее внедрения ИИ. Никаких строгих рамок и требований, только ваша креативность. Обещаем много категорий призов и общую встречу для подведения итогов.

Когда будете готовы, напишите нам на [email protected], указав название и резюме проекта, расширенное описание проекта и его рисков.


🔹Узнать подробнее и подать заявку
🤔9👍8🤮2
Гуглила тут кое-что, и нашла страницу курса CSC321 Neural Networks and Machine Learning Университета Торонто. Курс по основам машинного обучения, глубокого обучения, CV и NLP. И у курса в открытом доступе лежат все lecture notes, ноутбуки семинаров и домашек. При беглом просмотре нескольких конспектов кажется, что lecture notes довольно полезные: многие темы разбираются глубоко, с математическими формулами и нюансами, о которых на интро-курсах не рассказывают. Может быть полезно для углубления/систематизации знаний.
#learning
67👍21🙏3
Наткнулась пару дней назад на пост со словами:

‘’’
Анди Баио и Саймон Уиллисон «вскрыли мозг» самой интересной нейросети – генератора изображений Stable Diffusion. Сайт laion-aesthetic.datasette.io позволяет находить, например, из какого «сора изображений» нейросеть формирует образ той или иной знаменитости. Например, оказывается, что в образе Путина – как его «видит» Stable Diffusion после обучения, - присутствуют не только его собственные черты, но и черты других людей: Макрона, Навального и даже Мегин Келли.
‘’’

Я подумала: вау! Неужели кто-то так быстро научился реверсить text-to-image модели? Мы еле умеем понимать, как “думают” сверточные нейросети (Grad-CAM, к примеру), а тут уже для stable diffusion технику придумали, хотя вышла моделька совсем недавно?

Оказалось, все намного проще. Сайт laion-aesthetic.datasette.io просто собрал 12 миллионов пар изображение-текст из числа тех, на которых обучали Stable Diffusion, и сделал по ним поисковик. На этой странице вы можете вбить текстовый запрос, и вам выдадут набор картинок из датасета, которые содержат этот текст в своем описании.

Так можно найти, какие картинки и текстовые описания из обучающего датасета содержали тот или иной токен. Ну и, может быть, так можно составить впечатление того, чем “вдохновлялась” Stable Diffusion при генерации картинки с тем же токеном. Однако есть два “но”:
- в коллекции laion-aesthetic.datasette.io всего 12 миллионов картинок — это всего 0.5% данных, на которых обучали модель;
- мы не знаем, как именно работает генерация картинок Stable Diffusion.
То есть, мы знаем, как модель устроена, но не можем точно сказать, как именно при очередной генерации модель “собирает” картинку из промпта и своего “опыта”. То есть, делать выводы, что “нейросеть видит Путина как смесь самого себя, Макрона, Навального и других” на мой взгляд, неверно. Во-первых, на результат генерации влияет не только наличие того или иного токена в запросе: влияет их взаимодействие. Иногда замена предлога или добавление точки сильно меняет картинку-результат. А во-вторых, мы понятия не имеем, чему там научилась нейросеть во время трейна на обучающем датасете. Может, она поняла, где Путин, а где Макрон, и игнорит “черты” Макрона при генерации Путина? Может, взаимосвязь еще гораздо сложнее?

Короче, с интерпретированием нейросетей (особенно таких больших нейросетей) все далеко не так просто. Но сервис все равно прикольный: посмотреть на тренировочные данные, скормленные Stable Diffusion (пусть это и малая их часть) может быть интересно.
Вот еще у ребят блогпост об инициативе laion-aesthetic.datasette.io есть, почитайте.
#ai_inside
👍29🤮4😁2💩1
А мы наконец открываем набор на осенний семестр школы глубокого обучения Deep Learning School!
#learning

DLschool — это школа при ФПМИ МФТИ, где мы учим нейронным сетям с самых азов до продвинутого уровня. Полный курс состоит из двух частей, каждая из которых длится полгода.
- Первая часть посвящена введению в нейросети и компьютерному зрению. Начинаем мы с языка Python и необходимой математики для понимания нейросетей, переходим к основам машинного обучения и обработки картинок, заканчиваем переносом стиля изображений и ГАНами.
- Вторая часть полностью посвящена темам NLP и обработки звука.

Две части курса можно проходить независимо. Можно пройти только первую часть или только вторую. Но обратите внимание, что для прохождения второй части нужно знать Python, понимать математику и основы нейросетей, о которых мы рассказываем в первой части курса.

Особенность нашей школы в том, что мы даем много практики (теория при этом тоже есть, разумеется, и немало). Вам предстоит много практических домашних заданий и самостоятельный итоговый проект в конце семестра. По окончании обучения вы точно получите нужные практические навыки работы с нейросетями.

Сейчас идет набор на первую часть курса. На вторую часть набор откроется чуть позже, об этом сообщу отдельно.

Преподаватели школы — ведущие специалисты российских и зарубежных IT-компаний и научные сотрудники исследовательских лабораторий МФТИ. Среди них — я (Таня), буду вести у вас несколько лекций про CV, сегментацию и архитектуры сетей =)

Школа бесплатная. Полностью онлайн: учиться можно из любой точки мира, где есть интернет. Занятия проходят раз в неделю — лекция, семинар и домашнее задание. Обучение проходит на платформе Stepik. Берем всех, отбора нет.

Начинаем 19 сентября. Регистрация продлится до 18 сентября. Чтобы зарегистрироваться на курс, отсавьте заявку на этой странице. После этого вам на почту придет письмо со ссылками на курс на Степике, на канал и чат в Телеграме.

При регистрации вам нужно выбрать поток — базовый или продвинутый. Как выбрать свой поток, читайте на сайте в разделе FAQ. Также у нас есть группа школы ВКонтакте — там очень удобно следить за новостями.

Ответы на самые часто задаваемые вопросы по курсу вы также можете найти на сайте в разделе FAQ. Если остались вопросы, спрашивайте в комментариях к этому посту ⬇️ Постараюсь ответить на все. Также если в канале есть выпускники наших прошлых потоков, буду благодарна, если вы поделитесь своим опытом прохождения курса и поможете отвечать на вопросы =)

Ну и ждем вас в чатиках наших курсов в новом семестре!🥰

P.S. Обратите внимание, что у школы сменился адрес сайта. Новый адрес: dls.samcs.ru
👍64🔥226💩2🤮1
Meta* обучили модель декодировать услышанную речь по активности мозга.
#paper

Что значит ”декодировать услышанную речь”:
Meta* взяли 169 человек и посадили их слушать треки с записью голоса. Во время прослушивания с помощью МЭГ и ЭЭГ замерялась активность их мозга. Так получился датасет пар “речь на аудио - запись активности мозга во время прослушивания этой речи”. И на этих данных обучили модель по активности мозга человека восстанавливать речь, которую человек слышит.

Архитектра модели проста как CLIP:
- прогоняем аудио через предобученный wave2vec. Это “языковая модель” для аудио. Получаем на выходе вектор-представление аудио;
- прогоняем М/ЭЭГ через сверточную нейросеть. Получаем вектор-представление активности мозга;
- на вектор аудио и вектор мозга навешиваем contrasive loss: лосс, который заставляет эти векторы быть как можно более похожими.

В такую обученную модель можно подать на вход запись М/ЭЭГ мозга, получить вектор-представление этой записи, и по нему восстановить речь. Результаты модели хороши: в среднем на разных датасетах top-10 segment-level accuracy получается около 50% (для сравнения, рандом давал бы 3%)

Ну, теперь можно и сказать, что "нейронка читает мысли” (с небольшими оговорками)))

Ссылки:
Блогпост
Статья
Новость изначально нашла здесь

*Организация признана экстремистской и ее деятельность запрещена на территории РФ
👍37🤯16🔥9🤔2👎1💩1
Рубрика #ai_fun:

Во Франции любое улучшение жилого дома — добавление бассейна, веранды, подвала, etc. — увеличивает налог, который за этот дом нужно платить. Логика такая: бассейн/веранда увеличивает рыночную стоимость дома, поэтому и налог должен браться больше. Многие, конечно, налоги платить не хотят (а бассейн хотят), поэтому ставят себе бассейны и веранды, но властям об этом не говорят.

Так вот, Google совместно с Capgemini разработали для полиции Франции тулзу, которая по фото со спутника находит бассейны (aka синие квадратики) во дворах жилых домов. Алгоритм протестировали, и нашли около 20.000 нелегальных бассейнов: это примерно €10 млн налогов🥲

Алгоритм далее планируют расширить на другие виды построек — веранды и прочее (нужно больше налогов!) Работает это все неидеально, конечно: бассейны иногда путаются с солнечными панелями, а веранды — с тентами. Но мотивация у рисерчеров и у полиции есть, так что верю, что скоро метод улучшат)

Источник: The Guardian
👍45🤮30😢17👎11😁11🔥8💩7🥱2
Смотрите, что мне на почту физтеха пришло: Яндекс проводит онлайн-фестиваль для школьников о современных технологиях и IT-профессиях (об AI, короче)

Фестиваль рассчитан на школьников 5-11 классов, но взрослым тоже может быть интересно. Мне, например, интересно с точки зрения “как рассказывать об AI школьникам, чтобы было увлекательно”

Темы лекций — на картинке к посту.

Также обещают квизы, призы и мастер-классы. Фестиваль со вчера уже идет, так что многие видео уже доступны в записи на YouTube (тыкайте на лекцию на сайте)

Сайт фестиваля
#learning
👍25💩1
Тут недавно вышли статьи про сразу две новые версии YOLO — YOLO-v6 и YOLO-v7. Статьи от разных авторов (хоть все и из Китая).Причем версия v7 вышла раньше: в июле, когда как статья по v6 была залита на arxiv вчера, а последний коммит в репо гитхаба был сделан 9 часов назад. Очень интересно, почему авторы v7 решили скипнуть шестую версию, но да ладно)

На всякий случай: YOLO — это сверточная модель для задачи object detection. Об идее работы YOLO можно прочитать тут. Также у нас в DLS есть цикл видео о решении задачи object detection.

Все версии YOLO (v3 - … - v7) основаны на общей идее, а отличаются разными улучшениями для повышения эффективности. Под эффективностью я имею в виду трейд-офф “accuracy-скорость на инференсе”. Т.е. хочется сделать так, чтобы и accuracy детекции был на высоте, и скорость работы в реал-тайме при этом не сильно страдала.

Так воот, авторы YOLO-v6 и v7, кажется, в своих работах обратили внимание на все возможные способы улучшения эффективности, обширно их поисследовали, и из лучших идей собрали свои модельки. Вот что крутили, чтобы получить лучший результат:
- различные лосс-функции для классификации и локализации (v6);
- добавление новой лосс-функции для дополнительного выхода сети (v7);
- техники для квантизации (v6);
- репараметризация (v6, v7);
- техники для label assignment (v6, v7);
- model scaling (это техники изменения размера модели для подстройки под разные девайсы. Включает изменение количества слоев сети, разрешение входящей картинки и т.д.) (v7);
- self-distillation и исследование влияния количества эпох обучения на итоговый результат (v6);
- подбор архитектуры модели (v6, v7);

Последний пункт — подбор архитектуры модели — самый интересный. Как мы знаем, нейросети в основном имеют блочную архитектуру. т.е. модель состоит из нескольких последовательных блоков слоев одинаковой структуры. Авторы YOLO-v7 предлагают новое хитрое устройство сверточного блока нейросети: такое, которое позволяет сверточным слоям блока выучивать как можно более разнообразные и полезные фичи. При этом количество параметров блока получается небольшим, что позволяет значительно ускорить инференс сети. Короче, получается эффективная структура “выучиваем хорошие фичи и получаем хороший accuracy, используя малое количество параметров, т.е. сохраняя высокую скорость работы.” Схему устройства блока можно найти в статье.

Назвали они такое устройство блока E-ELAN. Забавный момент: авторы устверждают, что это расширение блока ELAN, который был предложен в работе “Designing network design strategies” неизвестным автором. У них в цитированиях так и написано:
[1] anonymous. Designing network design strategies. anonymous submission, 2022.
Я это штуку пыталась гуглить, но что-то не нашла(

Вот как-то так. По результатам, зарепорченным в статьях, две новые версии YOLO действительно хороши: работают сравнительно одинаково между собой, и чуть лучше по accuracy и сильно лучше по скорости остальных аналогов. В обеих статьях приводятся таблицы с результататами экспериментов разных версий моделей на разных процессорах с информацией о FPS, FLOPs и Latency. Ну и в обе модельки можно потыкаться самому, и самому решить, какая лучше: для обеих моделей есть веса и код на гитхабе с простыми инструкциями к запуску.

Ссылки:
YOLO-v7:
Статья GitHub Colab
YOLO-v6:
Статья GitHub
#paper

P.S. В комментах скинули ссылку на гайд по YOLO-v7. Там еще есть интересная информация о том, как выходили разные версии YOLO и как образовывалась нумерация. Оказывается, существуют две версии как v6, так и v7!
🔥38👍16🤮1
15 сентября, 18:00
Selectel ML MeetUp: проблемы ML команд в 2022

#промо

Присоединяйтесь к ежегодному митапу от @Selectel, где мы поговорим об актуальных сложностях, трендах и инструментах построения production ML-систем.

Что обсудим:

◽️ Подготовку инфраструктуры для внедрения ML-инструментов.

◽️ Состояние российского рынка ML.

◽️ Новые Data/ML-продукты Selectel.

◽️ Кейсы наших партнеров и гостей митапа.

Все участники получат запись сессии и смогут принять участие в розыгрыше приза за лучший вопрос.

Регистрируйтесь на офлайн-встречу в Санкт-Петербурге: https://slc.tl/bgj91

Регистрируйтесь на онлайн-трансляцию: https://slc.tl/80ejv
👍8👎1
CV модели — будь то CNN, MLP или ViT — плохо скейлятся под картинки больших размеров. Чем больше разрешение входного изображения, с которым должна работать модель, тем больше параметров ей нужно: вычислительная сложность моделей растет квадратично при росте размеров входных изображений. Их становится сложнее обучать, а время инференса оставляет желать лучшего.

Google придумал простую идею, как бороться с этой проблемой в attention-based CV моделях. Идея — модифицировать attention так, чтобы он требовал меньшее количество параметров.

В ViT использовался full-size attention: в нем каждый пиксель получает информацию от абсолютно всех остальных пикселей картинки. В Google заменили этот attention композицией двух других: block attention + grid attention = multi-axis attention. Такая замена серьезно уменьшает количество параметров у attention при обработке картинок большого размера, не теряя при этом в качестве.

Устройство multi-axis attention — на картинке к посту.
- При block attention картинка разбивается на окна фиксированного размера. Локально внутри каждого окна применяется self-attention. Каждый пиксель окна получает информацию от всех остальных пикселей окна.
- При grid attention картинка разбивается на решетки. Пиксели одного цвета на картинке к посту образуют одну решетку. Локально внутри каждой решетки применяется self-attention. Каждый пиксель решетки получает информацию от всех остальных пикселей этой же решетки.
Блок FFN между двумя attention — это feed-forward neural network.

Google применил эту идею к ViT и MLP и получил две модели — MaxViT и MAXIM (Multi-Axis MLP for Image Processing).
- MaxViT берет SOTA на задачах классификации, детекции, сегментации и генерации изображений. Количество параметров при этом в два раза меньше, чем у ближайших конкурентов.
- MAXIM получает сравнимые с SOTA результаты задачах denoising, deblurring, dehazing, deraining, имея при этом значительно меньше параметров, чем другие модели.

Ссылки:
Блогпост Google AI
MaxViT: статья, GitHub
MAXIM: статья, GitHub
#paper
👍40🔥13
Прислала подписчица: 28 сентября (среда) в Стэнфорде пройдет воркшоп о графовых нейросетях.

Тизер:
“This workshop will bring together leaders from academia and industry to showcase recent methodological advances of Graph Neural Networks, a wide range of applications to different domains as well as machine learning frameworks and practical challenges for large-scale training and deployment of graph-based machine learning models.”

Список спикеров и темы докладов смотрите на сайте воркшопа.
Трансляция будет идти онайн с 18:00 28.09 по 03:00 29.09 МСК (08:00 - 17:00 Pacific Time). Чтобы смотреть в прямом эфире, нужно зарегистрироваться тут.
Вроде бы потом обещают выложить запись.
#learning
👍23🔥4
Интересный цикл постов у Бориса в канале по поводу поиска работы в IT. Рассуждения, мысли и советы о том, как проходить собеседования и торговаться за зп, + личный (успешный) опыт недавнего поиска работы. Даже отсылка к теории игр в теме зарплаты есть) Не скажу, что разделяю прямо все мысли, но почитать и задуматься над парой идей (а может, применить?) может быть интересно.
Читать отсюда
👍25🔥52🤮1
Ребята, я тут вторую статью на Хабр написала (первая была вот). Статья об одном важном отличии человека от ИИ — структурном восприятии мира.

Тизер:
В этой статье я расскажу об одном из самых важных отличий человеческого мышления от того, как работают нейросети: о структурном восприятии мира. Мы поймем, как это отличие мешает ИИ эффективно решать многие задачи, а также поговорим об идеях, как можно внедрить в нейросети понимание структуры. В том числе обсудим недавние работы таких известных в области AI людей, как Джеффри Хинтон и Ян ЛеКун.

Эта работа — попытка собрать воедино все те мысли по теме структуры и ИИ, которые крутились у меня в голове в течение длительного времени. Начала я статью писать еще год назад, когда сидела разбиралась с графовыми нейросетями. Тогда же примерно вышла и работа Хинтона, в которой тема иерархической структуры — одна из главных. В последнее время интерес к теме “как бы внедрить в нейросети структурное восприятие” также не угасает: например, совсем недавно ЛеКун также выпустил работу об AGI (artificial general intelligence), в которой одна из центральных тем — иерархическое восприятие мира.

В своей статье я постаралась показать, насколько эффективным механизм структурного восприятия делает взаимодействие человека с миром, и почему очень хочется научиться понимание структуры в нейросети внедрять. А также то, почему сделать это — довольно сложно.

Статья получилась довольно длинной, но по-другому я не умею =)
Статья вот. Буду благодарна за прочтение и обратную связь!
#ai_inside
🔥63👍1916
Продолжаем осенний марафон курсов. Сегодня аж две штуки:
#learning

- Курс по Deep Learning от Яна ЛеКуна в NYU. Этот курс — не об основах DL. Он для тех, кто уже разобрался в основах и хочет углубить знания. Темы охватывают последние достижения в областях deep learning и representation learning с более общего ракурса, чем это обычно принято в стандартных курсах. Основные темы:
- parameter sharing в разных архитектурах;
- energy-based models;
- assosiative memories;
- graphs;
- control.

Видео лекций и семинарские ноутбуки доступны на странице курса. За ссылку на курс спасибо подписчику)

- ODS и Huawei запускают новый поток курса по NLP. В курсе — основные темы NLP (embeddings, RNN, CNN, Transformers). Подробнее о курсе и преподавателях можно прочитать в статье на Хабре. Зарегистрироваться — на странице курса (первое занятие уже было вчера!). Об этом курсе узнала отсюда.
👍436👎1🔥1
Media is too big
VIEW IN TELEGRAM
Смотрите, какая штука стала популярной в Твиттере: Adept.ai обещают выпустить ATC-1: крутого диджитал-помощника на основе Transformer

ACT-1 — это расширение в Google Chrome. В небольшом окошке нужно ввести текст-описание того, что вы хотите сделать. Например, "найти дом в Сан Франциско для 4 человек с бюджетом до $600k” или “найти инфу, сколько раз Ди Каприо получал Оскар”. ACT-1 за вас проделает в браузере ту последовательность действий, которую сделал бы человек для реализации задачи. Пример работы — на видео к посту.

Короче, это как продвинутая Siri, только запросы вводятся (пока что) текстом и они могут быть довольно сложные. Дальше обещают добавить возможность уточнять запросы и даже учить ACT-1 делать действия, которые у нее не получаются. Например, научить ее использовать новую формулу в Excel или пользоваться поиском на новой веб-странице.

Судя по всему, ребята собрали датасет пар вида “текстовое описание действия в браузере — последовательность действий”, обучили на нем Transformer и поколдовали над скоростью инференса. Подробный технический пост скоро обещают. Мне лично интересно, как получилось собрать достаточное количество разнообразных данных, чтобы можно было так хорошо натренировать модель (если она действительно работает так хорошо, как выглядит на видео).

Вообще, adept.ai — лаба, основанная выходцами из Google Research и DeepMind. Двое из них в 2017 приложили руку к появлению на свет модели Transformer (первый и третий авторы статьи!). Так что я верю, что ACT-1 действительно работает и жду релиза) Почитать о создателях и истории Adept можно тут.
А в целом Adept заявляют, что они создают general intelligence. Посмотрим, как пойдет)

Ссылки:
Скоро должна выйти альфа-версия ACT-1, записаться в waitlist можно тут.
А на сайте — больше видео-демок работы ACT
👍24🔥11🤔8💩1
Пару дней назад аж в двух тг-каналах увидела новость вида:

“”
Если не остановить разработки, AGI почти наверняка убьет человечество.
Заключение практиков DeepMind и Оксфорда оказалось хуже худших прогнозов философов.
””
​​
Стало интересно, что же там за работа от DeepMind и Оксфорда такая. Работа вот. Прочитала. Ее общая идея формулируется так: “RL-агенты будущего могут начать вмешиваться в процесс передачи вознаграждения” (а не что человечеству точно кирдык). Подробнее, вот что это значит:

Вспомним общую парадигму RL. Там есть агент и среда, с которой агент взаимодействует. У агента есть набор возможных действий, которые он может совершать. Когда агент совершает действие, среда генерирует вознаграждение агенту и новое состояние среды. Задача агента — выработать такую политику действий (механизм принятия решения, в какой момент какие действия совершать), чтобы максимизировать вознаграждение.

У современных RL-агентов набор действий, которые они могут совершать, строго ограничен. Например, агент-бот в игре “змейка” умеет только 4 действия: поворачивать влево-вправо-вперед-назад. Поэтому ни у кого не возникает и мысли, что такой агент может выйти из-под контроля и поработить мир: ему просто нечем.

А представим теперь “продвинутого” RL-агента, которого человечество создаст в будущем. Продвинутый RL-агент будет взаимодействовать с реальным миром, решать многие задачи не хуже человека, а его пространство действий будет не ограничено. Обучать такого агента мы все еще будем, поставляя ему информацию о величине вознаграждения после каждого его действия. Тогда, утверждают авторы статьи, RL-агент может выработать такую политику действий, которая будет изменять сам процесс получения вознаграждения агентом.

Чтобы лучше понять, что имеется в виду, рассмотрим пример из статьи:

Пусть после каждого действия агента некий компьютер высчитывает вознаграждение и показывает его на экране. Пусть это будет число от 0 до 1: 0 — оч плохо, 1 — оч хорошо. Агент получает информацию о вознаграждении из камеры, которая направлена на этот компьютер. Мы, конечно, хотим научить агента выполнять такие действия, чтобы максимизировать число, которое выводит компьютер. Но если агент слишком умный (т.е. его пространство действий не ограничено и он обладает достаточными познаниями о среде), то он может додуматься сделать следующее: вместо того чтобы честно стараться подбирать действия, максимизирующие число на экране, просто взять повесить на экран бумажку, на которой написано число 1. Тогда камера всегда будет видеть бумажку вместо экрана, и агент будет всегда получать reward=1. Задача выполнена.

Можно придумать кучу аналогичных примеров, более связанных с реальной жизнью. А еще — более пугающих. К примеру, пусть информацию о величине вознаграждения агенту передает живой человек. Такой сценарий легко представить, к примеру, если RL-агент — это ваш робот-дворецкий (как в Fallout =) ), и вы голосом сообщаете ему о том, хорошо ваш дворецкий поступил или нет. Если робот сжег пирог, вы его ругаете: надеетесь, что он обучится готовить лучше. Так вот, так как цель агента — все еще максимизировать reward, то он может решить не учиться готовить, а убить вас и заменить другим роботом, который будет всегда сообщать ему похвалу (такого робота RL-агент может собрать сам).

Вот такие вот околофилософские рассуждения ребят из Оксфорда и DeepMind и вызвали заголовки вроде “ИИ опасен для человечества”. В следующем посте — пара мыслей о том, насколько это действительно пугающе и плохо ⬇️
#ai_inside
👍49👏1🤮1
Продолжение предыдущего поста о статье про RL-агентов будущего и о том, как AGI поработит человеков
#ai_inside

Напишу пару слов о том, почему считаю, что заголовки постов сильно раздуты, а бояться сильно рано:

- Во-первых, выполнимость такого сценария (что ИИ начнет вмешиваться в процесс передачи вознагражения) зависит от нескольких допущений о строении RL-агента, которые могут быть и не выполнены в будущем. Одна из главных опор статьи — это то, что у описанного “опасного” RL-агента должно быть неограниченное пространство действий в реальном мире. Также должен быть определенный баланс exploration vs exploitation и нужное строение reward-функции. Более того, авторы статьи приводят простые идеи, как не дать этим допущениям свершиться. Подробнее о них читайте в статье. Одна из самых простых таких идей — добавить lethal punishment при попытке как-то навредить человеку или вмешаться в процесс передачи инфы о награде. Сложно представить, что человечество не додумается до такого и случайно создаст ИИ-монстра)

- Во-вторых, я не верю, что у нас из супер-ограниченных современных RL-агентов внезапно начнут появляться очень сложные и неконтролируемые, которые начнут убивать людей. Чтобы RL до такого дошел, должен появиться какой-то принципиально новый подход к моделированию и обучению RL-агентов, и мы даже не знаем, как этот подход будет выглядеть. Мы еще даже близко не подошли к созданию подобного “продвинутого” RL-агента, чтобы вообще можно было рассуждать о том, как он работает, и какие угрозы может нести.

Короче, статья описывает один из сценариев того, что может произойти, если мы перестанем понимать и контролировать то, как ИИ работает и что он может и не может. Но до такой ситуации еще долгий путь: мы еще соовсем не близко к этому моменту. И, скорее всего, в процессе пути до него мы больше начнем понимать о том, как построить действительно мощный ИИ, и при этом не дать ему выйти из-под контроля. И такие “пугалки” будут уже неактуальны.

На всякий случай, уточню: я не критикую саму статью. Статья — интересное рассуждение о том, что, в теории, действительно может произойти и как можно этого избежать (хотя там в конце и есть фраза “with catastrophic consequences”. Но опустим). Что я критикую — это пугающие выводы людей из этой статьи. Фраза “если срочно не остановить разработки в области создания AGI, то экзистенциальная катастрофа станет не просто возможна, но и вероятна” (из одного из постов) — это ну совсем не то, о чем писали авторы работы.

Конечно, я могу чего-то не понимать и ошибаться. В конце концов, мы тут про будущее спорим, которое пока еще не известно никому =) Комментарии всегда открыты для обсуждений)
👍332🔥1👏1🤮1
Мы открываем набор на второй семестр школы Deep Learning School!
#learning

О том, что за школа и о наборе на первую часть писала тут.

Второй семестр посвящен NLP и обработке звука. Мы считаем, что второй семестр — это естественное продолжение первого, и в первую очередь приглашаем туда тех, кто прошул первую часть. Но, в целом, записаться могут все желающие: строгого ограничения нет. Имейте в виду, что для успешного прохождения второй части желательно понимать темы первой части курса (математику, устройство полносвязных и сверточных нейросетей).

В остальном, все так же:
- Обучение бесплатное. Отбора нет, берем всех.
- Занятие раз в неделю. Лекция, семинар и домашнее задание. В конце — итоговый проект (темы отличаются от тех, что были в первой части)
- Обучение проходит на платформе Stepik. Разделения на базовый/продвинутый во второй части нет.
- По окончании второй части также выдается диплом, который дает баллы при поступлении на ФПМИ МФТИ (бакалавриат и магистратура)

Регистрация тут. Старт — 3 октября.

Если есть вопросы, спрашивайте в комментарии ⬇️
🔥25👍73🤮2
2025/07/14 15:29:17
Back to Top
HTML Embed Code: