Наткнулась на статью в Nature, которую выпустили ряд ученых-нейробиологов. Называется она "Catalyzing next-generation Artificial Intelligence through NeuroAI". Ее авторы выражают мнение, что для достижения следующего уровня AGI важно изучать нейробиологию живых организмов и применять эти знания к разработке AI. А также предлагают новый вариант теста Тьюринга, основанный на сравнении поведения реальных животных и AI-агентов.
#ai_inside
Вот о чем этот новый тест:
Вспомним обычный тест Тьюринга ("игра в имитацию"). Крутость AI ппроверяется так: берем живого человека (назовем его Васей) и заставляем его общаться с агентом. Агент — другой человек или AI. Общение происходит в текстовом виде. Если Вася при общении с AI не в состоянии определить, что он общается не с человеком, то тест пройден — этот AI считается достаточно сильным.
Этот тест далеко не идеален. Во-первых, результат зависит от конкретного Васи, который общается с AI. Во-вторых, проблема в возможности только текстового взаимодействия. Из-за этого сложно проверить у агента наличие многих скиллов, свойственных живым орагнизмам (и, соответственно, скиллов, которые мы хотели бы видеть у AGI). Например:
- Эффективное взаимодействие с окружающей средой и контроль собственного тела. Существующие RL-агенты и роботы все еще плохо учатся управлять даже собственными конечностями, не говоря уж о том, чтобы взаимодействовать с другими объектами;
- Приспособляемость к меняющимся обстоятельствам. Это стандартная проблема AI-моделей, у которой много названий: отсутствие робастности, out-of-domain и т.д. Смысл в том, что AI-модели начинают плохо работать при малейшем изменении характеристик среды. Животные же умеют к этому быстро приспасабливаться. От AGI хочется, чтобы подобной проблемы у него не было, и это хочется уметь проверять;
- Наличие внутренней карты физического мира (или "общее понимание мира", "physical common-sense") и вытекающая из этого способность создавать причинно-следственные связи. С этим у AI тоже не очень хорошо, проблема causation vs correlation — одна из основных в AI.
Ко всему этому авторы замечают, что современные нейросети потребляют довольно много энергии для обучения и работы (привет GPT). Цифры приводят такие: для обучения GPT-3 потребовалось около 1000 мегаватт-часов, когда как человеческому мозгу нужно всего около 20 ватт (правда, я не поняла, для чего нужно. Чтобы научиться языковому моделированию?)). Если мы хотим получить эффективный AGI, мало заставить его пройти тест Тьюринга: нужно подумать о том, как увеличить его вычислительную эффективность.
Возможно, конечно, это все можно проверять и с помощью обычного теста Тьюринга, где человек и AI общаются текстом. Но придумать такой протокол будет как минимум сложно. Поэтому авторы статьи предлагают другой вариант теста, основанный на прямом сравнении поведения животных и AI-агентов. Назвали такой тест Embodied Turing test ("воплощенный тест Тьюринга"). Вот в чем его суть:
У биологов уже накопилось много данных о поведении животных. А также создаются биомеханические модели тел животных. На основе этого всего с помощью симуляторов можно создать реалистичные модели этих животных, и с их поведением сравнивать поведение AI-агентов.
Это позволяет сделать несколько уровней теста, в зависимости от того, насколько сложное животное хочется моделировать. По сути, симуляция каждого отдельного вида представляет собой отдельный тест Тьюринга. Это должно способствовать постепенному развитию AI-агентов: сначала они научатся моделировать червей, потом рыб, потом вашу кошку Мурку, а затем и вас самого =)
А еще так можно проверять отдельные способности AI-агентов: например, отдельно тестировать его умение управлять конечностями или приспосабливаться к среде. И даже проверять, сколько энергии AI-агент тратит на каждую конкретную задачу (и сколько тратит на эту же задачу Мурка)
Конечно, протоколы сравнения AI-агентов и Мурки надо еще придумать и стандартизовать. Но звучит интересно.
Вот так мы только-только подошли к решению старого теста Тьюринга (GPT-4), так уже неймется ехать куда-то дальше)
📄Статья
#ai_inside
Вот о чем этот новый тест:
Вспомним обычный тест Тьюринга ("игра в имитацию"). Крутость AI ппроверяется так: берем живого человека (назовем его Васей) и заставляем его общаться с агентом. Агент — другой человек или AI. Общение происходит в текстовом виде. Если Вася при общении с AI не в состоянии определить, что он общается не с человеком, то тест пройден — этот AI считается достаточно сильным.
Этот тест далеко не идеален. Во-первых, результат зависит от конкретного Васи, который общается с AI. Во-вторых, проблема в возможности только текстового взаимодействия. Из-за этого сложно проверить у агента наличие многих скиллов, свойственных живым орагнизмам (и, соответственно, скиллов, которые мы хотели бы видеть у AGI). Например:
- Эффективное взаимодействие с окружающей средой и контроль собственного тела. Существующие RL-агенты и роботы все еще плохо учатся управлять даже собственными конечностями, не говоря уж о том, чтобы взаимодействовать с другими объектами;
- Приспособляемость к меняющимся обстоятельствам. Это стандартная проблема AI-моделей, у которой много названий: отсутствие робастности, out-of-domain и т.д. Смысл в том, что AI-модели начинают плохо работать при малейшем изменении характеристик среды. Животные же умеют к этому быстро приспасабливаться. От AGI хочется, чтобы подобной проблемы у него не было, и это хочется уметь проверять;
- Наличие внутренней карты физического мира (или "общее понимание мира", "physical common-sense") и вытекающая из этого способность создавать причинно-следственные связи. С этим у AI тоже не очень хорошо, проблема causation vs correlation — одна из основных в AI.
Ко всему этому авторы замечают, что современные нейросети потребляют довольно много энергии для обучения и работы (привет GPT). Цифры приводят такие: для обучения GPT-3 потребовалось около 1000 мегаватт-часов, когда как человеческому мозгу нужно всего около 20 ватт (правда, я не поняла, для чего нужно. Чтобы научиться языковому моделированию?)). Если мы хотим получить эффективный AGI, мало заставить его пройти тест Тьюринга: нужно подумать о том, как увеличить его вычислительную эффективность.
Возможно, конечно, это все можно проверять и с помощью обычного теста Тьюринга, где человек и AI общаются текстом. Но придумать такой протокол будет как минимум сложно. Поэтому авторы статьи предлагают другой вариант теста, основанный на прямом сравнении поведения животных и AI-агентов. Назвали такой тест Embodied Turing test ("воплощенный тест Тьюринга"). Вот в чем его суть:
У биологов уже накопилось много данных о поведении животных. А также создаются биомеханические модели тел животных. На основе этого всего с помощью симуляторов можно создать реалистичные модели этих животных, и с их поведением сравнивать поведение AI-агентов.
Это позволяет сделать несколько уровней теста, в зависимости от того, насколько сложное животное хочется моделировать. По сути, симуляция каждого отдельного вида представляет собой отдельный тест Тьюринга. Это должно способствовать постепенному развитию AI-агентов: сначала они научатся моделировать червей, потом рыб, потом вашу кошку Мурку, а затем и вас самого =)
А еще так можно проверять отдельные способности AI-агентов: например, отдельно тестировать его умение управлять конечностями или приспосабливаться к среде. И даже проверять, сколько энергии AI-агент тратит на каждую конкретную задачу (и сколько тратит на эту же задачу Мурка)
Конечно, протоколы сравнения AI-агентов и Мурки надо еще придумать и стандартизовать. Но звучит интересно.
Вот так мы только-только подошли к решению старого теста Тьюринга (GPT-4), так уже неймется ехать куда-то дальше)
📄Статья
Теперь немного про "важно изучать нейробиологию живых организмов и применять эти знания к разработке AI"
#ai_inside
Вообще, много идей в AI были вдохновлены устройством биологических нейронов и мозга (что бы ни говорили те люди, которые каждый раз приходят в комментарии со словами "да не похож ваш AI на биологию вообще, хватит выпендриваться, там все сложнее"). Яркие примеры — CNN, Attention. Да, это не копия реальных механизмов, но вдохновение явно было.
Авторы статьи из поста выше, правда, замечают, что подобные идеи в AI, основанные на каком-то биологическом механизме, чаще всего возникают сильно после того, как этот механизм был открыт биологами. А все потому, что люди, которые пилят AI, не сильно шарят в нейробиологии. Проходит время, пока открытия из биологии дойдут до широких масс, где их подхватят и внедрят AI-рисерчеры. А еще в последнее время AI-коммьюнити как-то не сильно обращает внимание на биологию. И даже NeurIPS, который изначально был конференцией по AI и нейробиологии (да-да), теперь известен в большинстве своем только по AI.
Конечно, тут можно сказать, что прорывы в AI далеко не обязательно должны быть основаны на идеях из биологии. Возможно, можно придумать что-то крутое совсем из других соображений. Это правда. Но биология может помочь. Эту мысль подкрепляет то, что она помогала ранее. И поэтому стоит ее изучать: вдруг выйдет что дельное.
Поэтому главный посыл статьи (кроме предложения о новом тесте Тьюринга) — начать растить поколение специалистов, разбирающихся и в AI, и в нейробиологии. И основывать проекты по тому, как использовать знания из нейробиологии в AI.
А еще у авторов есть на эту тему дополнение к предложенному embodied тесту Тьюринга: при записи поведения животных также записывать их мозговую активность. Чтобы потом ее анализировать и использовать в AI.
Проекты, соединяющие нейробиологию и AI, уже есть, если что. Вот пример — MICrONS (Machine Intelligence from Cortical Networks)
> "The MICrONS program aimed to close the performance gap between human analysts and automated pattern recognition systems by reverse-engineering the algorithms of the brain"
(внизу страницы есть список публикаций проекта и ссылка на Google Scholar)
Короче, к чему это я все. Мне лично кажется, что это круто) Да и не только мне, видимо: в последнее время я натыкаюсь на довольно много публикаций по теме "AI vs биология" или "как сделать нейрон/нейросеть более похожей на биологический или хотя бы с похожими свойствами". Наверное, вы это даже заметили по постам в канале)
В моих планах вообще получше заботать основы нейробиологии (хотя чего только там в твоих планах нет, Таня =( ). И это не только из-за идеи развивать AI в эту сторону, а просто потому что мне интересно.
Если вам тоже интересно, то под этим постом собирала ссылки на курсы/ресурсы по нейробиологии. Ну и спрошу: а вы что по этому поводу думаете?
#ai_inside
Вообще, много идей в AI были вдохновлены устройством биологических нейронов и мозга (что бы ни говорили те люди, которые каждый раз приходят в комментарии со словами "да не похож ваш AI на биологию вообще, хватит выпендриваться, там все сложнее"). Яркие примеры — CNN, Attention. Да, это не копия реальных механизмов, но вдохновение явно было.
Авторы статьи из поста выше, правда, замечают, что подобные идеи в AI, основанные на каком-то биологическом механизме, чаще всего возникают сильно после того, как этот механизм был открыт биологами. А все потому, что люди, которые пилят AI, не сильно шарят в нейробиологии. Проходит время, пока открытия из биологии дойдут до широких масс, где их подхватят и внедрят AI-рисерчеры. А еще в последнее время AI-коммьюнити как-то не сильно обращает внимание на биологию. И даже NeurIPS, который изначально был конференцией по AI и нейробиологии (да-да), теперь известен в большинстве своем только по AI.
Конечно, тут можно сказать, что прорывы в AI далеко не обязательно должны быть основаны на идеях из биологии. Возможно, можно придумать что-то крутое совсем из других соображений. Это правда. Но биология может помочь. Эту мысль подкрепляет то, что она помогала ранее. И поэтому стоит ее изучать: вдруг выйдет что дельное.
Поэтому главный посыл статьи (кроме предложения о новом тесте Тьюринга) — начать растить поколение специалистов, разбирающихся и в AI, и в нейробиологии. И основывать проекты по тому, как использовать знания из нейробиологии в AI.
А еще у авторов есть на эту тему дополнение к предложенному embodied тесту Тьюринга: при записи поведения животных также записывать их мозговую активность. Чтобы потом ее анализировать и использовать в AI.
Проекты, соединяющие нейробиологию и AI, уже есть, если что. Вот пример — MICrONS (Machine Intelligence from Cortical Networks)
> "The MICrONS program aimed to close the performance gap between human analysts and automated pattern recognition systems by reverse-engineering the algorithms of the brain"
(внизу страницы есть список публикаций проекта и ссылка на Google Scholar)
Короче, к чему это я все. Мне лично кажется, что это круто) Да и не только мне, видимо: в последнее время я натыкаюсь на довольно много публикаций по теме "AI vs биология" или "как сделать нейрон/нейросеть более похожей на биологический или хотя бы с похожими свойствами". Наверное, вы это даже заметили по постам в канале)
В моих планах вообще получше заботать основы нейробиологии (хотя чего только там в твоих планах нет, Таня =( ). И это не только из-за идеи развивать AI в эту сторону, а просто потому что мне интересно.
Если вам тоже интересно, то под этим постом собирала ссылки на курсы/ресурсы по нейробиологии. Ну и спрошу: а вы что по этому поводу думаете?
Есть такой институт, оказывается, "Будущее жизни" (да, я о таком тоже первый раз слышу). Занимаются они исследованием рисков и угроз от разных технологий: ядерки, autonomous weapons и т.п. А еще, похоже, занялись и угрозами AI. И вчера они опубликовали открытое письмо, в котором призвали на 6 месяцев остановить разработку любых AI-систем, сравнимых с GPT-4 по мощи. Письмо вот.
Идея понятна: прогресс идет слишком быстро, мы не особо понимаем, к чему он может привести. И не успеваем за этим прогрессом выработать хоть какую-то адекватную регуляцию этого ИИ.
Во время паузы предлагают сделать следующее:
- Понять, что мы хотим от AI. Хотим ли мы, чтобы AI заменял прям все профессии, которые может? Хотим ли мы сделать робота-гуманоида? Ок ли нам, что AI заполонит интернет генерациями и фейк-ньюз?
- Выработать протоколы безопасности и регуляции разработки AI: как делать AI более робастным, безопасным, надежным и... loyal (ок, но не уверена, что с этим согласна).
В этом пункте про "выработать протоколы" они даже ссылаются на недавний стейтмент OpenAI, в котором была строчка: "At some point, it may be important to get independent review before starting to train future systems, and for the most advanced efforts to agree to limit the rate of growth of compute used for creating new models". Считают, что этот момент — прямо сейчас.
В коммьюнити, насколько я понимаю, была неоднозначная реакция на этот пост. В основном выражались два консерна (с которыми я согласна):
- 6 месяцев — это очень мало (но это ладно, так-то и продлить можно);
- Это бесполезно. В мире еще нет такого консенсуса, чтобы была возможна ситуация, когда большие компании и страны договариваются приостановить разработки AI. От себя добавлю: если вам тут на ум пришло ядерное оружие, по которому сировая договоренность в каком-то виде таки была достигнута, то у AI, на мой взгляд, другая ситуация. Тут риски не так очевидны, польза быть первы и классным — очевидна. А еще, испытания ядерки в тайне держать не получится. А AI — легко.
Но тут есть еще пара веселых моментов:
- Под письмом стоят подписи таких людей, как Йошуа Бенджио, Илон Маск, Ян ЛеКун. Последний вот в твиттере сказал, что это чушь, с письмом он не согласен и его не подписывал. В приципе, неудивительно: вряд ли при подписании проверяют твою истинную имя-фамилию. Но все равно кек)
- Кто-то нашел в письме конспирологию и считает, что письмо написано не из-за реальных консернов компании по поводу AI, а просто Илон Маск бесится.
Бесится он вот почему: в 2018 году он ушел из OpenAI после неудачной попытки стать единоличным главой компании. А теперь OpenAI сделали такой крутой AI, а он остался в стороне. То, что у Маска есть по этому поводу какие-то эмоции, подтверждается тем, что он хочет создать свою компанию-конкурента OpenAI (вот новость). А институт "Будущее жизни" финансируется организацией Musk Foundation. Плюс, Илон указан на сайте как один из external advisors. Отсюда возникла мысль, что Маск просто хочет насолить OpenAI))
Ну и еще в копилку к теме: сегодня в журнале Time вышла статья Элизера Юдковского (основатель LessWrong, на вики представлен как "специалист по искусственному интеллекту, исследующий проблемы технологической сингулярности и выступающий за создание дружественного ИИ"). Статья называется "Pausing AI Developments Isn't Enough. We Need to Shut it All Down", а первая строчка касается инициативы института будущего жизни: "This 6-month moratorium would be better than no moratorium."
UPD: о, вот Лекс Фридман как раз выложил ссылку на интервью с Юдковским. В том числе и про "danger of AI to destroy human civilization"
Идея понятна: прогресс идет слишком быстро, мы не особо понимаем, к чему он может привести. И не успеваем за этим прогрессом выработать хоть какую-то адекватную регуляцию этого ИИ.
Во время паузы предлагают сделать следующее:
- Понять, что мы хотим от AI. Хотим ли мы, чтобы AI заменял прям все профессии, которые может? Хотим ли мы сделать робота-гуманоида? Ок ли нам, что AI заполонит интернет генерациями и фейк-ньюз?
- Выработать протоколы безопасности и регуляции разработки AI: как делать AI более робастным, безопасным, надежным и... loyal (ок, но не уверена, что с этим согласна).
В этом пункте про "выработать протоколы" они даже ссылаются на недавний стейтмент OpenAI, в котором была строчка: "At some point, it may be important to get independent review before starting to train future systems, and for the most advanced efforts to agree to limit the rate of growth of compute used for creating new models". Считают, что этот момент — прямо сейчас.
В коммьюнити, насколько я понимаю, была неоднозначная реакция на этот пост. В основном выражались два консерна (с которыми я согласна):
- 6 месяцев — это очень мало (но это ладно, так-то и продлить можно);
- Это бесполезно. В мире еще нет такого консенсуса, чтобы была возможна ситуация, когда большие компании и страны договариваются приостановить разработки AI. От себя добавлю: если вам тут на ум пришло ядерное оружие, по которому сировая договоренность в каком-то виде таки была достигнута, то у AI, на мой взгляд, другая ситуация. Тут риски не так очевидны, польза быть первы и классным — очевидна. А еще, испытания ядерки в тайне держать не получится. А AI — легко.
Но тут есть еще пара веселых моментов:
- Под письмом стоят подписи таких людей, как Йошуа Бенджио, Илон Маск, Ян ЛеКун. Последний вот в твиттере сказал, что это чушь, с письмом он не согласен и его не подписывал. В приципе, неудивительно: вряд ли при подписании проверяют твою истинную имя-фамилию. Но все равно кек)
- Кто-то нашел в письме конспирологию и считает, что письмо написано не из-за реальных консернов компании по поводу AI, а просто Илон Маск бесится.
Бесится он вот почему: в 2018 году он ушел из OpenAI после неудачной попытки стать единоличным главой компании. А теперь OpenAI сделали такой крутой AI, а он остался в стороне. То, что у Маска есть по этому поводу какие-то эмоции, подтверждается тем, что он хочет создать свою компанию-конкурента OpenAI (вот новость). А институт "Будущее жизни" финансируется организацией Musk Foundation. Плюс, Илон указан на сайте как один из external advisors. Отсюда возникла мысль, что Маск просто хочет насолить OpenAI))
Ну и еще в копилку к теме: сегодня в журнале Time вышла статья Элизера Юдковского (основатель LessWrong, на вики представлен как "специалист по искусственному интеллекту, исследующий проблемы технологической сингулярности и выступающий за создание дружественного ИИ"). Статья называется "Pausing AI Developments Isn't Enough. We Need to Shut it All Down", а первая строчка касается инициативы института будущего жизни: "This 6-month moratorium would be better than no moratorium."
UPD: о, вот Лекс Фридман как раз выложил ссылку на интервью с Юдковским. В том числе и про "danger of AI to destroy human civilization"
Memorizing Transformers: как приделать к языковой модели внешнюю память, чтобы расширить контекст до 260.000 токенов
#paper
Языковые модели сейчас получаются классненькие, но все равно не идеальные. Одна из главных проблем — длина контекста (количество токенов текста, на которое модель может опираться, выдавая очередную генерацию). В стандартной GPT-4, к примеру, длина контекста — 8.000 токенов. В расширенной версии — 32.000. То есть, лучшая GPT-4 "видит" только 32.000 токенов поданного на вход текста. Все, что дальше, для нее не существует.
Увеличивать контекст модели довольно дорого по времени, количеству параметров и памяти. Поэтому ищутся другие способы. Один из вариантов — вариации "внешней памяти". В эту внешнюю память в каком-то виде складируется информация из входного текста, а модель в процессе работы с помощью некого механизма вытаскивает оттуда релевантные части для текущего шага генерации.
Идея внешней памяти сама по себе даалекоо не нова, ее и в СV, и в NLP развивают много лет со всех сторон. Но ребята из Гугла придумали новую идею этого механизма, довольно простую и эффекивную.
Вот в чем идея:
Устройство показано на 1 картинке к посту. Берем обычную языковую модель (трансформер). Берем один слой attention внутри этого трансформера (авторы берут слой, близкий к концу сети). К этому слою приделываем хранилище key-value пар, механизм выделения из хранилица нужной инфы и механизм использования этой инфы — еще один attention.
Сейчас расскажу, как эти части устроены. На каждом шаге генерации языковой модели происходит следующее:
- В хранилище добавляются все значения key и value для всех поданых на вход токенов и всех голов attention этого слоя;
- Для значений query всех поданых на вход токенов с помощью KNN ищутся k ближайших key-value пар из хранилища;
- Считается attention между query всех поданых на вход токенов и этими k ближайшими key-value парами. Из k полученных значений attention для каждого токена берется взвешенное среднее — получается одно значение attention на каждый входной токен;
- Считается обычный attention между query, key и value всех поданых на вход токенов;
- Два полученных attention фьюзятся в один также с помощью взвешенного среднего.
Все. Эксперименты показывают, что такая идея позволяет модели выделять релевантную инфу из памяти, которая была записана туда много-много токенов назад. Авторы тестировали модель на разных датасетах, включая датасет статей из arxiv, кода на GitHub, а также PG-19 — это датасет книг на английском языке, который стал классическим бенчмарком для проверки long-range natural language text modeling.
В общем-то, на всех них perplexity модели с памятью вместимостью 65к токенов выигрывает у модели без памяти (2 картинка к посту). Более того, у авторов получилось, что небольшой трансформер с внешней памятью всего 8к может показывать те же результаты, что большой трансформер без памяти, у которого в 5 раз больше обучаемых параметров.
Ну и что еще круто: эту память можно приделать при дообучении предобученной модели. Дообучать придется не очень много — модель быстро учится использовать механизм памяти и улучшает результат (3 картинка к посту)
Ну вот, общая идея такая. В устройстве модели есть еще пара важных нюансов, о них читайте в разделах 3.2 и 3.3 статьи.
Сcылки:
📄 Статья
🛠 Код на GitHub (неофициальный)
Про модельку услышала тут
#paper
Языковые модели сейчас получаются классненькие, но все равно не идеальные. Одна из главных проблем — длина контекста (количество токенов текста, на которое модель может опираться, выдавая очередную генерацию). В стандартной GPT-4, к примеру, длина контекста — 8.000 токенов. В расширенной версии — 32.000. То есть, лучшая GPT-4 "видит" только 32.000 токенов поданного на вход текста. Все, что дальше, для нее не существует.
Увеличивать контекст модели довольно дорого по времени, количеству параметров и памяти. Поэтому ищутся другие способы. Один из вариантов — вариации "внешней памяти". В эту внешнюю память в каком-то виде складируется информация из входного текста, а модель в процессе работы с помощью некого механизма вытаскивает оттуда релевантные части для текущего шага генерации.
Идея внешней памяти сама по себе даалекоо не нова, ее и в СV, и в NLP развивают много лет со всех сторон. Но ребята из Гугла придумали новую идею этого механизма, довольно простую и эффекивную.
Вот в чем идея:
Устройство показано на 1 картинке к посту. Берем обычную языковую модель (трансформер). Берем один слой attention внутри этого трансформера (авторы берут слой, близкий к концу сети). К этому слою приделываем хранилище key-value пар, механизм выделения из хранилица нужной инфы и механизм использования этой инфы — еще один attention.
Сейчас расскажу, как эти части устроены. На каждом шаге генерации языковой модели происходит следующее:
- В хранилище добавляются все значения key и value для всех поданых на вход токенов и всех голов attention этого слоя;
- Для значений query всех поданых на вход токенов с помощью KNN ищутся k ближайших key-value пар из хранилища;
- Считается attention между query всех поданых на вход токенов и этими k ближайшими key-value парами. Из k полученных значений attention для каждого токена берется взвешенное среднее — получается одно значение attention на каждый входной токен;
- Считается обычный attention между query, key и value всех поданых на вход токенов;
- Два полученных attention фьюзятся в один также с помощью взвешенного среднего.
Все. Эксперименты показывают, что такая идея позволяет модели выделять релевантную инфу из памяти, которая была записана туда много-много токенов назад. Авторы тестировали модель на разных датасетах, включая датасет статей из arxiv, кода на GitHub, а также PG-19 — это датасет книг на английском языке, который стал классическим бенчмарком для проверки long-range natural language text modeling.
В общем-то, на всех них perplexity модели с памятью вместимостью 65к токенов выигрывает у модели без памяти (2 картинка к посту). Более того, у авторов получилось, что небольшой трансформер с внешней памятью всего 8к может показывать те же результаты, что большой трансформер без памяти, у которого в 5 раз больше обучаемых параметров.
Ну и что еще круто: эту память можно приделать при дообучении предобученной модели. Дообучать придется не очень много — модель быстро учится использовать механизм памяти и улучшает результат (3 картинка к посту)
Ну вот, общая идея такая. В устройстве модели есть еще пара важных нюансов, о них читайте в разделах 3.2 и 3.3 статьи.
Сcылки:
📄 Статья
🛠 Код на GitHub (неофициальный)
Про модельку услышала тут
^ Интересно, будет ли модель от Гугла - конкурент GPT-4 использовать эту идею
Хороший тест реальной эффективности идеи, а не только на бумаге)
Хороший тест реальной эффективности идеи, а не только на бумаге)
Я давно обещала выложить пост о том, когда начнется весенний семестр второй части DLSchool. Но так и не выложила. А дело в том, что мы эту часть решили переделать: полностью обновить программу и перезаписать все занятия (прогресса-то в этой области с момента записи курса ого-го стало). Поэтому в этот раз вторая часть стартует намного позже, чем это было обычно.
#learning
Но я рада сказать, что обучение совсем скоро начнется! Первые лекции будут записаны уже в начале следующей недели (я вот прямо сейчас сижу и делаю к ним презентации). Поэтому приглашаю вас и ваших знакомых пройти регистрацию и записаться на курс!
Ссылки:
Регистрация тут (после нее на почу ничего не придет)
Курс будет на Степике тут
Также нужно вступить в телеграм-канал школы и чат весеннего потока второй части.
Что будет на курсе:
Вторая часть DLSchool посвящена NLP (обработке текста) и аудио. Начинаем с эмбеддингов и RNN, заканчиваем моделями Transformer, BERT, и GPT, их нюансами и деталями. Также разбираем различные задачи NLP. Последние три занятия — обработка звука.
❗️Вторая часть курса является логическим продолжением первой части. Чтобы успешно учиться, нужно знать принципы работы нейросетей и CNN. Поэтому если вы только поступили на первую часть и неуверенно чувствуете себя в DL, не рекомендуем записываться сразу и на вторую часть. Пройдите сначала первую, в следующем семестре сможете пройти вторую (набор на обе части стартует каждый семестр).
Ждем вас! В качестве затравки скажу, что для проведения занятий по BERT, GPT и Трансформерам мы пригласили новых классных людей, которые с этими моделями работают и хорошо в них разбираются 🙃
#learning
Но я рада сказать, что обучение совсем скоро начнется! Первые лекции будут записаны уже в начале следующей недели (я вот прямо сейчас сижу и делаю к ним презентации). Поэтому приглашаю вас и ваших знакомых пройти регистрацию и записаться на курс!
Ссылки:
Регистрация тут (после нее на почу ничего не придет)
Курс будет на Степике тут
Также нужно вступить в телеграм-канал школы и чат весеннего потока второй части.
Что будет на курсе:
Вторая часть DLSchool посвящена NLP (обработке текста) и аудио. Начинаем с эмбеддингов и RNN, заканчиваем моделями Transformer, BERT, и GPT, их нюансами и деталями. Также разбираем различные задачи NLP. Последние три занятия — обработка звука.
❗️Вторая часть курса является логическим продолжением первой части. Чтобы успешно учиться, нужно знать принципы работы нейросетей и CNN. Поэтому если вы только поступили на первую часть и неуверенно чувствуете себя в DL, не рекомендуем записываться сразу и на вторую часть. Пройдите сначала первую, в следующем семестре сможете пройти вторую (набор на обе части стартует каждый семестр).
Ждем вас! В качестве затравки скажу, что для проведения занятий по BERT, GPT и Трансформерам мы пригласили новых классных людей, которые с этими моделями работают и хорошо в них разбираются 🙃
dls.samcs.ru
Deep Learning School
Онлайн-школа по искусственному интеллекту
Тот самый хардкорный курс по машинному обучению от Валерия Бабушкина и других топов рынка.
#промо
Теперь не обязательно покупать целиком — можно выбрать наиболее актуальные для вас задачи бизнеса.
● Ранжирование и матчинг: поймёте как применять матчинг в бизнесе и узнаете тонкости пайплайнов работы поисковых систем.
● Динамическое ценообразование: научитесь прогнозировать временные ряды, работать с диапазонами цен и применять многоруких бандитов для оптимизации выручки компании.
● Uplift-моделирование: узнаете, как выбрать правильный таргет для прогноза и организовать библиотеку факторов.
● Продвинутое A/B-тестирование: научитесь применять современные методы повышения чувствительности A/B-тестов, рассмотрите полный пайплайн тестирования и реализуете свой сервис для оценки экспериментов.
● Сценарии деплоя ML-сервисов: научитесь выводить ML-модели в прод и узнаете, когда их пора отправлять на дообучение.
Присоединяйтесь по ссылке до 7 апреля. По промокоду DL25 для вас скидка 5%.
#промо
Теперь не обязательно покупать целиком — можно выбрать наиболее актуальные для вас задачи бизнеса.
● Ранжирование и матчинг: поймёте как применять матчинг в бизнесе и узнаете тонкости пайплайнов работы поисковых систем.
● Динамическое ценообразование: научитесь прогнозировать временные ряды, работать с диапазонами цен и применять многоруких бандитов для оптимизации выручки компании.
● Uplift-моделирование: узнаете, как выбрать правильный таргет для прогноза и организовать библиотеку факторов.
● Продвинутое A/B-тестирование: научитесь применять современные методы повышения чувствительности A/B-тестов, рассмотрите полный пайплайн тестирования и реализуете свой сервис для оценки экспериментов.
● Сценарии деплоя ML-сервисов: научитесь выводить ML-модели в прод и узнаете, когда их пора отправлять на дообучение.
Присоединяйтесь по ссылке до 7 апреля. По промокоду DL25 для вас скидка 5%.
Чтобы разнообразить лето, решила поискать себе какую-нибудь летнюю школу по DL, связанную с своей темой рисерча. В поисках нашла гитхаб-репо с набором ссылок на такие школы: awesome-mlss. Для каждой указаны даты, дедлайны подачи и тема. Есть даже российские! А еще, кажется, репо постоянно обновляется: 3 ссылки добавили 2 дня назад.
#learning
А если вы знаете еще какие-то хорошие школы, пишите в комментарии. Может, кому-то (или даже мне))) будет полезно.
#learning
А если вы знаете еще какие-то хорошие школы, пишите в комментарии. Может, кому-то (или даже мне))) будет полезно.
Только что от автора Сиолошной узнала, что прямо сейчас на Ютубе идёт беседа Эндрю Ына с Яном ЛеКуном. Беседуют про вот эту идею остановить разработку мощного ИИ на 6 месяцев. ЛеКун против этой идеи (высказывался об этом сразу после публикации петиции), поэтому и разговор называется "Why the 6-month AI pause is a bad idea"
Начали всего 20 минут назад. К видео есть форма для вопросов и живой чат.
Смотреть тут
Начали всего 20 минут назад. К видео есть форма для вопросов и живой чат.
Смотреть тут
Media is too big
VIEW IN TELEGRAM
Итак, SAM (Segment Anything Model) — модель от Meta AI, обученная на огромном датасете для сегментации изображений (11 млн картинок и 1.1 млрд масок сегментации). Датасет тоже выложили вместе с моделью, кстати.
#paper
С помощью модели можно:
✔️ одновременно сегментировать огромное количество объектов разного размера на одной картинке. Включая даже те объекты, которых не было в обучающей выборке;
✔️ сегментировать объект на картинке на основе:
- точки на объекте (ставите мышкой точку на объект, который хотите сегментировать, и модель это делает);
- bounding box'а объекта;
- примерной маски объекта;
- текста-описания объекта;
✔️ с помощью хитрого построения входа и постпроцессинга выхода модели решать некоторые задачи, на которые модель напрямую не обучалась:
- edge detection;
- instance segmentation;
- object proposal.
Сами авторы считают, что SAM может стать foundation model, т.е. что-то вроде GPT-3 в сфере сегментации картинок. Foundation model — это модель, которая обучилась на какую-то задачу на огромном количестве данных, и это породило у нее способности к решению многих других задач, на которые она напрямую не обучалась, в few-shot и zero-shot режимах.
Только прочитав статью, я не уверена, что я с этим согласна. На мой взгляд, те задачи, на которых SAM показывает способности к zero-shot — это та же сегментация, только вид подачи данных на вход модели немного отличается. Т.е. не то чтобы тут у модели возникают какие-то новые неожиданные способности. Но SAM — это точно foundation model в том смысле, что обучена модель была на огромном количестве данных, и из-за этого ее должно быть очень легко дообучить под свою конкретную задачу. Это такой ImageNet для задачи сегментауии, короче.
Ссылки:
📄Статья
💻Сайт с онлайн-демо
Ниже чуть позже разберу устройство SAM подробнее ⬇️
#paper
С помощью модели можно:
✔️ одновременно сегментировать огромное количество объектов разного размера на одной картинке. Включая даже те объекты, которых не было в обучающей выборке;
✔️ сегментировать объект на картинке на основе:
- точки на объекте (ставите мышкой точку на объект, который хотите сегментировать, и модель это делает);
- bounding box'а объекта;
- примерной маски объекта;
- текста-описания объекта;
✔️ с помощью хитрого построения входа и постпроцессинга выхода модели решать некоторые задачи, на которые модель напрямую не обучалась:
- edge detection;
- instance segmentation;
- object proposal.
Сами авторы считают, что SAM может стать foundation model, т.е. что-то вроде GPT-3 в сфере сегментации картинок. Foundation model — это модель, которая обучилась на какую-то задачу на огромном количестве данных, и это породило у нее способности к решению многих других задач, на которые она напрямую не обучалась, в few-shot и zero-shot режимах.
Только прочитав статью, я не уверена, что я с этим согласна. На мой взгляд, те задачи, на которых SAM показывает способности к zero-shot — это та же сегментация, только вид подачи данных на вход модели немного отличается. Т.е. не то чтобы тут у модели возникают какие-то новые неожиданные способности. Но SAM — это точно foundation model в том смысле, что обучена модель была на огромном количестве данных, и из-за этого ее должно быть очень легко дообучить под свою конкретную задачу. Это такой ImageNet для задачи сегментауии, короче.
Ссылки:
📄Статья
💻Сайт с онлайн-демо
Ниже чуть позже разберу устройство SAM подробнее ⬇️
Обещала разбор SAM, и сделала. Правда, текста снова вышло много, поэтому решила оформить в виде статейки. Заодно потестила Teletype (на замену telegra.ph). Статейка — вот
#paper
В статье — о том, как устроена архитектура SAM, как собирали датасет для обучения (не очень очевидным способом), а также как так вышло, что модель умеет сегментировать объекты на картинке по текстовому описанию, хотя в датасете никаких текстов нет вообще. Идея, как такого добились, мне лично показалась очень интересной. Собственно, практически ради нее я этот лонгрид и писала)
P.S. В Teletype, если что, тоже можно оставлять комменты и реакции к статьям =)
#paper
В статье — о том, как устроена архитектура SAM, как собирали датасет для обучения (не очень очевидным способом), а также как так вышло, что модель умеет сегментировать объекты на картинке по текстовому описанию, хотя в датасете никаких текстов нет вообще. Идея, как такого добились, мне лично показалась очень интересной. Собственно, практически ради нее я этот лонгрид и писала)
P.S. В Teletype, если что, тоже можно оставлять комменты и реакции к статьям =)
Teletype
Разбор SAM (Segment Anything Model)
SAM — это модель от Meta AI, обученная на новом огромном датасете для сегментации изображений. Этот датасет содержит 11 млн картинок...
Написали уже много кто, но напишу и я. Новость дня — OpenAI запустил Bug Bounty Program. Смысл такой: вы находите баги в сервисах OpenAI, а вам за это платят реальными деньгами.
Когда это выложили, показалось, что теперь можно искать баги в ответах ChatGPT (ой она меня оскорбила/выдала неверную инфу о телескопе/сгенерила код для взлома Пентагона/начала галлюционировать) и получать за каждый по $200+. Но это не так. Деньги дают за поиск уязвимостей в инфраструктуре по типу "DROP TABLE USERS..."
Например:
- безопасность интерфейса ChatGPT и плагинов, работающих на его основе. Проблемы с аутентификацией/регистрацией/платежами, утечка данных и т.п.;
- провека того, что нельзя получить доступ к конфиденциальной информация OpenAI через third-party, т.е, через компании-пертнеры вроде Notion, Confluence и т.п.;
- проверка утечек API-ключей партнеров в открытый доступ в интернет.
Короче, это больше для тех, кто увлекается security. А если хочется поджейлбрейкать ChatGPT, то фидбек о нежелательном поведении модели можно посылать сюда. Правда, денег не дадут)
Полные условия Bug Bounty Program читайте тут. Тут же можно отправить свою найденную уязвимость.
Когда это выложили, показалось, что теперь можно искать баги в ответах ChatGPT (ой она меня оскорбила/выдала неверную инфу о телескопе/сгенерила код для взлома Пентагона/начала галлюционировать) и получать за каждый по $200+. Но это не так. Деньги дают за поиск уязвимостей в инфраструктуре по типу "DROP TABLE USERS..."
Например:
- безопасность интерфейса ChatGPT и плагинов, работающих на его основе. Проблемы с аутентификацией/регистрацией/платежами, утечка данных и т.п.;
- провека того, что нельзя получить доступ к конфиденциальной информация OpenAI через third-party, т.е, через компании-пертнеры вроде Notion, Confluence и т.п.;
- проверка утечек API-ключей партнеров в открытый доступ в интернет.
Короче, это больше для тех, кто увлекается security. А если хочется поджейлбрейкать ChatGPT, то фидбек о нежелательном поведении модели можно посылать сюда. Правда, денег не дадут)
Полные условия Bug Bounty Program читайте тут. Тут же можно отправить свою найденную уязвимость.