Telegram Web Link
исследовано pinned «Всем привет! В эту среду пройдет очередной семинар, 7.04 в 18.00. Тема: Использование определений в задачах мультиязычной классификации смысловой близости вхождений слов и обнаружения семантических сдвигов слов для русского языка Аннотация: Обращение…»
Всем привет! Пишет Катя Артемова :)

Расскажу немного о наших новостях. В этом году при конференции NAACL пройдет семинар Teaching NLP, посвященный образовательным проектам, новым университетским курсам и учебникам. На этом семинаре мы представим методические материалы, подготовленные для онлайн-курса на OpenEdu (доступен по ссылке).

Курс состоит из двух частей: в первой части мы рассказываем об эволюции представлений текстов от счетных моделей до предобученных языковых моделей. Вторая часть курса посвящена приложениям и практическим задачам, в том числе автоматическому реферированию (aka суммаризации), вопросно-ответным системам, тематическому моделированию. Лекционные занятия проходят в традиционном формате: преподаватели вводят новые темы и рассказывают об основных понятиях и методах. Преподаватели практических занятий демонстрируют готовые инструменты для обработки текстов и обучения моделей.

Курс подготовлен на русском языке и ориентирован на студентов старших курсов, имеющих подготовку по программированию, машинному обучению и математике.

В подготовке материалов и съемке курса приняли участие: Мурат Апишев (ВШЭ), Вероника Саркисян (ВШЭ), Денис Кирьянов (Сбер), Сергей Аксенов (ВШЭ), Олег Сериков (ВШЭ), Екатерина Такташева (ВШЭ), Сергей Чувакин (ВШЭ), Екатерина Артемова (ВШЭ).

Текст статьи, принятой на TeachingNLP доступен по ссылке.
Продолжаю рассказывать о наших новостях:)

В июне на семинаре SIGTYP при конференции NAACL мы представим новый проект Morph Call, созданный коллегами из нашей лаборатории, DeepPavlov и Сбера. Morph Call – это новый набор задач и данных для диагностического тестирования (probing) векторных и языковых моделей для четырех типологически различных языков (английский, русский, немецкий и французский). Morph Call позволяет оценить знание моделей о морфологических признаках слов (число, род, падеж и лицо) и определить чувствительность моделей к различным ошибкам в предложении (например, нарушение согласования между подлежащим и сказуемым).

Все задачи объединены в четыре группы:
* Morphosyntactic Features: способность модели определять наличие того или иного признака у целевого слова (например, обладает ли слово “мыла” категорией числа в предложении “Мама мыла раму”).
* Masked Token: аналог Morphosyntactic Features, в которой наличие признака требуется определить по токену маски, специфическому для токенизатора.
* Morphosyntactic Values: способность модели определять непосредственное значение признака (например, в какой форме числа употреблено слово “мыла” в предложении “Мама мыла раму”).
* Perturbations: чувствительность модели к синтаксическим и словоизменительным ошибкам в предложении.

Мы провели анализ четырех мультиязычных трансформеров (mBERT, XLM-R, MiniLM и DistilBERT), используя три взаимодополняющих подхода и сравнивая влияние fine-tuning на задаче частеречной разметки по отношению к качеству на предложенных тестах. Результаты тестирования показывают, что модели имеют похожее представление о морфологии для всех языков, а про их чувствительность к ошибкам и влияние fine-tuning читайте в нашей статье.

Текст статьи доступен по ссылке.
Репозиторий с кодом и данными доступен по ссылке.

Авторы проекта: Владислав Михайлов (Сбер, ВШЭ), Олег Сериков (DeepPavlov, ВШЭ), Екатерина Артемова (ВШЭ, Huawei)
Forwarded from Sberloga (Alexander C)
🚀 Онлайн DS доклад от @SBERLOGA
👨‍🔬 Давид Дале (Сколтех, экс-Яндекс.Алиса) "Предобученные модели для русского языка"
⌚️ Четверг 27 мая, 19.00 по Москве

Поговорим про особенности, ограничения и рецепты использования русского BERT. Обсудим опыт дистилляции BERT и сжатия fastText. Разберёмся, какая магия нужна, чтобы заставить GPT от Сбера генерировать нужный вам текст, и почему с T5 то же самое можно сделать без магии.

Чтобы встреча прошла максимально интересно, заранее задавайте свои вопросы в комментариях!

Ссылка на зум будет доступна через тг чат www.tg-me.com/sberlogadataclub ближе к началу доклада.
Forwarded from Sberloga (Alexander C)
🚀 @sberloga продолжает серию онлайн докладов по NLP (Natural Language Processing)
👨‍🔬 Андрей Козлюк (@FutorioFranklin (ПрессИндекс)) "TinyBert: 7.5x smaller and 9.4x faster"
⌚️ Четверг 10 июня 19.00 по Москве

На докладе обсудим виды дистилляции моделей с архитектурой Трансформер. Так же рассмотрим один из методов дистилляции подробнее на примере модели TinyBERT. Код, который служит мотивацией для доклада: https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/TinyBERT

Ссылка на зум будет доступна через тг чат https://www.tg-me.com/sberlogadataclub ближе к началу доклада.
ПС
Далее: 17 июня Игорь Шаталин (Human Cosmos) "Разрешение кореферентности для русского языка"
Forwarded from Sberloga (Alexander C)
🚀 @SBERLOGA продолжает онлайны доклады по NLP (Natural Language Processing)
👨‍🔬 Андрей Лукьяненко (MTC AИ) "Практические аспекты работы с задачей NER"
⌚️ Четверг 24 июня, 19.00 по Москве

Named Entity Recognition - одна из самых известных задач NLP. Существует большое количество походов, основанных на тех или иных архитектурах Transformer, которые показывают отличные результаты на бенчмарках и в реальной жизни.
Тем не менее в проектах не всегда есть возможность использовать эти модели - например из-за инфраструктурных ограничений или из-за недостатка размеченных данных. В таких случаях весьма хорошие результаты могут показать подходы попроще.
В этом докладе я вначале расскажу о постановке задачи NER, схемах разметки и способах оценки качества моделей. Затем продемонстрирую различные подходы к построению моделей и в заключение дам советы о том, как можно улучшить качество таких подходов.

PS
Ссылка на зум будет доступна через тг чат https://www.tg-me.com/sberlogadataclub ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
PSPS
Далее: 1 июля Александр Абрамов "Обучение универсальной модели NLU c BERT и Multitask Learning"
https://m.habr.com/ru/company/sberdevices/blog/560748/
Forwarded from Sberloga (Alexander C)
🚀 @SBERLOGA продолжает онлайны доклады по NLP (Natural Language Processing)
👨‍🔬 Михаил Нефедов (Сбер) "NLP модели без токенизации"
⌚️ Четверг 8 июля, 19.00 по Москве


В докладе я расскажу о недавней статье от Google Research (https://arxiv.org/abs/2105.13626), в которой показывается, что трансформеры можно успешно обучать без какой-либо токенизации, на байтовых последовательностях. Отказ от токенизации упрощает пайплайн предобработки, значительно сокращает размеры входных и выходных слоев, а также делает модель более устойчивой к искажениям текста. Перфоманс полученных модулей не уступает, а иногда и превосходит аналогичные модели с токенизацией. Недостатком такого подхода является значительное увеличение длины последовательностей, которое приводит к снижению скорости обучения и инференса.

PS
Ссылка на зум будет доступна через тг чат https://www.tg-me.com/sberlogadataclub ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
Всем привет!

Приглашаем вас на онлайн-семинар НУЛ ММВП "Матричные и тензорные разложения в задачах обработки естественного языка", который состоится 15 июля 2021 года в 19.00.

О докладчике: Гринчук Алексей Валерьевич (https://scholar.google.com/citations?user=Z8GCLksAAAAJ&hl=en&oi=ao) Окончил бакалавриат МФТИ в 2015 году. В 2017 окончил магистратуру МФТИ и Сколтеха. С 2017 является аспирантом МФТИ и занимается применением матричных и тензорных разложений к различным задачам обработки естественного языка (NLP) под руководством И.В. Оселедца. С 2020 года работает ведущим инженером в компании NVIDIA, занимается распознаванием речи и машинным переводом.

Аннотация: В настоящей работе предлагаются методы решения различных задач в области обработки естественного языка при помощи матричных и тензорных разложений. Предложен метод построения векторных представлений слов на основе Римановой оптимизации в пространстве матриц малого ранга. Предложена математическая модель векторных представлений слов на основе разложения тензорного поезда, которая требует меньше параметров, чем классическое представление в виде плотной матрицы. Предложено обобщение тензорных нейронных сетей, которое позволяет анализировать рекуррентные и полносвязные сети с различными нелинейностями между слоями. Проведён теоретический анализ обобщающей способности и выразительной силы обобщённых рекуррентных тензорных сетей с нелинейностью типа ReLU.

Для участия в семинаре необходимо зарегистрироваться до 16.00 15 июля 2021 г.

https://cs.hse.ru/ai/computational-pragmatics/announcements/484649607.html
Forwarded from Sberloga (Alexander C)
🚀 @SBERLOGA продолжает онлайны доклады по NLP (Natural Language Processing)
👨‍🔬 Eгор Плотников (Сбер) "Снова про управление мамонтами, или как заставить языковую модель генерировать нужный нам текст."
⌚️ Четверг 22 июля, 19.00 по Москве


За последние несколько лет генеративные модели в NLP сделали большой шаг вперед. Сейчас языковые модели могут без проблем порождать связный, релевантный текст либо с нуля, либо путем завершения отрывка, начатого пользователем. Однако в стандартной постановке задачи человек имеет достаточно слабый контроль над итоговым результатом генерации. Например, было бы неплохо уметь задавать тему, которой должен соответствовать текст, эмоциональную окраску, стиль повествования и т.д. В данном докладе будет рассмотрено несколько статей, так или иначе решающих эту проблему:
https://arxiv.org/abs/1909.05858 "CTRL: A Conditional Transformer Language Model for Controllable Generation"
https://arxiv.org/abs/1912.02164 "Plug and Play Language Models: A Simple Approach to Controlled Text Generation"

PS
Ссылка на зум будет доступна через тг чат https://www.tg-me.com/sberlogadataclub ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
Forwarded from Sberloga (🇻 🇱 🇦 🇩)
🚀 @SBERLOGA
👨‍🔬 Дани Эль-Айясс: «Web-сервис для генерации текстовых эмбеддингов»
⌚️ Четверг 12 августа, 19.00 по Москве

Одной из самых распространенных задач NLP является задача текстовой классификации. Для обучения такой модели текст нужно представить в виде эмбеддинга. Для этого существуют различные подходы к получению эмбеддингов текстов/предложений, одним из которых является Multilingual Universal Sentence Encoder (MUSE). MUSE реализован на базе архитектуры Transformer, поддерживает 16 языков, включая русский, и показывает хорошее качество в задаче классификации.

В нашей команде, мы используем MUSE в различных проектах. Однако поскольку модель является достаточно тяжелой, приходится задумываться об эффективном использовании ресурсов, чтобы не занимать лишнюю память копиями модели в виртуальных окружениях каждого члена команды.

Для решения данной проблемы, нами был разработан REST API сервис, который можно развернуть на сервере, куда каждый член команды имеет доступ.

У такого подхода также имеется ряд дополнительных преимуществ, о которых будет рассказано во время доклада.

Ссылка на репозиторий с сервисом: https://github.com/dayyass/muse-as-service

Ссылка на зум будет доступна через тг чат https://www.tg-me.com/sberlogadataclub ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
Хочу воспользоваться тем, что у канала большая аудитория и спросить: может быть, кто-то хочет принять участие в преподавании курсов по NLP в вышке? У нас отличная команда преподавателей с большим количеством наработок, но нужна помощь 1-2 человек. Все подробности можно узнать у меня @eartemova .
Привет! Мы разыскиваем ассистентов на курс «Нейросетевые методы в обработке текстов». Предмет читается 4-му курсу бакалавров-лингвистов на ФГН Вышки, в программе современные методы NLP. В обязанности ассистента входит
1. проверка домашек, в которых студенты будут реализовывать несложные сети на торче, начиная от CNN и RNN и заканчивая применением трансформеров, + проверка квизов по теории
2. общение со студентами по содержанию домашек.
Курс длится 3 модуля, трудоустраивает вас ФКН (предмет читается в рамках проекта «Data Culture»).
Требование вышки - ассистент должен быть студентом вышки любого курса.
С любыми вопросами писать Маше Пономаревой @MashPo
Как мы все понимаем, скоро учебный год и всем нужны кадры:) Еще одна вакансия -- и скоро мы вернемся с семинаром.
Добрый день,

Мы ищем ассистента для поддержки онлайн-курса Deep Learning for Computer Vision из специализации Coursera Advanced Machine Learning. Это один из самых популярных курсов ВШЭ на Coursera, который прошли уже десятки тысяч студентов по всему миру. Сегодня пришло время сделать его лучше.

Если вы прошли базовый курс компьютерного зрения и/или глубокого обучения, хотите попробовать свои силы в развитии образовательных проектов или просто как следует попрактиковаться в deep learning, а также любите востребованную (а значит, ответственную) работу, то мы ждем вашу заявку.

Требования к ассистенту:
— базовые знания компьютерного зрения и глубокого обучения,
— ответственность, пунктуальность, способность соблюдать сроки,
— аккуратность и коммуникабельность, способность выполнять работу учебного ассистента (отвечать на сообщения, помогать студентам достигать их целей).

Обязанности:
— поддержка форума студентов курса, ответы на вопросы,
— принеобходимости устранение ошибок и проблем в практических заданиях и quiz-ах,
— рассылка новостей, опросов, объявлений слушателям курса.

Что вы получите:
— опыт поддержки популярного курса на крупнейшей онлайн-платформе Coursera,
— опыт отладки и улучшения кода, реализующего алгоритмы глубокого обучения для задач компьютерного зрения,
— опыт преподавательской деятельности для международного сообщества студентов,

Условия: договор на сопровождение заключается на 26 недель на сумму 50500 к начислению.

Если вы заинтересованы, заполните, пожалуйста анкету по ссылке: https://forms.gle/yU8qpwjafbsVAJVH7
Если вы нам подойдете, мы с вами обязательно свяжемся. По всем возникшим вопросам можно писать менеджеру онлайн проектов ФКН, Каримовой Лие @liya_karimova
Всем привет!

В этом году мы проводим на Диалоге соревнование по идентификации сгенерированных текстов. Все подробности можно у знать в репозитории по ссылке .

Ориентировочно, мы выложим данные и запустим соревнование в начале января.
Всем привет!

Начинаем новый год и новый сезон семинаров: 3 января будем рассказывать про соревнования на Диалоге.

Подробности по ссылке: https://cs.hse.ru/ai/computational-pragmatics/announcements/547026735.html
Всем привет!

Февральский семинар будет посвящен обработке речи.

Подробности по ссылке: https://cs.hse.ru/ai/computational-pragmatics/announcements/567490535.html
2025/07/08 23:20:39
Back to Top
HTML Embed Code: