NLP Seminar 96 - Telegram Web

Telegram Web Link

исследовано

исследовано pinned «Всем привет! В эту среду пройдет очередной семинар, 7.04 в 18.00. Тема: Использование определений в задачах мультиязычной классификации смысловой близости вхождений слов и обнаружения семантических сдвигов слов для русского языка Аннотация: Обращение…»

09:17

исследовано

Всем еще раз привет!
Ссылка на сегодня:
https://zoom.us/j/96298291405?pwd=em5tTzBCOE9mdzJEbHZ2OWRQMlZKQT09
Идентификатор конференции: 962 9829 1405
Код доступа: 278584

Join our Cloud HD Video Meeting

Zoom is the leader in modern enterprise video communications, with an easy, reliable cloud platform for video and audio conferencing, chat, and webinars across mobile, desktop, and room systems. Zoom Rooms is the original software-based conference room solution…

990 viewsKatya Artemova, 14:41

исследовано

Всем привет! Пишет Катя Артемова :)

Расскажу немного о наших новостях. В этом году при конференции NAACL пройдет семинар Teaching NLP, посвященный образовательным проектам, новым университетским курсам и учебникам. На этом семинаре мы представим методические материалы, подготовленные для онлайн-курса на OpenEdu (доступен по ссылке).

Курс состоит из двух частей: в первой части мы рассказываем об эволюции представлений текстов от счетных моделей до предобученных языковых моделей. Вторая часть курса посвящена приложениям и практическим задачам, в том числе автоматическому реферированию (aka суммаризации), вопросно-ответным системам, тематическому моделированию. Лекционные занятия проходят в традиционном формате: преподаватели вводят новые темы и рассказывают об основных понятиях и методах. Преподаватели практических занятий демонстрируют готовые инструменты для обработки текстов и обучения моделей.

Курс подготовлен на русском языке и ориентирован на студентов старших курсов, имеющих подготовку по программированию, машинному обучению и математике.

В подготовке материалов и съемке курса приняли участие: Мурат Апишев (ВШЭ), Вероника Саркисян (ВШЭ), Денис Кирьянов (Сбер), Сергей Аксенов (ВШЭ), Олег Сериков (ВШЭ), Екатерина Такташева (ВШЭ), Сергей Чувакин (ВШЭ), Екатерина Артемова (ВШЭ).

Текст статьи, принятой на TeachingNLP доступен по ссылке.

Teaching NLP Workshop

Quick information

Program schedule
Co-located with: NAACL 2021
Location: Virtual
Workshop dates: June 10-11, 2021
Two-day workshop
Participatory activities, working groups
Talks, keynotes, panel discussions
Two types of submissions
Type 1: Teaching materials…

1.07K viewsKatya Artemova, 14:13

исследовано

Продолжаю рассказывать о наших новостях:)

В июне на семинаре SIGTYP при конференции NAACL мы представим новый проект Morph Call, созданный коллегами из нашей лаборатории, DeepPavlov и Сбера. Morph Call – это новый набор задач и данных для диагностического тестирования (probing) векторных и языковых моделей для четырех типологически различных языков (английский, русский, немецкий и французский). Morph Call позволяет оценить знание моделей о морфологических признаках слов (число, род, падеж и лицо) и определить чувствительность моделей к различным ошибкам в предложении (например, нарушение согласования между подлежащим и сказуемым).

Все задачи объединены в четыре группы:
* Morphosyntactic Features: способность модели определять наличие того или иного признака у целевого слова (например, обладает ли слово “мыла” категорией числа в предложении “Мама мыла раму”).
* Masked Token: аналог Morphosyntactic Features, в которой наличие признака требуется определить по токену маски, специфическому для токенизатора.
* Morphosyntactic Values: способность модели определять непосредственное значение признака (например, в какой форме числа употреблено слово “мыла” в предложении “Мама мыла раму”).
* Perturbations: чувствительность модели к синтаксическим и словоизменительным ошибкам в предложении.

Мы провели анализ четырех мультиязычных трансформеров (mBERT, XLM-R, MiniLM и DistilBERT), используя три взаимодополняющих подхода и сравнивая влияние fine-tuning на задаче частеречной разметки по отношению к качеству на предложенных тестах. Результаты тестирования показывают, что модели имеют похожее представление о морфологии для всех языков, а про их чувствительность к ошибкам и влияние fine-tuning читайте в нашей статье.

Текст статьи доступен по ссылке.
Репозиторий с кодом и данными доступен по ссылке.

Авторы проекта: Владислав Михайлов (Сбер, ВШЭ), Олег Сериков (DeepPavlov, ВШЭ), Екатерина Артемова (ВШЭ, Huawei)

GitHub - morphology-probing/morph-call: Probing suite for exploring the morphosyntactic content of transformers

Probing suite for exploring the morphosyntactic content of transformers - morphology-probing/morph-call

1.43K viewsKatya Artemova, edited 08:14

исследовано

исследовано

Всем привет! Подумалось, что в этом канале можно рассказывать не только о мероприятиях, но и о том, какие проекты мы делаем в Вышке. Сегодня на архиве вышла статья про RuSentEval, созданный коллегами из нашей лаборатории, Школы лингвистики и Сбера. Скоро…

Привет всем :) В четверг, 27 мая, в 19-00, мы хотим рассказать про RuSentEval в виде онлайн-семинара. Форма регистрации доступна по ссылке.

Онлайн-семинар НУЛ ММВП “RuSentEval: диагностическое тестирование языковых моделей на русском языке”

Приглашаем на очередной онлайн-семинар лаборатории, который состоится 27 мая в 19.00.

848 viewsKatya Artemova, 12:14

исследовано

исследовано

Привет всем :) В четверг, 27 мая, в 19-00, мы хотим рассказать про RuSentEval в виде онлайн-семинара. Форма регистрации доступна по ссылке.

И снова всем привет:) Из-за накладки в расписании мы подвинем презентацию RuSentEval на неделю, на 3 июня. Время и место остается таким же: 19-00, Zoom. Форма регистрации доступна по ссылке.

Онлайн-семинар НУЛ ММВП “RuSentEval: диагностическое тестирование языковых моделей на русском языке”

Приглашаем на очередной онлайн-семинар лаборатории, который состоится 27 мая в 19.00.

816 viewsKatya Artemova, edited 08:46

исследовано

Forwarded from Sberloga (Alexander C)

🚀 Онлайн DS доклад от @SBERLOGA
👨‍🔬 Давид Дале (Сколтех, экс-Яндекс.Алиса) "Предобученные модели для русского языка"
⌚️ Четверг 27 мая, 19.00 по Москве

Поговорим про особенности, ограничения и рецепты использования русского BERT. Обсудим опыт дистилляции BERT и сжатия fastText. Разберёмся, какая магия нужна, чтобы заставить GPT от Сбера генерировать нужный вам текст, и почему с T5 то же самое можно сделать без магии.

Чтобы встреча прошла максимально интересно, заранее задавайте свои вопросы в комментариях!

Ссылка на зум будет доступна через тг чат www.tg-me.com/sberlogadataclub ближе к началу доклада.

Sberloga in Data

Data Сообщество
По всем вопросам обращаться @SberlogaHelperBot

925 viewsKatya Artemova, 15:59

исследовано

Forwarded from Sberloga (Alexander C)

🚀 @sberloga продолжает серию онлайн докладов по NLP (Natural Language Processing)
👨‍🔬 Андрей Козлюк (@FutorioFranklin (ПрессИндекс)) "TinyBert: 7.5x smaller and 9.4x faster"
⌚️ Четверг 10 июня 19.00 по Москве

На докладе обсудим виды дистилляции моделей с архитектурой Трансформер. Так же рассмотрим один из методов дистилляции подробнее на примере модели TinyBERT. Код, который служит мотивацией для доклада: https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/TinyBERT

Ссылка на зум будет доступна через тг чат https://www.tg-me.com/sberlogadataclub ближе к началу доклада.
ПС
Далее: 17 июня Игорь Шаталин (Human Cosmos) "Разрешение кореферентности для русского языка"

Pretrained-Language-Model/TinyBERT at master · huawei-noah/Pretrained-Language-Model

Pretrained language model and its related optimization techniques developed by Huawei Noah's Ark Lab. - huawei-noah/Pretrained-Language-Model

875 viewsKatya Artemova, 09:05

исследовано

Forwarded from Sberloga (Alexander C)

🚀 @SBERLOGA продолжает онлайны доклады по NLP (Natural Language Processing)
👨‍🔬 Андрей Лукьяненко (MTC AИ) "Практические аспекты работы с задачей NER"
⌚️ Четверг 24 июня, 19.00 по Москве

Named Entity Recognition - одна из самых известных задач NLP. Существует большое количество походов, основанных на тех или иных архитектурах Transformer, которые показывают отличные результаты на бенчмарках и в реальной жизни.
Тем не менее в проектах не всегда есть возможность использовать эти модели - например из-за инфраструктурных ограничений или из-за недостатка размеченных данных. В таких случаях весьма хорошие результаты могут показать подходы попроще.
В этом докладе я вначале расскажу о постановке задачи NER, схемах разметки и способах оценки качества моделей. Затем продемонстрирую различные подходы к построению моделей и в заключение дам советы о том, как можно улучшить качество таких подходов.

PS
Ссылка на зум будет доступна через тг чат https://www.tg-me.com/sberlogadataclub ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
PSPS
Далее: 1 июля Александр Абрамов "Обучение универсальной модели NLU c BERT и Multitask Learning"
https://m.habr.com/ru/company/sberdevices/blog/560748/

Sberloga in Data

Data Сообщество
По всем вопросам обращаться @SberlogaHelperBot

846 viewsKatya Artemova, 19:57

исследовано

Forwarded from Sberloga (Alexander C)

🚀 @SBERLOGA продолжает онлайны доклады по NLP (Natural Language Processing)
👨‍🔬 Михаил Нефедов (Сбер) "NLP модели без токенизации"
⌚️ Четверг 8 июля, 19.00 по Москве

В докладе я расскажу о недавней статье от Google Research (https://arxiv.org/abs/2105.13626), в которой показывается, что трансформеры можно успешно обучать без какой-либо токенизации, на байтовых последовательностях. Отказ от токенизации упрощает пайплайн предобработки, значительно сокращает размеры входных и выходных слоев, а также делает модель более устойчивой к искажениям текста. Перфоманс полученных модулей не уступает, а иногда и превосходит аналогичные модели с токенизацией. Недостатком такого подхода является значительное увеличение длины последовательностей, которое приводит к снижению скорости обучения и инференса.

PS
Ссылка на зум будет доступна через тг чат https://www.tg-me.com/sberlogadataclub ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga

Sberloga in Data

Data Сообщество
По всем вопросам обращаться @SberlogaHelperBot

794 viewsKatya Artemova, 08:16

исследовано

Всем привет!

Приглашаем вас на онлайн-семинар НУЛ ММВП "Матричные и тензорные разложения в задачах обработки естественного языка", который состоится 15 июля 2021 года в 19.00.

О докладчике: Гринчук Алексей Валерьевич (https://scholar.google.com/citations?user=Z8GCLksAAAAJ&hl=en&oi=ao) Окончил бакалавриат МФТИ в 2015 году. В 2017 окончил магистратуру МФТИ и Сколтеха. С 2017 является аспирантом МФТИ и занимается применением матричных и тензорных разложений к различным задачам обработки естественного языка (NLP) под руководством И.В. Оселедца. С 2020 года работает ведущим инженером в компании NVIDIA, занимается распознаванием речи и машинным переводом.

Аннотация: В настоящей работе предлагаются методы решения различных задач в области обработки естественного языка при помощи матричных и тензорных разложений. Предложен метод построения векторных представлений слов на основе Римановой оптимизации в пространстве матриц малого ранга. Предложена математическая модель векторных представлений слов на основе разложения тензорного поезда, которая требует меньше параметров, чем классическое представление в виде плотной матрицы. Предложено обобщение тензорных нейронных сетей, которое позволяет анализировать рекуррентные и полносвязные сети с различными нелинейностями между слоями. Проведён теоретический анализ обобщающей способности и выразительной силы обобщённых рекуррентных тензорных сетей с нелинейностью типа ReLU.

Для участия в семинаре необходимо зарегистрироваться до 16.00 15 июля 2021 г.

https://cs.hse.ru/ai/computational-pragmatics/announcements/484649607.html

Oleksii Hrinchuk

NVIDIA - Cited by 1,083 - Natural language processing - Automatic Speech Recognition - Transformers

2.35K viewsKatya Artemova, 16:23

исследовано

Forwarded from Sberloga (Alexander C)

🚀 @SBERLOGA продолжает онлайны доклады по NLP (Natural Language Processing)
👨‍🔬 Eгор Плотников (Сбер) "Снова про управление мамонтами, или как заставить языковую модель генерировать нужный нам текст."
⌚️ Четверг 22 июля, 19.00 по Москве

За последние несколько лет генеративные модели в NLP сделали большой шаг вперед. Сейчас языковые модели могут без проблем порождать связный, релевантный текст либо с нуля, либо путем завершения отрывка, начатого пользователем. Однако в стандартной постановке задачи человек имеет достаточно слабый контроль над итоговым результатом генерации. Например, было бы неплохо уметь задавать тему, которой должен соответствовать текст, эмоциональную окраску, стиль повествования и т.д. В данном докладе будет рассмотрено несколько статей, так или иначе решающих эту проблему:
https://arxiv.org/abs/1909.05858 "CTRL: A Conditional Transformer Language Model for Controllable Generation"
https://arxiv.org/abs/1912.02164 "Plug and Play Language Models: A Simple Approach to Controlled Text Generation"

PS
Ссылка на зум будет доступна через тг чат https://www.tg-me.com/sberlogadataclub ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga

Sberloga in Data

Data Сообщество
По всем вопросам обращаться @SberlogaHelperBot

906 viewsKatya Artemova, 08:57

исследовано

Forwarded from Sberloga (🇻 🇱 🇦 🇩)

🚀 @SBERLOGA
👨‍🔬 Дани Эль-Айясс: «Web-сервис для генерации текстовых эмбеддингов»
⌚️ Четверг 12 августа, 19.00 по Москве

Одной из самых распространенных задач NLP является задача текстовой классификации. Для обучения такой модели текст нужно представить в виде эмбеддинга. Для этого существуют различные подходы к получению эмбеддингов текстов/предложений, одним из которых является Multilingual Universal Sentence Encoder (MUSE). MUSE реализован на базе архитектуры Transformer, поддерживает 16 языков, включая русский, и показывает хорошее качество в задаче классификации.

В нашей команде, мы используем MUSE в различных проектах. Однако поскольку модель является достаточно тяжелой, приходится задумываться об эффективном использовании ресурсов, чтобы не занимать лишнюю память копиями модели в виртуальных окружениях каждого члена команды.

Для решения данной проблемы, нами был разработан REST API сервис, который можно развернуть на сервере, куда каждый член команды имеет доступ.

У такого подхода также имеется ряд дополнительных преимуществ, о которых будет рассказано во время доклада.

Ссылка на репозиторий с сервисом: https://github.com/dayyass/muse-as-service

Ссылка на зум будет доступна через тг чат https://www.tg-me.com/sberlogadataclub ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga

GitHub - dayyass/muse-as-service: REST API for sentence tokenization and embedding using Multilingual Universal Sentence Encoder.

REST API for sentence tokenization and embedding using Multilingual Universal Sentence Encoder. - dayyass/muse-as-service

992 viewsKatya Artemova, 12:43

исследовано

Хочу воспользоваться тем, что у канала большая аудитория и спросить: может быть, кто-то хочет принять участие в преподавании курсов по NLP в вышке? У нас отличная команда преподавателей с большим количеством наработок, но нужна помощь 1-2 человек. Все подробности можно узнать у меня @eartemova .

1.26K viewsKatya Artemova, 12:58

исследовано

Привет! Мы разыскиваем ассистентов на курс «Нейросетевые методы в обработке текстов». Предмет читается 4-му курсу бакалавров-лингвистов на ФГН Вышки, в программе современные методы NLP. В обязанности ассистента входит
1. проверка домашек, в которых студенты будут реализовывать несложные сети на торче, начиная от CNN и RNN и заканчивая применением трансформеров, + проверка квизов по теории
2. общение со студентами по содержанию домашек.
Курс длится 3 модуля, трудоустраивает вас ФКН (предмет читается в рамках проекта «Data Culture»).
Требование вышки - ассистент должен быть студентом вышки любого курса.
С любыми вопросами писать Маше Пономаревой @MashPo

1.14K viewsKatya Artemova, 08:32

исследовано

Как мы все понимаем, скоро учебный год и всем нужны кадры:) Еще одна вакансия -- и скоро мы вернемся с семинаром.

993 viewsKatya Artemova, 14:08

исследовано

Forwarded from Лия Ветюгова (Каримова)

Добрый день,

Мы ищем ассистента для поддержки онлайн-курса Deep Learning for Computer Vision из специализации Coursera Advanced Machine Learning. Это один из самых популярных курсов ВШЭ на Coursera, который прошли уже десятки тысяч студентов по всему миру. Сегодня пришло время сделать его лучше.

Если вы прошли базовый курс компьютерного зрения и/или глубокого обучения, хотите попробовать свои силы в развитии образовательных проектов или просто как следует попрактиковаться в deep learning, а также любите востребованную (а значит, ответственную) работу, то мы ждем вашу заявку.

Требования к ассистенту:
— базовые знания компьютерного зрения и глубокого обучения,
— ответственность, пунктуальность, способность соблюдать сроки,
— аккуратность и коммуникабельность, способность выполнять работу учебного ассистента (отвечать на сообщения, помогать студентам достигать их целей).

Обязанности:
— поддержка форума студентов курса, ответы на вопросы,
— принеобходимости устранение ошибок и проблем в практических заданиях и quiz-ах,
— рассылка новостей, опросов, объявлений слушателям курса.

Что вы получите:
— опыт поддержки популярного курса на крупнейшей онлайн-платформе Coursera,
— опыт отладки и улучшения кода, реализующего алгоритмы глубокого обучения для задач компьютерного зрения,
— опыт преподавательской деятельности для международного сообщества студентов,

Условия: договор на сопровождение заключается на 26 недель на сумму 50500 к начислению.

Если вы заинтересованы, заполните, пожалуйста анкету по ссылке: https://forms.gle/yU8qpwjafbsVAJVH7
Если вы нам подойдете, мы с вами обязательно свяжемся. По всем возникшим вопросам можно писать менеджеру онлайн проектов ФКН, Каримовой Лие @liya_karimova

1.57K viewsKatya Artemova, 14:08

исследовано

Всем привет!

В этом году мы проводим на Диалоге соревнование по идентификации сгенерированных текстов. Все подробности можно у знать в репозитории по ссылке .

Ориентировочно, мы выложим данные и запустим соревнование в начале января.

GitHub - dialogue-evaluation/RuATD: Russian Artificial Text Detection

Russian Artificial Text Detection. Contribute to dialogue-evaluation/RuATD development by creating an account on GitHub.

2.74K viewsKatya Artemova, 12:06

исследовано

Всем привет!

Начинаем новый год и новый сезон семинаров: 3 января будем рассказывать про соревнования на Диалоге.

Подробности по ссылке: https://cs.hse.ru/ai/computational-pragmatics/announcements/547026735.html

Семинар НУЛ ММВП "Четыре соревнования Dialogue Evaluation"

5.35K viewsKatya Artemova, 14:28

исследовано

Всем привет!

Февральский семинар будет посвящен обработке речи.

Подробности по ссылке: https://cs.hse.ru/ai/computational-pragmatics/announcements/567490535.html

Семинар НУЛ ММВП "Введение в нейросетевую обработку человеческой речи"

2.35K viewsKatya Artemova, 10:55

2025/07/08 23:20:39
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>