Telegram Web Link
Привет всем! Между camera ready COLING и дедлайном NAACL попробуем провести 1-2 семинара. Сейчас будет анонс!
В четверг, 5 ноября, в ZOOM будет наш очередной семинар.

Семинар НУЛ ММВП "Энтропийный подход в тематическом моделировании"

Докладчики:

Кольцов Сергей Николаевич, ведущий научный сотрудник Лаборатории социальной и когнитивной информатики, доцент департамента математики.
Игнатенко Вера Викторовна, научный сотрудник Лаборатории социальной и когнитивной информатики, доцент департамента математики.

В докладе будут рассмотрены возможности применения деформированных энтропий (энтропия Реньи, Цаллиса, Шарма-Миттала) для анализа поведения ряда тематических моделей (ТМ). В докладе описывается подход к анализу зависимости ТМ от числа тем на основе идей из статистической физики. В рамках данного подхода коллекция документов и слов рассматривается в виде мезоскопической информационной системы, состояние которой описывается деформированными энтропиями, а поведение информационной системы определяется числом кластеров/тем. Тематическое моделирование рассматривается как процедура упорядочивания информационный системы. Исходя из этого, проблему выбора оптимального числа тем можно свести к проблеме нахождения минимума свободной энергии или минимума неравновесной энтропии Реньи/Цаллиса, а поиск семантической стабильности можно определить при помощи энтропии Шарма-Миттала. В рамках данного доклада будет показано, как можно организовать настройку гипер-параметров тематических моделей в терминах энтропии, как при помощи перебора гипер – параметров по сетке, так и при помощи процедур ренормализации. Процедура ренормализации тематических моделей позволяет существенно ускорить применение энтропийного подхода с вычислительной точки зрения, что чрезвычайно важно при работе с большими данными. В рамках данного доклада также будет рассмотрена возможность применения энтропийного подхода к иерархическим тематическим моделям, и будут обсуждаться ограничения данного подхода. Кроме того, в докладе будут представлены результаты расчетов таких тематических моделей как PLSA, VLDA (Блей), LDA (Gibbs sampling), GLDA(Gibbs sampling), BigARTM; результаты применения процедур ренормализации, а также результы расчетов нескольких иерархических тематических моделей (HPAM, HLDA, hARTM).

Форма регистрации: https://cs.hse.ru/ai/computational-pragmatics/announcements/412627643.html
Всем привет! Несколько запоздалое объявление:
Приглашаем вас на семинар по автоматической обработке текстов НУЛ ММВП во вторник, 8 декабря, в 19-00.

Тема семинара:  "Combining Neural Language Models for Word Sense Induction".

Аннотация: 
Задача выявления значений слов (word sense induction, WSI) требует группировки текстовых фрагментов, содержащих многозначное слово, в кластеры, соответствующие значениям слова. Доклад посвящен исследованиям автора к области применения нейронных языковых моделей для генерации лексических постановок и их использования для русского и английского WSI. Рассматриваются подходы к комбинированию вероятностных распределений, оцениваемых языковыми моделями, для улучшения качества подстановок и результатов WSI.

Докладчик:
Арефьев Николай Викторович, м.н.с. НУЛ моделей и методов вычислительной прагматики, к.ф.-м.н.

Семинар пройдет в формате онлайн-конференции. 

Ссылка на регистрацию 

Алгоритм регистрации: надо заполнить форму, ближе к семинару вам придет письмо с ссылкой на zoom и паролем. 
Дорожка по классификации твитов на русском языке о лекарственных препаратах SMM4H 2021 Task 2: определяем, упомянуты ли побочные эффекты.

Мы рады сообщить, что в 2020-2021 году будет проходить второе соревнование по автоматической классификации русских твитов для определения наличия упоминаний о побочных лекарственных эффектах в рамках воркшопа Social Media Mining for Health Application workshop (SMM4H) 2021. Воркшоп будет проходить в рамках международной конференции NAACL 2021.

В этом году обучающая и тестовая выборки существенно расширены, в том числе добавлены твиты о лекарствах, применяющихся при лечении COVID-19. Дорожка даёт возможность протестировать как одноязычные методы, так и многоязычные модели (например, multilingual BERT, XLM-R). Мы призываем участников использовать не только русскоязычные твиты для обучения моделей, но и размеченные твиты на английском языке, которые можно получить в рамках дорожки SMM4H 2021 Task 1.

Важные даты:
Публикация тренировочных данных: 15 декабря 2020
Публикация тестовых данных: 26 февраля - 1 марта 2021
Последний день для отправки решений на тестовых данных: 4 марта 2021
Оценки на тестовых данных: 8 марта 2021
Подача статей с описанием решения: 15 марта 2021
Финальная версия статей: 12 апреля 2021
SMM4H воркшоп: 10 июня 2021

Для регистрации заполните форму: https://forms.gle/1qs3rdNLDxAph88n6

Подробная информация: https://healthlanguageprocessing.org/smm4h-2021/task-2/
Всем привет! Наш семинар возобновляет вещание. Приглашаем вас в четверг, 11 февраля, в 19-00.

Тема
: "Spacy для NLP: прошлое, настоящее, будущее".

Докладчик:
Юрий Бабуров, CTO в компании ApRbot (обработка неструктурированных документов), создатель библиотек spaCy-Ru, python-readability и соавтор крупнейшего корпуса русской речи OpenSTT, преподаватель курса по нейросетям в магистратуре НГУ, соавтор курса https://dlcourse.ai

Аннотация: Spacy для NLP: прошлое, настоящее, будущее.
Расскажу про задачи, которые решает пакет Spacy,
и про то, как он это делает. Морфология и лемматизация, NER,
синтаксический анализ, классификация. SOTA или скорость.

Семинар пройдет в онлайн-формате.

Ссылка на регистрацию

(!) Алгоритм регистрации: надо заполнить форму, ближе к семинару вам придет письмо с ссылкой на zoom и паролем.
Частиный архив семинаров доступен на YouTube: https://www.youtube.com/channel/UCCxkZfDk6ubdL28Fe5tNlIQ
Коллеги, кажется, наш семинар довольно популярен (вчера было порядка 60 слушателей). Чтобы он и дальше продолжался, нам нужна помощь сообщества:
1) всегда нужны новые докладчики или идеи, кого позвать
2) и иногда нужны волонтеры (порезать видео для YT, сделать рассылки анонса по всем чатам и тд.)

Если у вас есть желание выступить или как-то помочь с организацией, пишите Кате @eartemova
Всем привет! Приглашаем всех поучаствовать в соревновании по симплификации предложений на русском языке. Что такое симплификация? Например, когда вы пытаетесь своей бабушке объяснить, чем занимаетесь – вы стараетесь не употреблять жаргона и специальных терминов, строить предложение, не используя сложных оборотов.
То есть на входе дается сложное предложение, а на выходе должно быть простое.
Соревнование начнется 15 февраля и продлится до 15 марта. Для русского языка нет доступного большого набора данных, поэтому мы предоставим небольшой валидационный датасет, а также переведенный англоязычный корпус. В качестве метрики качества будет использоваться SARI (полнота по n-граммам). Мы также приглашаем всех описать свой опыт участия в статье на конференцию Диалог. Ждем всех!

Репозиторий соревнования: https://github.com/dialogue-evaluation/RuSimpleSentEval

Страница соревнования:
https://competitions.codalab.org/competitions/29037

Чат:
https://www.tg-me.com/rsse2021
Всем привет!
В рамках Dialogue Evaluation 2021 с 8 февраля по 12 марта мы проводим соревнование по кластеризации, выбору и генерации заголовков для новостей.
Соревнование состоит из 3 дорожек. В рамках первой дорожки нужно определить, относятся ли 2 новости к одному событию, в рамках второй - выбрать лучший заголовок для кластера, а в рамках третьей - попытаться по текстам новостей из кластера сгенерировать лучший заголовок. Для первой дорожки датасет готов и соревнование уже идёт, для второй и третьей всё начнётся на следующей неделе.
По результатам участия можно будет подать статью на конференцию Диалог.

Более подробное описание по ссылке.
Соревнование: https://competitions.codalab.org/competitions/28830
Чат в Telegram: https://www.tg-me.com/dialogue_clustering
Всем привет! Приглашаем вас в четверг, 25 февраля, в 19-00 на очередной семинар.

Тема: "4 соревнования Dialogue Evaluation 2020”.

Докладчики:
Иван Смуров, ABBYY, МФТИ
Илья Гусев, МФТИ
Мария Пономарева, ABBYY, ВШЭ
Екатерина Артемова, ВШЭ

На семинаре будут представлены соревнования Dialogue Evaluation 2021. Мы расскажем о постановках задач, которым посвящены соревнования и представим базовые подходы к их решению. По результатам участия в каждом соревновании можно будет подать статью на конференцию Диалог.

Семинар пройдет в онлайн-формате.

Ссылка на регистрацию

(!) Алгоритм регистрации: надо заполнить форму до 16-00 25.02, ближе к семинару вам придет письмо с ссылкой на zoom и паролем.
исследовано pinned «Всем привет! Приглашаем вас в четверг, 25 февраля, в 19-00 на очередной семинар. Тема: "4 соревнования Dialogue Evaluation 2020”. Докладчики: Иван Смуров, ABBYY, МФТИ Илья Гусев, МФТИ Мария Пономарева, ABBYY, ВШЭ Екатерина Артемова, ВШЭ На семинаре будут…»
‼️‼️ИЩЕМ ПРОГРАММИСТОВ И КОМП.ЛИНГВИСТОВ‼️‼️

ЧТО ПРОИСХОДИТ: совместный проект студентов ФКН, ФГН и Школы востоковедения НИУ ВШЭ подает заявку на финансирование от Вышки. Наша задача – сделать два NLP-алгоритма, которые помогут юзеру изучать русский и китайский как иностранный. Для этого нам нужны программисты и компьютерные лингвисты, в первую очередь - студенты НИУ ВШЭ.

АЛГОРИТМ №1:
- ЦЕЛЬ: для каждого слова на русском выдавать наиболее частые переводы на китайский и наиболее релевантные примеры предложений на другом языке. Предполагается, что это будет google extention.
- ПОХОЖИЕ ПРОДУКТЫ: https://chrome.google.com/webstore/detail/rikaikun/jipdnfibhldikgcjhfnomkfpcebammhp/ ; https://chrome.google.com/webstore/detail/reverso-%E2%80%93-translation-dic/onhiacboedfinnofagfgoaanfedhmfab/ ; https://chrome.google.com/webstore/detail/japanese-io/dccefjeoofjkdjodbkkbncjcipagdnad/
- НАВЫКИ ИСПОЛНИТЕЛЕЙ: NLP, информационный поиск, машинный перевод. Полезно, но не обязательно: знать/учить китайский; правиловые методы NLP.

АЛГОРИТМ №2:
- ЦЕЛЬ: при вводе текста и выборе уровня сложности («начальный/А1-А2», «средний/В1-В2», «продвинутый/С1-С2») текст автоматически упрощается до этого уровня сложности. Предполагается, что это будет веб-сервис.
- ПОХОЖИЕ ПРОДУКТЫ: https://newsela.com/
- НАВЫКИ ИСПОЛНИТЕЛЕЙ: NLP; упрощение текстов (text simplification), генерация текстов. Полезно, но не обязательно: знать/учить китайский; правиловые методы NLP.

ЧТО ВЗАМЕН:
- деньги: мы подаемся на грант Центра академического развития студентов. Деньги там не заоблачные И ЭТО НЕ ЗАРПЛАТА, но гарантировано будет покрытие расходных вещей (оплата доп. мощностей, покрытие участия в конференциях и т.д.);
- возможность потрогать китайское NLP;
- зачеты по проектам и практикам – по вашему желанию;
- публикации и участие в научных конференциях – полезно для портфолио и магистратуры;
- общение как с академическими компьютерными лингвистами (ВШЭ, МГУ, РАН), так и с индустриальными специалистами в NLP.

О НАС: Мы – команда ruzhcorp, или Русско-китайского параллельного корпуса НКРЯ. Это совместный коллектив лингвистов, китаистов и программистов из России и Китая, который создает удобную для юзера базу данных с текстами на двух языках. Это помогает и при обучении иностранному языку, и при научном изучении двух языков. Подробнее о нашем проекте вы можете узнать на сайте: https://ruzhcorp.github.io/ и в группе Вконтакте: @club195313186 (@ruzh_corp) .

ЕСЛИ ВАМ ИНТЕРЕСНО – СКОРЕЕ РЕГИСТРИРУЙТЕСЬ ЗДЕСЬ: https://docs.google.com/forms/d/e/1FAIpQLScXomeJT6VVcYAG8mleDVf_0spNxzByNclMPXhAtBHRO0Kl7w/viewform?usp=sf_link/

ВАЖНО: ДЕДЛАЙН РЕГИСТРАЦИИ - 25 ФЕВРАЛЯ
По всем вопросам пишите Кириллу: @clr_smnv (tg), Маше: @joyahis (tg), или в лс группы ВКонтакте.
Всем привет!
В рамках Dialogue Evaluation 2021 с 20 февраля по 15 марта проводится соревнование по нормализации (т. е. приведению к начальной форме) участков текста.
Соревнование состоит из 2 дорожек. В первой дорожке необходимо привести к нормальной форме именованные сущности (персоны, локации, организации) на материале новостных текстов vz.ru. Во второй - более общие спаны (в том числе, не являющиеся именными группами) на материале корпуса RuREBus (программы Минэкономразвития).
По результатам участия можно будет подать статью на конференцию Диалог.

Более подробное описание по ссылке.
Гитхаб: https://github.com/dialogue-evaluation/RuNormAS
Соревнование: https://competitions.codalab.org/competitions/29216?secret_key=d63b3dae-a033-402f-a867-fa6de980dd4d
Чат в Telegram: @RuNormAS
Forwarded from Maša Ponomareva
Привет!
Посмотрите на картинку, на ней семантический скетч глагола. Сможете догадаться, какого? Семантический скетч отражает сочетаемость слова в корпусе, для человека хорошо построенные скетчи являются вполне репрезентативными, а так ли это для машины? Мы приглашаем вас поучаствовать в дорожке Диалога (да, их в этом году очень много), которая называется SemSketches. В рамках дорожки участникам предстоит угадывать по слову в контексте, к какому семантическому скетчу оно относится. Задача экспериментальная и новая, большая свобода для идей и интересные данные. Очень ждем участников!

Чат в телеграме
Гитхаб соревнования (подробности, данные, таймлайн там)
image_2021-02-25_13-24-04.png
76.6 KB
Приглашаем на онлайн-семинар "Четыре соревнования Dialogue Evaluation 2021"!

🌐RuNormAS
Приведение части текста (именованной сущности, словосочетания) в нормальную (начальную) форму. Необходимо учитывать контекст: например, слово "Иванова" в зависимости от него может иметь как нормальную форму "Иванова", так и "Иванов".
🌐Кластеризация, выбор и генерация заголовков для новостей.
Цель – собрать и сравнить подходы к кластеризации и выбору наилучшего заголовка для получившихся кластеров.
🌐SemSketches
Цель соревнования – оценить иллюстративность семантических скетчей, попробовав по контексту слова предсказать соответствующий слову скетч из заданного набора.
🌐RuSimpleSentEval, RSSE
Задача: упрощение на уровне предложений. В такой постановке она заключается в том, чтобы из сложного предложения получить упрощенное.
Подробности по ссылке .
Всем привет! Подумалось, что в этом канале можно рассказывать не только о мероприятиях, но и о том, какие проекты мы делаем в Вышке. Сегодня на архиве вышла статья про RuSentEval, созданный коллегами из нашей лаборатории, Школы лингвистики и Сбера. Скоро статья же появится в сборнике воркшопа BSNLP. Сейчас текст статьи доступен по ссылке.

RuSentEval – это новый набор данных для диагностического тестирования (probing) векторных и языковых моделей для русского языка. Набор включает в себя 14 датасетов, которые покрывают различные лингвистические явления – от поверхностных (число слов в предложении) до синтаксических (глубина синтаксического дерева) и семантических (число и род подлежащего). Классический метод диагностического тестирования – обучить классификатор, который предсказывает наличие того или иного явления по вектору предложения. Поведение классификатора может показать, например, какие слои языковой модели более чувствительны к низкоуровневым признакам, а какие – к высокоуровневым.

В работе мы использовали данные RuSentEval и SentEval (английский язык), чтобы провести диагностическое тестирование пяти мультиязычных трансформеров – в том числе mBERT, mBART и LABSE – и узнали, что модели имеют похожее представление о некоторых признаках для обоих языков, несмотря на их типологические различия. А вот mBART и LABSE отличаются от остальных (как именно – читайте в статье).

Репозиторий с кодом и данными доступен по ссылке.

Прошу прошения за повтор поста, но теперь я могу подписывать сообщения и есть возможность обсуждать их в комментариях. Сплошные плюсы.
Всем привет!

В Вышке пройдет мини-курс "Fake News, Disinformation, Propaganda, Media Bias, and the COVID-19 Infodemic" Преслава Накова.

Аннотация, форма регистрации и все подробности доступны по ссылке.
Еще одно скорое событие в Вышке:

12 апреля 2021 г. пройдет международный симпозиум «Использование анализа открытых больших данных для целей выявления глобальных трендов и вызовов, связанных с формированием и использованием человеческого потенциала», организуемый Институтом статистических исследований и экономики знаний (ИСИЭЗ) НИУ ВШЭ в рамках XXII Апрельской международной научной конференции по проблемам развития экономики и общества (https://conf.hse.ru/2021/). Планируется обсуждение вопросов, связанных с развитием технологий обработки больших данных и анализа естественного языка в приложении к актуальным задачам предиктивной аналитики, прогнозирования, выявления глобальных трендов и вызовов в этой сфере.

Участники обсудят направления развития технологий обработки больших данных и анализа естественного языка (Natural Language Provessing, NLP) и их приложения к актуальным задачам предиктивной аналитики, долгосрочного прогнозирования науки и технологий и выявления глобальных трендов и вызовов. Особое внимание будет уделено создаваемым приложениям для управления в сфере развития человеческого потенциала.

Больше подробностей и регистрация доступны по ссылке .
Всем привет!

В эту среду пройдет очередной семинар, 7.04 в 18.00.

Тема:
Использование определений в задачах мультиязычной классификации смысловой близости вхождений слов и обнаружения семантических сдвигов слов для русского языка

Аннотация: Обращение к определениям из словаря — это привычный для человека способ выяснить, какие значения имеет то или иное слово. Мы предполагаем, что система, которая может выбрать из толкового словаря или глоссария правильное определение для конкретного вхождения слова, также может естественным образом решать задачи классификации вхождений слов по смысловой близости и обнаружения семантических сдвигов. Такая система на основе определений заняла первое место в соревновании RuShiftEval.

Докладчик: Максим Рачинский, стажер-исследователь НУЛ моделей и методов вычислительной прагматики

Форма регистрации доступна по ссылке. Регистрация закроется в 16-00 непосредственно 7.04.

Алгоритм регистрации: надо заполнить форму, ближе к семинару вам придет письмо с ссылкой на zoom и паролем.
2025/07/09 18:05:47
Back to Top
HTML Embed Code: