Всем привет! Приглашаем вас на очередной семинар в четверг, 19 марта, в 19-00
"Сегментация сетевого представления текста на предложения и формирование дискурса в задачах синтеза текста"
* Alexander Shvets, Postdoctoral Researcher @ the Natural Language Processing Group (TALN), Department of Information and Communication Technologies, Pompeu Fabra University, Barcelona
* Дмитрий Алексеевич Девяткин, н.с. ФИЦ ИУ РАН
В области генерации текстов на естественных языках (natural language generation) основное внимание исследователей сосредоточено на решении задач порождения текста на основе текста (text-to-text). Однако актуальной задачей является также генерация связных текстов на основе данных нелингвистической природы, например, на основе графа знаний (knowledge graph) или сети лингвистических аннотаций. Среди прикладных применений решения этой задачи можно отметить генерацию виртуальных новостных лент и репортажей на основе статистической информации, построение погодных и финансовых отчетов, генерацию обобщенной информации о пациенте при автоматизации лечебно-профилактической деятельности.
В докладе рассматриваются основные подзадачи порождения текстов на основе данных нелингвистической природы и методы их решения. Особое внимание уделяется подходам к решению двух подзадач: декомпозиции исходного структурированного описания на фрагменты, соответствующие отдельным предложениям (sentence packaging), а также формированию дискурсивной схемы текста – определению порядка, в котором информация должна появляться в тексте. Из-за небольшого объема ресурсов с дискурсивной разметкой обучение сложных моделей для анализа дискурса является нетривиальной задачей. В докладе представлены предварительные результаты экспериментов с предобучением моделей анализа дискурса на большом автоматически размеченном корпусе текстов.
Семинар пройдет в формате онлайн-конференции в zoom, поэтому, пожалуйста, заполните форму регистрации, чтобы мы смогли выслать вам ссылку.
https://cs.hse.ru/ai/computational-pragmatics/announcements/349897848.html?_r=75291584360633.45336&__t=5265446&__r=OK
На все вопросы ответим в чате @nlp_spb.
"Сегментация сетевого представления текста на предложения и формирование дискурса в задачах синтеза текста"
* Alexander Shvets, Postdoctoral Researcher @ the Natural Language Processing Group (TALN), Department of Information and Communication Technologies, Pompeu Fabra University, Barcelona
* Дмитрий Алексеевич Девяткин, н.с. ФИЦ ИУ РАН
В области генерации текстов на естественных языках (natural language generation) основное внимание исследователей сосредоточено на решении задач порождения текста на основе текста (text-to-text). Однако актуальной задачей является также генерация связных текстов на основе данных нелингвистической природы, например, на основе графа знаний (knowledge graph) или сети лингвистических аннотаций. Среди прикладных применений решения этой задачи можно отметить генерацию виртуальных новостных лент и репортажей на основе статистической информации, построение погодных и финансовых отчетов, генерацию обобщенной информации о пациенте при автоматизации лечебно-профилактической деятельности.
В докладе рассматриваются основные подзадачи порождения текстов на основе данных нелингвистической природы и методы их решения. Особое внимание уделяется подходам к решению двух подзадач: декомпозиции исходного структурированного описания на фрагменты, соответствующие отдельным предложениям (sentence packaging), а также формированию дискурсивной схемы текста – определению порядка, в котором информация должна появляться в тексте. Из-за небольшого объема ресурсов с дискурсивной разметкой обучение сложных моделей для анализа дискурса является нетривиальной задачей. В докладе представлены предварительные результаты экспериментов с предобучением моделей анализа дискурса на большом автоматически размеченном корпусе текстов.
Семинар пройдет в формате онлайн-конференции в zoom, поэтому, пожалуйста, заполните форму регистрации, чтобы мы смогли выслать вам ссылку.
https://cs.hse.ru/ai/computational-pragmatics/announcements/349897848.html?_r=75291584360633.45336&__t=5265446&__r=OK
На все вопросы ответим в чате @nlp_spb.
cs.hse.ru
Семинар НУЛ ММВП "Сегментация сетевого представления текста на предложения и формирование дискурса в задачах синтеза текста"
В области генерации текстов на естественных языках (natural language generation) основное внимание исследователей сосредоточено на решении задач порождения текста на основе текста (text-to-text).
исследовано pinned «Всем привет! Приглашаем вас на очередной семинар в четверг, 19 марта, в 19-00 "Сегментация сетевого представления текста на предложения и формирование дискурса в задачах синтеза текста" * Alexander Shvets, Postdoctoral Researcher @ the Natural Language Processing…»
исследовано
Всем привет! Приглашаем вас на очередной семинар в четверг, 19 марта, в 19-00 "Сегментация сетевого представления текста на предложения и формирование дискурса в задачах синтеза текста" * Alexander Shvets, Postdoctoral Researcher @ the Natural Language Processing…
Привет всем! Напоминаю, что у нас сегодня будет онлайн семинар. Присоединяйтесь, только не забудьте зарегестрироваться.
Всем привет! В четверг, 2 апреля, в 19-00 будет очередной вебинар!
Форма регистрации на вебинар появится чуть позже.
Докладчик: Женисбек Асылбеков
Тема семинара: От векторных представлений слов к гиперболическому пространству и обратно.
Аннотация: Доклад состоит из двух частей. В первой части я сделаю краткий обзор нашей предыдущей работы о переходе от векторных представлений слов к геометрии Лобачевского через бинаризированную PMI матрицу и сложные сети. Во второй части речь пойдет об обратном переходе. Мы выбираем случайные точки в гиперболическом диске и утверждаем, что эти точки уже являются представлениями слов. Однако, еще предстоит выяснить, какая точка соответствует какому слову человеческого языка. Это соответствие может быть приблизительно установлено с использованием PMI матрицы и методами сопоставления графов.
Коротко обо Женисбеке: Я получил степень специалиста по прикладной математике в МГУ им. М. В. Ломоносова, PhD по математической статистике в Университете Хиросимы. С 2011 года работаю в Назарбаев университете (Казахстан), на данный момент в качестве ассистент-профессора. В настоящее время заинтересован в глубинном обучении для задач обработки естественного языка, а также в математической теории векторных представлений слов.
Форма регистрации на вебинар появится чуть позже.
Докладчик: Женисбек Асылбеков
Тема семинара: От векторных представлений слов к гиперболическому пространству и обратно.
Аннотация: Доклад состоит из двух частей. В первой части я сделаю краткий обзор нашей предыдущей работы о переходе от векторных представлений слов к геометрии Лобачевского через бинаризированную PMI матрицу и сложные сети. Во второй части речь пойдет об обратном переходе. Мы выбираем случайные точки в гиперболическом диске и утверждаем, что эти точки уже являются представлениями слов. Однако, еще предстоит выяснить, какая точка соответствует какому слову человеческого языка. Это соответствие может быть приблизительно установлено с использованием PMI матрицы и методами сопоставления графов.
Коротко обо Женисбеке: Я получил степень специалиста по прикладной математике в МГУ им. М. В. Ломоносова, PhD по математической статистике в Университете Хиросимы. С 2011 года работаю в Назарбаев университете (Казахстан), на данный момент в качестве ассистент-профессора. В настоящее время заинтересован в глубинном обучении для задач обработки естественного языка, а также в математической теории векторных представлений слов.
Всем привет! Ссылка на сегодня: https://zoom.us/j/749418996
Zoom Video
Join our Cloud HD Video Meeting
Zoom is the leader in modern enterprise video communications, with an easy, reliable cloud platform for video and audio conferencing, chat, and webinars across mobile, desktop, and room systems. Zoom Rooms is the original software-based conference room solution…
Всем привет! Следующий вебинар будет 16 апреля в 19:00.
Ссылка на форму регистрации и на Zoom-конференцию будет позже.
Докладчик: Алексей Зобнин,
доцент факультета компьютерных наук НИУ ВШЭ,
ведущий разработчик службы геопоиска и справочника организаций Яндекса
Тема вебинара: Линейная алгебра в задачах векторного представления слов
Аннотация: В прикладных задачах, связанных с автоматической обработкой текстов, слова заменяются действительными векторами сравнительно небольшой размерности, такими, что семантическая и синтаксическая близость слов соответствует геометрической близости векторов. Обычно такие векторы получаются из слоёв нейронной сети, или из низкоранговых разложений матриц.
Мы рассмотрим две базовых модели построения таких векторов - SVD-разложение PPMI-матрицы и word2vec SGNS. Проанализировав первую модель, мы предложим модификацию второй модели, исключив из нее векторы контекстов. Для этого нам понадобятся теоремы из классической линейной алгебры.
Ссылка на форму регистрации и на Zoom-конференцию будет позже.
Докладчик: Алексей Зобнин,
доцент факультета компьютерных наук НИУ ВШЭ,
ведущий разработчик службы геопоиска и справочника организаций Яндекса
Тема вебинара: Линейная алгебра в задачах векторного представления слов
Аннотация: В прикладных задачах, связанных с автоматической обработкой текстов, слова заменяются действительными векторами сравнительно небольшой размерности, такими, что семантическая и синтаксическая близость слов соответствует геометрической близости векторов. Обычно такие векторы получаются из слоёв нейронной сети, или из низкоранговых разложений матриц.
Мы рассмотрим две базовых модели построения таких векторов - SVD-разложение PPMI-матрицы и word2vec SGNS. Проанализировав первую модель, мы предложим модификацию второй модели, исключив из нее векторы контекстов. Для этого нам понадобятся теоремы из классической линейной алгебры.
Ссылка на сегодня: https://zoom.us/j/93078384777
Zoom Video
Join our Cloud HD Video Meeting
Zoom is the leader in modern enterprise video communications, with an easy, reliable cloud platform for video and audio conferencing, chat, and webinars across mobile, desktop, and room systems. Zoom Rooms is the original software-based conference room solution…
Всем привет!
Приглашаем вас на очередной семинар во вторник, 21 апреля, в 19-00.
Тема семинара: Методы Викификации
Entity Linking, или же задача викификации, нацелена на привязывание именованных сущностей в тексте к значениям такой базы знаний, как английская википедия, а проще говоря, к ее статьям. Подходы могут как ограничиваться только английским языком, так и использовать другие. Это непросто для большинства языков ввиду ограниченности ресурсов. В этом докладе мы рассмотрим несколько подходов викификации, таких как redirect-based метод, multilingual embeddings, joint supervision, а так же использование BERT.
https://www.aclweb.org/anthology/N16-1072.pdf
https://arxiv.org/pdf/1809.07657.pdf
https://arxiv.org/pdf/1908.06785.pdf
https://arxiv.org/pdf/2003.05473.pdf
Докладчик: Михаил Флоринский
О докладчике: Закончил факультет компьютерных наук ВШЭ в 2019 году, сейчас обучаюсь на 1 курсе магистратуры там же и работаю в области, не связанной с NLP (real-time bidding advertising). В качестве ВКР занимался исследованием проблемы восстановления пунктуации в тексте, сейчас же курсовая работа посвящена задаче кросс-язычной викификации.
Ссылка: https://zoom.us/j/97764417927
Приглашаем вас на очередной семинар во вторник, 21 апреля, в 19-00.
Тема семинара: Методы Викификации
Entity Linking, или же задача викификации, нацелена на привязывание именованных сущностей в тексте к значениям такой базы знаний, как английская википедия, а проще говоря, к ее статьям. Подходы могут как ограничиваться только английским языком, так и использовать другие. Это непросто для большинства языков ввиду ограниченности ресурсов. В этом докладе мы рассмотрим несколько подходов викификации, таких как redirect-based метод, multilingual embeddings, joint supervision, а так же использование BERT.
https://www.aclweb.org/anthology/N16-1072.pdf
https://arxiv.org/pdf/1809.07657.pdf
https://arxiv.org/pdf/1908.06785.pdf
https://arxiv.org/pdf/2003.05473.pdf
Докладчик: Михаил Флоринский
О докладчике: Закончил факультет компьютерных наук ВШЭ в 2019 году, сейчас обучаюсь на 1 курсе магистратуры там же и работаю в области, не связанной с NLP (real-time bidding advertising). В качестве ВКР занимался исследованием проблемы восстановления пунктуации в тексте, сейчас же курсовая работа посвящена задаче кросс-язычной викификации.
Ссылка: https://zoom.us/j/97764417927
Всем привет! Рассказываем о двух ближайших семинарах.
7.05.2020, 19-00
Тема: Коллаборативная фильтрация и автоэнкодеры
Докладчик: Илья Шенбин, сотрудник лаборатории Samsung AI при ПОМИ РАН
Матричная факторизация стала стандартным подходом коллаборативной фильтрации, который используется при создании рекомендательных систем. Несмотря на ряд преимуществ, state-of-the-art результаты демонстрируют альтернативные методы.
В данном докладе будут рассмотрены два типа моделей: т.н. линейные автоэнкодеры (например, SLIM), суть которых заключается в обучении матрицы похожести между предметами, а так же их более гибкие обобщения — глубокие автоэнкодеры (преимущественно основанные на VAE).
Ссылка на вебинар: https://zoom.us/j/97311806564
13.05.2020, 19-00
Тема: Deep Active Learning: Reducing Annotation Effort for Automatic Sequence Tagging of Clinical and Biomedical Texts
Докладчик: Dr. Artem Shelmanov, Research Scientist @ Skoltech
Active learning is a technique that helps to minimize the annotation budget required for the creation of a labeled dataset while maximizing the performance of a model trained on this dataset. It has been shown that active learning can be successfully applied to sequence tagging tasks of text processing in conjunction with deep learning models even when a limited amount of labeled data is available. Recent advances in transfer learning methods for natural language processing based on deep pre-trained models such as ELMo and BERT offer a much better ability to generalize on small annotated datasets compared to their shallow counterparts. The combination of deep pre-trained models and active learning leads to a powerful approach to dealing with annotation scarcity.
In this report, we will present recent experimental results of deep active learning on clinical and biomedical data in English and Russian. We will consider SOTA sequence tagging models in combination with several active learning strategies. Among NER and other sequence labeling tasks, we will discuss application of active learning in the task of finding heart risk factors in EHRs, which is a part of a biomedical research project on automated ischemic stroke prediction.
7.05.2020, 19-00
Тема: Коллаборативная фильтрация и автоэнкодеры
Докладчик: Илья Шенбин, сотрудник лаборатории Samsung AI при ПОМИ РАН
Матричная факторизация стала стандартным подходом коллаборативной фильтрации, который используется при создании рекомендательных систем. Несмотря на ряд преимуществ, state-of-the-art результаты демонстрируют альтернативные методы.
В данном докладе будут рассмотрены два типа моделей: т.н. линейные автоэнкодеры (например, SLIM), суть которых заключается в обучении матрицы похожести между предметами, а так же их более гибкие обобщения — глубокие автоэнкодеры (преимущественно основанные на VAE).
Ссылка на вебинар: https://zoom.us/j/97311806564
13.05.2020, 19-00
Тема: Deep Active Learning: Reducing Annotation Effort for Automatic Sequence Tagging of Clinical and Biomedical Texts
Докладчик: Dr. Artem Shelmanov, Research Scientist @ Skoltech
Active learning is a technique that helps to minimize the annotation budget required for the creation of a labeled dataset while maximizing the performance of a model trained on this dataset. It has been shown that active learning can be successfully applied to sequence tagging tasks of text processing in conjunction with deep learning models even when a limited amount of labeled data is available. Recent advances in transfer learning methods for natural language processing based on deep pre-trained models such as ELMo and BERT offer a much better ability to generalize on small annotated datasets compared to their shallow counterparts. The combination of deep pre-trained models and active learning leads to a powerful approach to dealing with annotation scarcity.
In this report, we will present recent experimental results of deep active learning on clinical and biomedical data in English and Russian. We will consider SOTA sequence tagging models in combination with several active learning strategies. Among NER and other sequence labeling tasks, we will discuss application of active learning in the task of finding heart risk factors in EHRs, which is a part of a biomedical research project on automated ischemic stroke prediction.
исследовано pinned «Всем привет! Рассказываем о двух ближайших семинарах. 7.05.2020, 19-00 Тема: Коллаборативная фильтрация и автоэнкодеры Докладчик: Илья Шенбин, сотрудник лаборатории Samsung AI при ПОМИ РАН Матричная факторизация стала стандартным подходом коллаборативной…»
исследовано
Всем привет! Рассказываем о двух ближайших семинарах. 7.05.2020, 19-00 Тема: Коллаборативная фильтрация и автоэнкодеры Докладчик: Илья Шенбин, сотрудник лаборатории Samsung AI при ПОМИ РАН Матричная факторизация стала стандартным подходом коллаборативной…
Всем привет! Напоминаем про семинар завтраю Пожалуйста, пройдите регистрацию на семинар, чтобы мы могли прислать вам ссылку на трансляцию. https://cs.hse.ru/ai/computational-pragmatics/announcements/364231415.html
cs.hse.ru
Семинар НУЛ ММВП "Deep Active Learning: Reducing Annotation Effort for Automatic Sequence Tagging of Clinical and Biomedical Texts"
Докладчик: Dr. Artem Shelmanov, Research Scientist @ Skoltech
Всем привет!
Новый сезон семинаров об NLP в Вышке откроет рассказ о RussianSuperGlue.
Аннотация: In this talk, we introduce an advanced Russian general language understanding evaluation benchmark -- RussianGLUE.
Recent advances in the field of universal language models and transformers require the development of a methodology for their broad diagnostics and testing for general intellectual skills - detection of natural language inference, commonsense reasoning, ability to perform simple logical operations regardless of text subject or lexicon. For the first time, a benchmark of nine tasks, collected and organized analogically to the SuperGLUE methodology, was developed from scratch for the Russian language. We provide baselines, human level evaluation, an open-source framework for evaluating models.
Докладчик: Alena Fenogenova
Chief specialist NLP R&D, CDS office, Sberbank
О докладчике:
Alena Fenogenova has a Master degree in Computational linguistics at the Higher School of Economics, Moscow.
She has a number of publications in NLP field. Now Alena works in Sberbank in NLP research team. Her research interests are language understanding, question answering, etc.
Форма регистрации: https://cs.hse.ru/ai/computational-pragmatics/announcements/394600693.html
Алгоритм регистрации: надо заполнить форму, ближе к семинару вам придет письмо с ссылкой на zoom и паролем.
Новый сезон семинаров об NLP в Вышке откроет рассказ о RussianSuperGlue.
Аннотация: In this talk, we introduce an advanced Russian general language understanding evaluation benchmark -- RussianGLUE.
Recent advances in the field of universal language models and transformers require the development of a methodology for their broad diagnostics and testing for general intellectual skills - detection of natural language inference, commonsense reasoning, ability to perform simple logical operations regardless of text subject or lexicon. For the first time, a benchmark of nine tasks, collected and organized analogically to the SuperGLUE methodology, was developed from scratch for the Russian language. We provide baselines, human level evaluation, an open-source framework for evaluating models.
Докладчик: Alena Fenogenova
Chief specialist NLP R&D, CDS office, Sberbank
О докладчике:
Alena Fenogenova has a Master degree in Computational linguistics at the Higher School of Economics, Moscow.
She has a number of publications in NLP field. Now Alena works in Sberbank in NLP research team. Her research interests are language understanding, question answering, etc.
Форма регистрации: https://cs.hse.ru/ai/computational-pragmatics/announcements/394600693.html
Алгоритм регистрации: надо заполнить форму, ближе к семинару вам придет письмо с ссылкой на zoom и паролем.
cs.hse.ru
Семинар НУЛ ММВП "RussianSuperGLUE"
Аннотация: In this talk, we introduce an advanced Russian general language understanding evaluation benchmark -- RussianGLUE.
Всем привет!
Очередной семинар состоится 17 сентября в 19-00.
Тема семинара: "Machine Reading Comprehension and Russian Language"
Аннотация: First, I will briefly survey machine reading comprehension (RC) and its flavors, as well as methods and datasets used to leverage the task. Then I will focus on RC datasets for non-English languages.
I will pay special attention to Russian RC dataset — Sberbank Question Answering Dataset (SberQuAD). SberQuAD has been widely used since its inception in 2017, but it hasn't been described and analyzed properly in the literature until recently. In my presentation, I will provide a thorough analysis of SberQuAD and report several baselines.
О докладчике: Pavel Efimov earned his Master degree in Computer Science at Saint Petersburg State University. Now he is a PhD student at ITMO University. His research interests include question answering, multilingual learning, and learning with limited labelled data.
Форма регистрации: https://cs.hse.ru/ai/computational-pragmatics/announcements/399072143.html
Алгоритм регистрации: надо заполнить форму, ближе к семинару вам придет письмо с ссылкой на zoom и паролем.
Язык: английиский, запись будет в открытом доступе.
Анонсы семинаров по NLP в ВШЭ: https://www.tg-me.com/nlp_seminar
Очередной семинар состоится 17 сентября в 19-00.
Тема семинара: "Machine Reading Comprehension and Russian Language"
Аннотация: First, I will briefly survey machine reading comprehension (RC) and its flavors, as well as methods and datasets used to leverage the task. Then I will focus on RC datasets for non-English languages.
I will pay special attention to Russian RC dataset — Sberbank Question Answering Dataset (SberQuAD). SberQuAD has been widely used since its inception in 2017, but it hasn't been described and analyzed properly in the literature until recently. In my presentation, I will provide a thorough analysis of SberQuAD and report several baselines.
О докладчике: Pavel Efimov earned his Master degree in Computer Science at Saint Petersburg State University. Now he is a PhD student at ITMO University. His research interests include question answering, multilingual learning, and learning with limited labelled data.
Форма регистрации: https://cs.hse.ru/ai/computational-pragmatics/announcements/399072143.html
Алгоритм регистрации: надо заполнить форму, ближе к семинару вам придет письмо с ссылкой на zoom и паролем.
Язык: английиский, запись будет в открытом доступе.
Анонсы семинаров по NLP в ВШЭ: https://www.tg-me.com/nlp_seminar
cs.hse.ru
Семинар НУЛ ММВП "Machine Reading Comprehension and Russian Language"
First, I will briefly survey machine reading comprehension (RC) and its flavors, as well as methods and datasets used to leverage the task. Then I will focus on RC datasets for non-English languages.