Всем привет!
Мы со студентами ФКН делаем проект по оценке степени предвзятости NLP моделей на русском языке - насколько модели наследуют человеческие предубеждения: сексизм, национализм, классизм и т.д.
Если вам не трудно, пожалуйста, ответьте на пару запросов в боте: @ru_bias_set_bot, это очень поможет нам составить полную картину!
Мы со студентами ФКН делаем проект по оценке степени предвзятости NLP моделей на русском языке - насколько модели наследуют человеческие предубеждения: сексизм, национализм, классизм и т.д.
Если вам не трудно, пожалуйста, ответьте на пару запросов в боте: @ru_bias_set_bot, это очень поможет нам составить полную картину!
Forwarded from Kali Novskaya (Tatiana Shavrina)
#новости_науки #reviewer2
Небольшая новость про того, чем я занимаюсь — бенчмарками.
Бенчмарки в NLP — системы, оценивающие ИИ-системы по их способностям решать нужные и интересные задачи.
С точки зрения бизнеса, бенчмарки помогают не сжечь бабки впустую при обучении. Это важно!
Как сделать бенчмарки более эффективными? Многие из них откровенно превратились в Kaggle для трансформеров.
Чтобы ответить на этот вопрос, мы с прекрасными коллегами в этом году организовали тематический воркшоп на ACL 2022.
Все рецензирование и верстка сборника позади, и теперь самое приятное: общение, приглашенные доклады, постеры, круглый стол!
NLP Power! The First Workshop on Efficient Benchmarking in NLP.
Если вы будете на ACL, приглашаем вас зайти к нам в гости: NLP Power workshop состоится 26 мая, в четверг с 11:00 по 20:00 по Москве
В конце воркшопа - круглый стол, посвящённый проблемам бенчмарков. У нас в гостях:
- Anna Rumshisky (UMASS, Amazon)
- He He (CILVR / ML2)
- Ulises A. Mejias (SUNY Oswego)
- Sebastian Ruder (Google)
Страничка воркшопа ACL: ссылка
Сайт: ссылка
Twitter: ссылка
Приходите!
Небольшая новость про того, чем я занимаюсь — бенчмарками.
Бенчмарки в NLP — системы, оценивающие ИИ-системы по их способностям решать нужные и интересные задачи.
С точки зрения бизнеса, бенчмарки помогают не сжечь бабки впустую при обучении. Это важно!
Как сделать бенчмарки более эффективными? Многие из них откровенно превратились в Kaggle для трансформеров.
Чтобы ответить на этот вопрос, мы с прекрасными коллегами в этом году организовали тематический воркшоп на ACL 2022.
Все рецензирование и верстка сборника позади, и теперь самое приятное: общение, приглашенные доклады, постеры, круглый стол!
NLP Power! The First Workshop on Efficient Benchmarking in NLP.
Если вы будете на ACL, приглашаем вас зайти к нам в гости: NLP Power workshop состоится 26 мая, в четверг с 11:00 по 20:00 по Москве
В конце воркшопа - круглый стол, посвящённый проблемам бенчмарков. У нас в гостях:
- Anna Rumshisky (UMASS, Amazon)
- He He (CILVR / ML2)
- Ulises A. Mejias (SUNY Oswego)
- Sebastian Ruder (Google)
Страничка воркшопа ACL: ссылка
Сайт: ссылка
Twitter: ссылка
Приходите!
Underline.io
Watch lectures from the best researchers.
On-demand video platform giving you access to lectures from conferences worldwide.
👍2
Хорошая новость для всех, кто интересуется обработкой естественного языка. Исследователи из SberDevices, ABBYY, Yandex Research, Huawei Noah’s Ark Lab и ФКН ВШЭ опубликовали бенчмарк RuCoLA — Russian Corpus of Linguistic Acceptability.
Корпус RuCoLA — это набор предложений на русском языке, которые размечены по бинарной шкале приемлемости. Он пригодится для улучшения методов обнаружения ошибок в естественном языке и оценки сгенерированных текстов.
Открытый лидерборд на данных RuCoLA позволит всем желающим участвовать в развитии методов оценки лингвистической приемлемости. Чтобы принять участие, нужно заполнить короткую форму на сайте rucola-benchmark.com. После этого можно отправить предсказания своей модели и увидеть результаты.
Подробности о RuCoLA читайте в статье на Хабре: https://habr.com/ru/post/667336/
Корпус RuCoLA — это набор предложений на русском языке, которые размечены по бинарной шкале приемлемости. Он пригодится для улучшения методов обнаружения ошибок в естественном языке и оценки сгенерированных текстов.
Открытый лидерборд на данных RuCoLA позволит всем желающим участвовать в развитии методов оценки лингвистической приемлемости. Чтобы принять участие, нужно заполнить короткую форму на сайте rucola-benchmark.com. После этого можно отправить предсказания своей модели и увидеть результаты.
Подробности о RuCoLA читайте в статье на Хабре: https://habr.com/ru/post/667336/
Хабр
Насколько естественен естественный язык? Представляем датасет RuCoLA
В последние годы в области NLP произошла настоящая революция: огромные нейросети, предобученные на сотнях гигабайт текстов, бьют все известные рекорды качества. Но обладают ли такие нейросети чутьём...
👍12
Forwarded from Институт AIRI
ИИшница «NLP требуют наши сердца» стартует 10 июня!
Делимся расписанием митапа:
▪️15:30 Открытие, модератор мероприятия – Артур Кадурин
▪️15:40 Максим Рябинин «RuCoLA: Russian Corpus of Linguistic Acceptability»
▪️16:00 Зульфат Мифтахутдинов «NLP в биомедицине»
▪️16:20 Артем Шелманов «Active Learning в NLP»
▪️16:40 Михаил Бурцев«Секретная тема 🎁», оставайтесь на связи, чтобы узнать!
▪️17:00 Валентин Малых «Searching by Code in the Instructions»
▪️17:20 Татьяна Шаврина «NLP and Multimodality in 2022»
▪️17:40 Алексей Сорокин «Автоматическое исправление грамматических ошибок»
Подписывайтесь на YouTube AIRI, чтобы не пропустить трансляцию! Скоро расскажем про каждый из докладов подробнее 🔥
Делимся расписанием митапа:
▪️15:30 Открытие, модератор мероприятия – Артур Кадурин
▪️15:40 Максим Рябинин «RuCoLA: Russian Corpus of Linguistic Acceptability»
▪️16:00 Зульфат Мифтахутдинов «NLP в биомедицине»
▪️16:20 Артем Шелманов «Active Learning в NLP»
▪️16:40 Михаил Бурцев
▪️17:00 Валентин Малых «Searching by Code in the Instructions»
▪️17:20 Татьяна Шаврина «NLP and Multimodality in 2022»
▪️17:40 Алексей Сорокин «Автоматическое исправление грамматических ошибок»
Подписывайтесь на YouTube AIRI, чтобы не пропустить трансляцию! Скоро расскажем про каждый из докладов подробнее 🔥
🔥11
Forwarded from Kali Novskaya (Tatiana Shavrina)
#reviewer2 #nlp
Шутки в сторону, сегодня с коллегами ведем туториал по Artificial Text Detection на конференции INLG (15th International Natural Language Generation Conference)
Суть задачи: так как генерация текстов с помощью нейронных сетей неизбежно становится все лучше и лучше, все более актуальной становится задача детектирования "нечеловеческих" текстов.
По сути, чем лучше тексты "искусственные", тем сложнее становится задача.
Задача может быть как в формате бинарной классификации, так и мультиклассовой: отличить тексты, полученные генерацией, суммаризацией, переводом, переносом стиля и т.д. от натуральных текстов.
Когда в таких текстах есть ошибки, улавливаемые глазом, задача очевидна.
А вот когда ошибок нет?
Наши статьи по теме:
○ Findings of the The RuATD Shared Task 2022 on Artificial Text Detection in Russian arxiv
○ Artificial Text Detection via Examining the Topology of Attention Maps arxiv
Слайды будут тут: https://artificial-text-detection.github.io/
Шутки в сторону, сегодня с коллегами ведем туториал по Artificial Text Detection на конференции INLG (15th International Natural Language Generation Conference)
Суть задачи: так как генерация текстов с помощью нейронных сетей неизбежно становится все лучше и лучше, все более актуальной становится задача детектирования "нечеловеческих" текстов.
По сути, чем лучше тексты "искусственные", тем сложнее становится задача.
Задача может быть как в формате бинарной классификации, так и мультиклассовой: отличить тексты, полученные генерацией, суммаризацией, переводом, переносом стиля и т.д. от натуральных текстов.
Когда в таких текстах есть ошибки, улавливаемые глазом, задача очевидна.
А вот когда ошибок нет?
Наши статьи по теме:
○ Findings of the The RuATD Shared Task 2022 on Artificial Text Detection in Russian arxiv
○ Artificial Text Detection via Examining the Topology of Attention Maps arxiv
Слайды будут тут: https://artificial-text-detection.github.io/
👍8
Forwarded from (sci)Berloga Всех Наук и Технологий
🚀 @SBERLOGABIG online seminar on data science:
👨🔬 Татьяна Шаврина (AIRI, Sberdevices) «Многоязычное приключение или как мы учили mGPT: многоязычная модель GPT-3 для 61 языка мира»
⌚️ Четверг 25 августа, 18.00 по Москве
В докладе мы расскажем о проблемах, которые возникали во время обучения мультиязычной модели, посмотрим ее архитектуру, способы оценки — и дальнейшее развитие.
О докладчике: Татьяна Шаврина,
Главный эксперт по технологиям, RnD NLP, SberDevices
Руководитель исследовательских проектов, AI Research Institute.
Автор тг канала: @rybolos_channel - подписывайтесь !
Google calendar link
Ссылка на зум будет доступна на канале: https://www.tg-me.com/sberlogabig перед началом доклада - подписывайтесь!
👨🔬 Татьяна Шаврина (AIRI, Sberdevices) «Многоязычное приключение или как мы учили mGPT: многоязычная модель GPT-3 для 61 языка мира»
⌚️ Четверг 25 августа, 18.00 по Москве
В докладе мы расскажем о проблемах, которые возникали во время обучения мультиязычной модели, посмотрим ее архитектуру, способы оценки — и дальнейшее развитие.
О докладчике: Татьяна Шаврина,
Главный эксперт по технологиям, RnD NLP, SberDevices
Руководитель исследовательских проектов, AI Research Institute.
Автор тг канала: @rybolos_channel - подписывайтесь !
Google calendar link
Ссылка на зум будет доступна на канале: https://www.tg-me.com/sberlogabig перед началом доклада - подписывайтесь!
🔥3👍2
Всем привет!
Традиционное сентябрьское сообщение: мы снова запускаем курс по NLP на ФКН в Вышке. Все наши лекции и семинары доступны по ссылке. Первые пару месяцев мы будем обсуждать всякие базовые модели и идеи, а во второй половине курса попробуем поговорить про что-то более современное и сложное. В этом году мы ведем курс втроем: мои замечательные коллеги Илья Карпов и Ирина Никишина, и я, Катя Артемова.
Буду очень рада, если наши материалы будут кому-то полезны или интересны. Если вдруг у вас есть идеи и предложения, как улучшить содержание курса или вы хотите в каком-то формате принять участие – тоже буду признательна и рада всем.
Традиционное сентябрьское сообщение: мы снова запускаем курс по NLP на ФКН в Вышке. Все наши лекции и семинары доступны по ссылке. Первые пару месяцев мы будем обсуждать всякие базовые модели и идеи, а во второй половине курса попробуем поговорить про что-то более современное и сложное. В этом году мы ведем курс втроем: мои замечательные коллеги Илья Карпов и Ирина Никишина, и я, Катя Артемова.
Буду очень рада, если наши материалы будут кому-то полезны или интересны. Если вдруг у вас есть идеи и предложения, как улучшить содержание курса или вы хотите в каком-то формате принять участие – тоже буду признательна и рада всем.
❤36👍7
Forwarded from RuCoLA Benchmark
Привет!
Делимся с вами хорошими новостями: статью о бенчмарке RuCoLA приняли на EMNLP 2022 — ведущую международную конференцию по обработке естественного языка.
Препринт статьи можно прочитать здесь: https://arxiv.org/abs/2210.12814
Также на лидерборд были добавлены результаты Human Benchmark для данных, сгенерированных нейросетями. Можно заметить, что на текущий момент модели оказываются гораздо ближе к результатам людей на «естественных» неприемлемых предложениях, но оценивать приемлемость других нейросетей им сложнее.
Спасибо, что следите за проектом!
Делимся с вами хорошими новостями: статью о бенчмарке RuCoLA приняли на EMNLP 2022 — ведущую международную конференцию по обработке естественного языка.
Препринт статьи можно прочитать здесь: https://arxiv.org/abs/2210.12814
Также на лидерборд были добавлены результаты Human Benchmark для данных, сгенерированных нейросетями. Можно заметить, что на текущий момент модели оказываются гораздо ближе к результатам людей на «естественных» неприемлемых предложениях, но оценивать приемлемость других нейросетей им сложнее.
Спасибо, что следите за проектом!
🔥26👍8
Forwarded from Kali Novskaya (Tatiana Shavrina)
#nlp #про_nlp
Мы выпускаем новый бенчмарк для русского языка - TAPE!
Классический Russian SuperGLUE получил 1500+ сабмитов за 2 года, однако, настало время расцветать и новым цветам🌸.
TAPE (Text Attack and Perturbation Evaluation) - это бенчмарк, который
🔹работает на few-shot и zero-shot
🔹имеет отдельную библиотеку, которая аугментирует тест, внося самые разные атаки и пертурбации
🔹работает с фиксированным сетапом выборок из теста, давая вам подробный отчет о влиянии разных факторов на перформанс модели
🔹содержит 6 новых сложных задач, включая этику и ризонинг
🔹 подходит даже для генеративных моделей.
TAPE является логичным развитием проекта Russian SuperGLUE, где на вопросно-ответных датасетах RuCoS, MuSeRC и DaNetQA решения участников уже достигли уровня человека. В то же время задачи, которые моделируют человеческую способность к построению логических суждений и цепочек для поиска ответа и многоаспектной оценке этических ситуаций являются одними из малоисследованных для русского языка. Мы стремимся восполнить эти пробелы и предлагаем новые датасеты, которые можно разделить следующим образом:
RuOpenBookQA и RuWorldTree: выбор правильного ответа на вопрос из нескольких вариантов (англ. multiple-choice question answering);
MultiQ: поиск правильного ответа на вопрос посредством агрегации фактологической информации из нескольких тематически связанных текстов (англ. multi-hop question answering);
CheGeKa: поиск открытого ответа на вопрос с опорой на логику и общие знания о мире (англ. open-domain question answering);
Ethics: многоаспектная оценка этических ситуаций, описанных в тексте (англ. ethical judgments);
Winograd: разрешение кореференции в текстах со сложными и неоднозначными синтаксическими связями (англ. coreference resolution или The Winograd Schema Challenge).
В бенчмарке тестовые данные
- аугментируются, разбиваются на сабпопуляции
- имеют фиксированный сет примеро в few-shot оценке
- формируют подробный отчет о том, какие факторы в каждой задаче повлияли на перформанс: длина текстов, количество шотов, данные из разметки датасетов (например, сложность заданий), а также все типы аугментаций. Аугментаций так много, что про них нужен отдельный пост!
🤗HuggingFace датасетов
🖥 Github бенчмарка
🖥 Библиотека RuTransform для аугментации данных
🖥 Статья (Findings of EMNLP 2022)
🌸Сайт бенчмарка
Мы выпускаем новый бенчмарк для русского языка - TAPE!
Классический Russian SuperGLUE получил 1500+ сабмитов за 2 года, однако, настало время расцветать и новым цветам🌸.
TAPE (Text Attack and Perturbation Evaluation) - это бенчмарк, который
🔹работает на few-shot и zero-shot
🔹имеет отдельную библиотеку, которая аугментирует тест, внося самые разные атаки и пертурбации
🔹работает с фиксированным сетапом выборок из теста, давая вам подробный отчет о влиянии разных факторов на перформанс модели
🔹содержит 6 новых сложных задач, включая этику и ризонинг
🔹 подходит даже для генеративных моделей.
TAPE является логичным развитием проекта Russian SuperGLUE, где на вопросно-ответных датасетах RuCoS, MuSeRC и DaNetQA решения участников уже достигли уровня человека. В то же время задачи, которые моделируют человеческую способность к построению логических суждений и цепочек для поиска ответа и многоаспектной оценке этических ситуаций являются одними из малоисследованных для русского языка. Мы стремимся восполнить эти пробелы и предлагаем новые датасеты, которые можно разделить следующим образом:
RuOpenBookQA и RuWorldTree: выбор правильного ответа на вопрос из нескольких вариантов (англ. multiple-choice question answering);
MultiQ: поиск правильного ответа на вопрос посредством агрегации фактологической информации из нескольких тематически связанных текстов (англ. multi-hop question answering);
CheGeKa: поиск открытого ответа на вопрос с опорой на логику и общие знания о мире (англ. open-domain question answering);
Ethics: многоаспектная оценка этических ситуаций, описанных в тексте (англ. ethical judgments);
Winograd: разрешение кореференции в текстах со сложными и неоднозначными синтаксическими связями (англ. coreference resolution или The Winograd Schema Challenge).
В бенчмарке тестовые данные
- аугментируются, разбиваются на сабпопуляции
- имеют фиксированный сет примеро в few-shot оценке
- формируют подробный отчет о том, какие факторы в каждой задаче повлияли на перформанс: длина текстов, количество шотов, данные из разметки датасетов (например, сложность заданий), а также все типы аугментаций. Аугментаций так много, что про них нужен отдельный пост!
🤗HuggingFace датасетов
🌸Сайт бенчмарка
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - RussianNLP/TAPE: TAPE benchmark
TAPE benchmark. Contribute to RussianNLP/TAPE development by creating an account on GitHub.
Forwarded from Kali Novskaya (Tatiana Shavrina)
Оценка перформанса модели, пример ruGPT-3 small на задании RuWorldTree (ризонинг + знания)
Forwarded from Kali Novskaya (Tatiana Shavrina)
Как мы все это делаем вместе, написали на Хабре:
https://habr.com/ru/company/sberdevices/blog/706846/
https://habr.com/ru/company/sberdevices/blog/706846/
Хабр
TAPE: первый бенчмарк для few-shot оценки языковых моделей на русском языке
Мы в SberDevices обучаем и оцениваем языковые модели для русского языка уже давно — так, например, за два года существования бенчмарка Russian SuperGLUE через его систему оценки прошли более 1500...
🔥8👍1
Forwarded from Dialogue Conference
Приглашаем вас поучаствовать в соревновании по разрешению кореференции RuCoCo-2023.
▫️ В чем смысл соревнования RuCoCo
Датасет RuCoCo - новостные тексты на русском, в которых размечены кореферентные цепочки: это слова и выражения, которые относятся к одному объекту действительности.
▫️ Пример
Соседи [Абрамовича] по поместью недовольны дизайном [его] владения.
Абрамовича и его - одна и та же сущность, один человек. Ваша задача - найти все такие цепочки в датасете.
▫️ Почему задача разрешения кореференции важна
Разрешение кореференции используется во многих других задачах NLP более высокого уровня, таких как саммаризация, question answering и извлечение информации.
▫️ Почему нужно участвовать в соревновании RuCoCo
У соревнования RuCoCo большой датасет (1 млн слов) с хорошим качеством разметки и нетривиальной задачей. Кроме того, любой участник соревнования сможет опубликовать статью с описанием решения в сборнике конференции Диалог (SCOPUS)*.
* Решение о принятии каждой статьи в сборник принимают рецензенты Диалога. Правила публикации см. https://www.dialog-21.ru/evaluation/2022/publish/
▫️ Таймлайн
- Соревнование уже выложено, можно участвовать прямо сейчас
- 16 марта 23:59 (GMT +3) — дедлайн public фазы
- 19 марта 23:59 (GMT +3) — дедлайн private фазы, открытие финального лидерборда
Github RuCoCo: https://github.com/dialogue-evaluation/RuCoCo-2023
Соревнование на CodaLab: https://codalab.lisn.upsaclay.fr/competitions/9669
Чат соревнования в телеграме: https://www.tg-me.com/rucoco2023
▫️ В чем смысл соревнования RuCoCo
Датасет RuCoCo - новостные тексты на русском, в которых размечены кореферентные цепочки: это слова и выражения, которые относятся к одному объекту действительности.
▫️ Пример
Соседи [Абрамовича] по поместью недовольны дизайном [его] владения.
Абрамовича и его - одна и та же сущность, один человек. Ваша задача - найти все такие цепочки в датасете.
▫️ Почему задача разрешения кореференции важна
Разрешение кореференции используется во многих других задачах NLP более высокого уровня, таких как саммаризация, question answering и извлечение информации.
▫️ Почему нужно участвовать в соревновании RuCoCo
У соревнования RuCoCo большой датасет (1 млн слов) с хорошим качеством разметки и нетривиальной задачей. Кроме того, любой участник соревнования сможет опубликовать статью с описанием решения в сборнике конференции Диалог (SCOPUS)*.
* Решение о принятии каждой статьи в сборник принимают рецензенты Диалога. Правила публикации см. https://www.dialog-21.ru/evaluation/2022/publish/
▫️ Таймлайн
- Соревнование уже выложено, можно участвовать прямо сейчас
- 16 марта 23:59 (GMT +3) — дедлайн public фазы
- 19 марта 23:59 (GMT +3) — дедлайн private фазы, открытие финального лидерборда
Github RuCoCo: https://github.com/dialogue-evaluation/RuCoCo-2023
Соревнование на CodaLab: https://codalab.lisn.upsaclay.fr/competitions/9669
Чат соревнования в телеграме: https://www.tg-me.com/rucoco2023
GitHub
GitHub - dialogue-evaluation/RuCoCo-2023: Russian coreference resolution competition
Russian coreference resolution competition. Contribute to dialogue-evaluation/RuCoCo-2023 development by creating an account on GitHub.
👍7
Всем привет! Вопрос к аудитории. Этот канал бы посвящен семинарам по NLP в вышке, но в силу разных причин семинары стали проходить все реже и реже. Если я (Катя Артемова) буду здесь иногда писать заметки про свои статьи и проекты, да и вообще про всякую науку, будете читать?
🔥88👍30❤9👌5🤔1😢1
Forwarded from Kali Novskaya (Tatiana Shavrina)
#nlp #про_nlp #nlp_papers
Я решила немного чаще рассказывать вам про работы, которые мы делаем с коллегами вместе, да и вообще больше привлекать внимания к менее хайповым не-чатгпт научным проблемам, поэтому введу новую рубрику — #nlp_papers
Сегодня поговорим о том, как можно применять теорию общественного выбора к оценке LLM.
Vote'n'Rank: Revision of Benchmarking with Social Choice Theory
Теория общественного выбора (Social choice theory) — это теоретические и практические методы агрегирования или объединения индивидуальных предпочтений в функцию коллективного общественного благосостояния. Обычно в этой области предполагается, что у людей есть предпочтения, и из этого следует, что их можно смоделировать с помощью функций полезности.
🌸Проблема: современные языковые модели оцениваются на целом ворохе различных задач. В результате такой оценки на каждую модель приходится по 20-30 метрик, зачастую разной природы (точность, полнота, Bert score, MCC..) и диапазона (от 0 до 1, от -1 до 1, и т.д.). Как на основании таких результатов выстраивать лидерборд лучших моделей? Усреднять такое явно нельзя. Да и потом, является ли лучшее среднее всех результатов по всем задачам оптимальным направлением наших стремлений?
🌸Идея: Позаимствуем методы рассчетов из теории общественного выбора и перевзвесим результаты моделей на GLUE, SuperGLUE и VALUE (Video-and-Language Understanding Evaluation).
Будем использовать такие правила агрегации, как скоринговые правила (Plurality, Borda, Dowdall), итеративные скоринговые правила (пороговое правило, Baldwin), и мажоритарные правила (Condorcet rule, Copeland rule).
Агрегации Vote'n'Rank более надежны, чем среднее арифметическое всех метрик, и в то же время способны обрабатывать отсутствующие значения на разных задачах и указывать условия, при которых система становится победителем.
• Правило множественности (Plurality)— хороший выбор, если пользователю нужны только лучшие системы по каждой задаче.
• Если все позиции в рейтинге имеют значение, используйте правила Borda или Dowdall. Обратите внимание, что Даудалл присваивает более высокие веса верхним позициям.
• Пороговое правило полезно в тех случаях, когда пользователь хочет свести к минимуму количество задач с низким результатом: правило присваивает наивысший ранг системе, которая считается худшей по наименьшему числу задач.
• Если цель состоит в том, чтобы выбрать систему, которая превосходит все остальные в попарном сравнении, используйте правила Болдуина, Кондорсе, Коупленда или правила Минимакса.
Feel free использовать в своих пайплайнах оценки моделей!
🖥 Paper: https://arxiv.org/abs/2210.05769v3
🖥 Github: https://github.com/PragmaticsLab/vote_and_rank
🌸Accepted EACL 2023
Я решила немного чаще рассказывать вам про работы, которые мы делаем с коллегами вместе, да и вообще больше привлекать внимания к менее хайповым не-чатгпт научным проблемам, поэтому введу новую рубрику — #nlp_papers
Сегодня поговорим о том, как можно применять теорию общественного выбора к оценке LLM.
Vote'n'Rank: Revision of Benchmarking with Social Choice Theory
Теория общественного выбора (Social choice theory) — это теоретические и практические методы агрегирования или объединения индивидуальных предпочтений в функцию коллективного общественного благосостояния. Обычно в этой области предполагается, что у людей есть предпочтения, и из этого следует, что их можно смоделировать с помощью функций полезности.
🌸Проблема: современные языковые модели оцениваются на целом ворохе различных задач. В результате такой оценки на каждую модель приходится по 20-30 метрик, зачастую разной природы (точность, полнота, Bert score, MCC..) и диапазона (от 0 до 1, от -1 до 1, и т.д.). Как на основании таких результатов выстраивать лидерборд лучших моделей? Усреднять такое явно нельзя. Да и потом, является ли лучшее среднее всех результатов по всем задачам оптимальным направлением наших стремлений?
🌸Идея: Позаимствуем методы рассчетов из теории общественного выбора и перевзвесим результаты моделей на GLUE, SuperGLUE и VALUE (Video-and-Language Understanding Evaluation).
Будем использовать такие правила агрегации, как скоринговые правила (Plurality, Borda, Dowdall), итеративные скоринговые правила (пороговое правило, Baldwin), и мажоритарные правила (Condorcet rule, Copeland rule).
Агрегации Vote'n'Rank более надежны, чем среднее арифметическое всех метрик, и в то же время способны обрабатывать отсутствующие значения на разных задачах и указывать условия, при которых система становится победителем.
• Правило множественности (Plurality)— хороший выбор, если пользователю нужны только лучшие системы по каждой задаче.
• Если все позиции в рейтинге имеют значение, используйте правила Borda или Dowdall. Обратите внимание, что Даудалл присваивает более высокие веса верхним позициям.
• Пороговое правило полезно в тех случаях, когда пользователь хочет свести к минимуму количество задач с низким результатом: правило присваивает наивысший ранг системе, которая считается худшей по наименьшему числу задач.
• Если цель состоит в том, чтобы выбрать систему, которая превосходит все остальные в попарном сравнении, используйте правила Болдуина, Кондорсе, Коупленда или правила Минимакса.
Feel free использовать в своих пайплайнах оценки моделей!
🌸Accepted EACL 2023
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - PragmaticsLab/vote_and_rank: Novel aggregation methods for multi-task NLP benchmarking
Novel aggregation methods for multi-task NLP benchmarking - PragmaticsLab/vote_and_rank
❤10👍9🤩3
Сегодня в Вышке будет очередной NLP семинар.
Докладчик: Рамиль Яруллин, аспирант 4-го курса и преподаватель департамента больших данных и информационного поиска ФКН. Исследования, о которых будет рассказано в докладе, сделаны в рамках аспирантской школы, работы в Яндексе и научно-учебной лаборатории Яндекса на ФКН.
Аннотация: В докладе будет рассмотрено несколько задач построения и предсказания структурных объектов на основе данных – начиная с формальных контекстов, заканчивая текстовыми данными на естественном языке. В первой части доклада будет рассказано о теоретической работе, посвященной построению приближенного вероятностного базиса импликаций для формальных контекстов. Во второй части речь пойдет о текстовых контекстах на естественном языке и подходе к задаче текстовой классификации с пересекающимися классами при помощи генерации последовательности классовых меток. В частности, мы рассмотрим постановку задачи с имеющейся иерархической структурой классов и обсудим метод, комбинирующий стандартную для модели BERT архитектуру и подход с последовательным предсказанием меток. В третьей части доклада мы перейдем к задаче ответа на числовые вопросы по текстовому и табличному контексту, где для ответа на вопрос требуется последовательное применение различных дискретных операций, таких как подсчет, сравнение чисел, сортировка и выполнение арифметических выражений. Будет рассказано про новую нейросетевую модель, которая на текущий момент показывает лучшие результаты в этой задаче.
Как подключиться: https://cs.hse.ru/ai/computational-pragmatics/announcements/819591861.html
Докладчик: Рамиль Яруллин, аспирант 4-го курса и преподаватель департамента больших данных и информационного поиска ФКН. Исследования, о которых будет рассказано в докладе, сделаны в рамках аспирантской школы, работы в Яндексе и научно-учебной лаборатории Яндекса на ФКН.
Аннотация: В докладе будет рассмотрено несколько задач построения и предсказания структурных объектов на основе данных – начиная с формальных контекстов, заканчивая текстовыми данными на естественном языке. В первой части доклада будет рассказано о теоретической работе, посвященной построению приближенного вероятностного базиса импликаций для формальных контекстов. Во второй части речь пойдет о текстовых контекстах на естественном языке и подходе к задаче текстовой классификации с пересекающимися классами при помощи генерации последовательности классовых меток. В частности, мы рассмотрим постановку задачи с имеющейся иерархической структурой классов и обсудим метод, комбинирующий стандартную для модели BERT архитектуру и подход с последовательным предсказанием меток. В третьей части доклада мы перейдем к задаче ответа на числовые вопросы по текстовому и табличному контексту, где для ответа на вопрос требуется последовательное применение различных дискретных операций, таких как подсчет, сравнение чисел, сортировка и выполнение арифметических выражений. Будет рассказано про новую нейросетевую модель, которая на текущий момент показывает лучшие результаты в этой задаче.
Как подключиться: https://cs.hse.ru/ai/computational-pragmatics/announcements/819591861.html
cs.hse.ru
Семинар НУЛ ММВП "Предсказание структурных объектов на основе формальных контекстов и данных на естественном языке"
👍5
Ребята, нужна помощь: нужно нарисовать BERT’а в определенном костюме. Нужно мне для иллюстрации доклада. Кто может помочь? С меня любая форма благодарности :)
😁4
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 MERA
Ещё один большой и полезный релиз. Коллеги вложили очень много сил в новый фреймворк для оценки языковых моделей, который назвали MERA.
🔸 Сейчас есть 21 задача с текстом, постепенно будут добавляться таски в других модальностях. Есть задания на логику, математику, знания о мире, этику, память и другие.
🔸 Проект коллективный, ведётся совместно с Альянсом в сфере ИИ.
🔸 Сделали открытый лидерборд, на котором можно будет наблюдать текущий уровень развития русскоязычных моделей.
Написали про это небольшую статью для интересующихся деталями разработки. Ждём ваших сабмитов!
👉 Хабр | GitHub | Сайт прокета
Ещё один большой и полезный релиз. Коллеги вложили очень много сил в новый фреймворк для оценки языковых моделей, который назвали MERA.
🔸 Сейчас есть 21 задача с текстом, постепенно будут добавляться таски в других модальностях. Есть задания на логику, математику, знания о мире, этику, память и другие.
🔸 Проект коллективный, ведётся совместно с Альянсом в сфере ИИ.
🔸 Сделали открытый лидерборд, на котором можно будет наблюдать текущий уровень развития русскоязычных моделей.
Написали про это небольшую статью для интересующихся деталями разработки. Ждём ваших сабмитов!
👉 Хабр | GitHub | Сайт прокета
👍9🔥2❤1🤗1