NLP stuff

دیتاست MASSIVE آمازون

خلاصه‌ی کلام اینه که تیم الکسای شرکت آمازون یک دیتاست عظیم یک میلیونی چندزبانه برای درک زبانی (بخش intent prediction and slot annotation) بیرون داده که فارسی هم توش هست. این دیتاست مخصوص دو زیرتسک مهم چت‌بات‌های وظیفه‌محور که intent prediction و slot annotation باشند ارائه شده. توضیح مختصر این که وقتی میخواید یک چت‌بات وظیفه محور بزنید یک تسک اینه که اول تشخیص بدید که مقصود کاربر از یک پیام که میده چیه (مثلا میخواد بلیت قطار رزرو کنه، آهنگ خاصی براش پخش بشه، هتل‌ای رزرو کنه و ...) و در گام بعد حالا که مقصود کاربر رو فهمیدیم بیایم آرگومان‌ها یا به اصطلاح slot‌های اون مقصود خاص رو در متن پیام تشخیص بدیم (مثلا اگر مقصود کاربر رزرو بلیت قطار باشه آرگومان‌هاش میشه مبدا و مقصد و تاریخ و ساعت)
این دیتاست به ۵۱ زبان (از جمله فارسی) اومده به صورت موازی یک سری عبارات رو لبیل زده. هر سطرش یک جمله‌ست که مثلا گفته:
What is the temperature in New York?
بعد این رو باید در دسته‌ی weather_query (یعنی intentاش میشه سوال آب‌وهوایی) قرار بگیره و موجودیت‌های مرتبط (این slot است که آرگومان‌های مرتبط با همون intent میشه) باهاش باید باشه:
weather_descriptor: temperature, place_name: new york
حالا متناظر با این در دیتای فارسی مثلا داریم:
دمای نیویورک چنده و موجودیت‌های مرتبط مشخص شدند دما و نیویورک.
واسه هر زبون هم حدودا ۱۷ هزارتاست.
همون جملات رو واسه زبون‌های مختلف گذاشتند که از مدل‌های چندزبانه واسه یادگیری بشه استفاده کرد یعنی از representation جملات فارغ از زبان استفاده بشه. مثال خوبی از این مدل‌ها LASER فیسبوکه.
بعد حالا دیتاست به این عظمت رو منتشر کردند و گفتند بیاید روش مدل ترین کنید و مسابقه برگزار کردند! این دیتاست با این هدف تولید شده که دستیار صوتی آمازون (الکسا) بتونه زبان‌های بیشتری رو بفهمه و کلا همونطور که گفتیم ازش برای چت‌بات‌های وظیفه‌محور میشه استفاد کرد.

بلاگ توضیح دیتاست:
https://www.amazon.science/blog/amazon-releases-51-language-dataset-for-language-understanding

ریپو دیتاست در گیت:
https://github.com/alexa/massive

#dataset

@nlp_stuff

Amazon Science

Amazon releases 51-language dataset for language understanding

MASSIVE dataset and Massively Multilingual NLU (MMNLU-22) competition and workshop will help researchers scale natural-language-understanding technology to every language on Earth.

3.03K viewsedited 18:45