یادگیری بازنمایی مشترک تصویر-متن!
در طی سالیان اخیر، مدلهای از پیشآموزش دیده نظیر برت و یا Resnet کاربردهای فراوانی در یادگیری ژرف داشتند. رسالت این مدلها اینه که با گرفتن یک ورودی (برای برت متن و برای resnet تصویر) یک بردار را به عنوان بازنمایی اون ورودی در خروجی تحویل بدن. هفته پیش مقالهای منتشر شده که سعی کرده این عمل کد کردن را در یک فضای مشترک انجام بده. به بیان بهتر کاری کنه که شما چه تصویر بهش ورودی بدی و چه متن، بیاد یک بازنمایی را در یک فضای مشترک بین تصویر و متن برگردونه. برای مثال وقتی بهش عکس گربه با کاموا میدید و وقتی بهش متن «گربه مشغول بازی با کاموا» بهش میدید، رپرزنتیشنهایی را براتون برگردونه که از لحاظ برداری بهم نزدیک باشند و در واقع متعلق به یک فضای مشترک هستند. مشابه این کار قبلا در مقالههای دیگه مثل CLIP انجام شده، اما تفاوت این مقاله فعلی با CLIP در اینه که بر خلاف CLIP از دیتای تمیزنشده و نویزی زوج تصویر و متنهای کپشن استفاده کرده که طبیعتا با این آسونگیری در فیلتر دادههاش، حجم دیتاستش بسیار زیاد شده. روش آموزشش هم به طور خلاصه به این صورت بوده تصویر و متن مربوط رو به معماریهای EfficientNet و Bert داده و بعدش با ایده Self-Supervised Learning سعی کرده رپرزنتیشنهای حاصل از این دو معماری برای این زوج مربوط رو به هم نزدیک کنه.
نکته جالب مقاله اما در آزمایشها و خروجیهاییه که انتشار داده. در یک آزمایشش سعی کرده تسک بازیابی تصویر (با توجه به یک متن ورودی)را انجام بده و در آزمایش جالب دیگهاش هم سعی کرده با جمع یا تفریق کردن رپرزنتیشن یک کلمه روی رپرزنتیشن یک تصویر، نشون بده که تصویرش (تصویر معادل رپرزنتیشن حاصلشده) چه تغییری میکنه. دو تا تصاویر برای این دو تا آزمایش ضمیمه شدند (برای دیدن جفتش در گوشی ورق بزنید!!).
خواندن این مقاله برای اونهایی که علاقه مند به حوزه Multi-Modal هستند، خالی از لطف نیست.
لینک مقاله:
https://arxiv.org/abs/2102.05918
.
پ.ن. اگر نمیدونید مدل CLIP چیه، پست https://www.tg-me.com/nlp_stuff/121 را ببینید.
#read
#paper
@nlp_sutuff
در طی سالیان اخیر، مدلهای از پیشآموزش دیده نظیر برت و یا Resnet کاربردهای فراوانی در یادگیری ژرف داشتند. رسالت این مدلها اینه که با گرفتن یک ورودی (برای برت متن و برای resnet تصویر) یک بردار را به عنوان بازنمایی اون ورودی در خروجی تحویل بدن. هفته پیش مقالهای منتشر شده که سعی کرده این عمل کد کردن را در یک فضای مشترک انجام بده. به بیان بهتر کاری کنه که شما چه تصویر بهش ورودی بدی و چه متن، بیاد یک بازنمایی را در یک فضای مشترک بین تصویر و متن برگردونه. برای مثال وقتی بهش عکس گربه با کاموا میدید و وقتی بهش متن «گربه مشغول بازی با کاموا» بهش میدید، رپرزنتیشنهایی را براتون برگردونه که از لحاظ برداری بهم نزدیک باشند و در واقع متعلق به یک فضای مشترک هستند. مشابه این کار قبلا در مقالههای دیگه مثل CLIP انجام شده، اما تفاوت این مقاله فعلی با CLIP در اینه که بر خلاف CLIP از دیتای تمیزنشده و نویزی زوج تصویر و متنهای کپشن استفاده کرده که طبیعتا با این آسونگیری در فیلتر دادههاش، حجم دیتاستش بسیار زیاد شده. روش آموزشش هم به طور خلاصه به این صورت بوده تصویر و متن مربوط رو به معماریهای EfficientNet و Bert داده و بعدش با ایده Self-Supervised Learning سعی کرده رپرزنتیشنهای حاصل از این دو معماری برای این زوج مربوط رو به هم نزدیک کنه.
نکته جالب مقاله اما در آزمایشها و خروجیهاییه که انتشار داده. در یک آزمایشش سعی کرده تسک بازیابی تصویر (با توجه به یک متن ورودی)را انجام بده و در آزمایش جالب دیگهاش هم سعی کرده با جمع یا تفریق کردن رپرزنتیشن یک کلمه روی رپرزنتیشن یک تصویر، نشون بده که تصویرش (تصویر معادل رپرزنتیشن حاصلشده) چه تغییری میکنه. دو تا تصاویر برای این دو تا آزمایش ضمیمه شدند (برای دیدن جفتش در گوشی ورق بزنید!!).
خواندن این مقاله برای اونهایی که علاقه مند به حوزه Multi-Modal هستند، خالی از لطف نیست.
لینک مقاله:
https://arxiv.org/abs/2102.05918
.
پ.ن. اگر نمیدونید مدل CLIP چیه، پست https://www.tg-me.com/nlp_stuff/121 را ببینید.
#read
#paper
@nlp_sutuff
Telegram
stuff
ترجمه ماشینی بین ۵۰ زبان
تیم Facebook AI مدل mBART-50 را روی هاگینگفیس گذاشت. با این مدل میتونید هر متنی را بین هر جفتی از پنجاه تا زبان (که فارسی هم داره) ترجمه کنید.
یه نمونه مقایسه هم بین سرویس ترجمه گوگل و این مدل فیسبوک گذاشتیم (برای دیدن عکس دوم در گوشی ورق بزنید!!) که نشون میده تنه به تنهی گوگل داره میزنه!
لینک مقاله و مدل:
https://arxiv.org/abs/2008.00401v1
https://huggingface.co/models?filter=mbart-50
این ویدیو هم برای نحوهی استفاده ازش موجوده. اگر اعصابتون لهجه هندی را میکشه، ببینید.
https://www.youtube.com/watch?v=fxZtz0LPJLE
#news
#link
@nlp_stuff
تیم Facebook AI مدل mBART-50 را روی هاگینگفیس گذاشت. با این مدل میتونید هر متنی را بین هر جفتی از پنجاه تا زبان (که فارسی هم داره) ترجمه کنید.
یه نمونه مقایسه هم بین سرویس ترجمه گوگل و این مدل فیسبوک گذاشتیم (برای دیدن عکس دوم در گوشی ورق بزنید!!) که نشون میده تنه به تنهی گوگل داره میزنه!
لینک مقاله و مدل:
https://arxiv.org/abs/2008.00401v1
https://huggingface.co/models?filter=mbart-50
این ویدیو هم برای نحوهی استفاده ازش موجوده. اگر اعصابتون لهجه هندی را میکشه، ببینید.
https://www.youtube.com/watch?v=fxZtz0LPJLE
#news
#link
@nlp_stuff
Telegram
stuff
TransGan: Transformers + GAN
پس از ماجراجویی ترنسفورمرها در مسائل دستهبندی، تشخیص اشیا و قطعهبندی در حوزه پردازش تصویر، حالا بالاخره نوبت به تولید تصویر رسیده است که با ترنسفورمرها آشنا شود. دوستانمون در این مقاله یک مدل تولید تصویر به کل ترنسفورمری و البته چندین آزمایش جالب انجام دادهاند.
نکته قابل توجه در رابطه با معماری قسمت جنریتور این مدل، در اینه که ابتدا با تعداد پچهای کم و با اندازه بالا شروع میکنه و بعد از اعمال هر لایه انکودر ترنسفورمر، تعداد تکهها را دو برابر و البته اندازه اونها را نصف میکنه. در نهایت هم از روی خروجی آخرین انکودر مقادیر rgb پیکسلها را به دست میاره. قسمت دیسکریمینیتور این مقاله هم مشابه همون مقاله ViT است.
اما نکات جالب این مقاله به اختصار:
۱- در مقایسه سه حالت مختلف بین ترکیب جنریتور و دسکریمینتورهای مختلف cnnای یا ترنسفورمری، مقایسه انجام داده و نشون داده که ترکیب جنریتور ترنسفورمری و دیسکریمینتور cnnای بهترین عملکرد را داره.
۲- نکته دوم در وابستگی شدید مدل ترنسفورمری به دیتا آگمنتیشن است که این مقاله نشون داده مدل ترنسفورمری نسبت به مشابه های cnnای خودش به شدت به دیتا اگمنتیشن گشنهتره.
۳-نکته و ابتکار بعدی این مدل اما در ارائه یک تسک سوپررزولوشن کردن تصویر برای قسمت جنریتور است که با مالتی تسک کردن این تسک با تسک تولید تصویر نشون داده که عملکردش بهبود پیدا کرده.
۴-اما ابتکار دیگهاش که بیشتر به چشم ما اومد: همونطور که میدونید معماری ترنسفورمری نسبت به cnn سوگیری القایی (inductive bias) مکانی (locality) را نداره و برای همین حدس زده میشه که در تسک تولید تصویر هم نتونه پیوستگی خوبی بین پیکسل ها و نواحی همسایه به دست بیاره. از همین رو این مدل یک پیشنهاد جالب داشته، به این صورت که در فرآیند آموزش جنریتورش، هر ناحیه ابتدا صرفا به نواحی دور و بر خودش میتونسته attend کنه و بعدش به مرور نواحی بیشتر از ماسک درمیان و به اونها هم میتونه attention داشته باشه. این ایده هم نشون داده شده که تونسته عملکرد مدل را بهبود بده.
(برای دیدن عکسها در گوشی ورق بزنید.)
لینک مقاله:
https://arxiv.org/abs/2102.07074
.
لینک یوتوب توضیح مقاله:
https://www.youtube.com/watch?v=R5DiLFOMZrc
#read
#paper
@nlp_stuff
پس از ماجراجویی ترنسفورمرها در مسائل دستهبندی، تشخیص اشیا و قطعهبندی در حوزه پردازش تصویر، حالا بالاخره نوبت به تولید تصویر رسیده است که با ترنسفورمرها آشنا شود. دوستانمون در این مقاله یک مدل تولید تصویر به کل ترنسفورمری و البته چندین آزمایش جالب انجام دادهاند.
نکته قابل توجه در رابطه با معماری قسمت جنریتور این مدل، در اینه که ابتدا با تعداد پچهای کم و با اندازه بالا شروع میکنه و بعد از اعمال هر لایه انکودر ترنسفورمر، تعداد تکهها را دو برابر و البته اندازه اونها را نصف میکنه. در نهایت هم از روی خروجی آخرین انکودر مقادیر rgb پیکسلها را به دست میاره. قسمت دیسکریمینیتور این مقاله هم مشابه همون مقاله ViT است.
اما نکات جالب این مقاله به اختصار:
۱- در مقایسه سه حالت مختلف بین ترکیب جنریتور و دسکریمینتورهای مختلف cnnای یا ترنسفورمری، مقایسه انجام داده و نشون داده که ترکیب جنریتور ترنسفورمری و دیسکریمینتور cnnای بهترین عملکرد را داره.
۲- نکته دوم در وابستگی شدید مدل ترنسفورمری به دیتا آگمنتیشن است که این مقاله نشون داده مدل ترنسفورمری نسبت به مشابه های cnnای خودش به شدت به دیتا اگمنتیشن گشنهتره.
۳-نکته و ابتکار بعدی این مدل اما در ارائه یک تسک سوپررزولوشن کردن تصویر برای قسمت جنریتور است که با مالتی تسک کردن این تسک با تسک تولید تصویر نشون داده که عملکردش بهبود پیدا کرده.
۴-اما ابتکار دیگهاش که بیشتر به چشم ما اومد: همونطور که میدونید معماری ترنسفورمری نسبت به cnn سوگیری القایی (inductive bias) مکانی (locality) را نداره و برای همین حدس زده میشه که در تسک تولید تصویر هم نتونه پیوستگی خوبی بین پیکسل ها و نواحی همسایه به دست بیاره. از همین رو این مدل یک پیشنهاد جالب داشته، به این صورت که در فرآیند آموزش جنریتورش، هر ناحیه ابتدا صرفا به نواحی دور و بر خودش میتونسته attend کنه و بعدش به مرور نواحی بیشتر از ماسک درمیان و به اونها هم میتونه attention داشته باشه. این ایده هم نشون داده شده که تونسته عملکرد مدل را بهبود بده.
(برای دیدن عکسها در گوشی ورق بزنید.)
لینک مقاله:
https://arxiv.org/abs/2102.07074
.
لینک یوتوب توضیح مقاله:
https://www.youtube.com/watch?v=R5DiLFOMZrc
#read
#paper
@nlp_stuff
Telegram
stuff
هاگینگفیس یک رسمی را در فروم خودش راه انداخته که پژوهشگران هر زبان یک تاپیک برای زبان خودشون بزنند تا آشنایی و انجمنسازی بهتری رقم بخوره!
ما هم یکی برای زبان فارسی شروع کردیم.
لطفا شما هم به جمع ما بپیوندید!
لینک داستان:
https://discuss.huggingface.co/t/persian-nlp-introductions/3774
#link
@nlp_stuff
ما هم یکی برای زبان فارسی شروع کردیم.
لطفا شما هم به جمع ما بپیوندید!
لینک داستان:
https://discuss.huggingface.co/t/persian-nlp-introductions/3774
#link
@nlp_stuff
Hugging Face Forums
Persian NLP - Introductions
Salam!!! 🇮🇷 Welcome! This is the introduction thread for Persian! Please introduce yourself and let us know: Your name, Github, Hugging Face, and/or Twitter handle Your interest in Persian NLP Some projects you are working on or interested in starting…
ماجراجوییهای جذاب با contrastive learning اینبار در speech!
تیم تحقیقاتی فیسبوک در ادامه روند رو به رشدش در speech اینبار پای contrastive learning رو وسط کشیده تا بازی speech رو کلا عوض کنه!! شاید باورتون نشه ولی کل تسک بازشناسی رو تقسیم به فاز pre train و fine tuning کرده (که همین هم باعث شده خودش رو در دل هاگینگفیس جا کنه و هاگینگفیس به طور رسمی ازش پشتیبانی میکنه!) در فاز pre training مثل مدل زبانی میاد و سعی میکنه مدل صوتی درست کنه و در واقع به نوعی بازنمایی سگمنتهای مختلف صوتی رو با یه contrastive loss یاد میگیره که این کار کاملا self supervised است و نیازی به لیبل نداره؛ حالا در فاز fine tuning میاد و با صوتهای لیبل خورده یه شبکه ساده خطی که با تابع هدف CTC ترین میشه کار رو تکمیل میکنه. نتیجه خارق العادهست! تنها با ۱۰ دقیقه صوت لیبلدار نتایجی نزدیک به state of the artهای قبلی رو در این حوزه تولید میکنه؛ یعنی WER (word error rate) حدود ۴ درصد برای صوت تمیز و حدود ۸ درصد برای صوتهای واقعی! معماری بخش contrastive lossش هم ترنسفورمری است و برای تبدیل صوت خام به وکتور از لایه کانولوشنی استفاده میکنه.
بهونه کمبود داده لیبل خورده نیارید که contrastive learning قراره بازی رو در بیاره!
لینک مقاله:
https://arxiv.org/pdf/2006.11477.pdf
لینک هاگینگ فیس:
https://huggingface.co/facebook/wav2vec2-base-960h
#read
#paper
تیم تحقیقاتی فیسبوک در ادامه روند رو به رشدش در speech اینبار پای contrastive learning رو وسط کشیده تا بازی speech رو کلا عوض کنه!! شاید باورتون نشه ولی کل تسک بازشناسی رو تقسیم به فاز pre train و fine tuning کرده (که همین هم باعث شده خودش رو در دل هاگینگفیس جا کنه و هاگینگفیس به طور رسمی ازش پشتیبانی میکنه!) در فاز pre training مثل مدل زبانی میاد و سعی میکنه مدل صوتی درست کنه و در واقع به نوعی بازنمایی سگمنتهای مختلف صوتی رو با یه contrastive loss یاد میگیره که این کار کاملا self supervised است و نیازی به لیبل نداره؛ حالا در فاز fine tuning میاد و با صوتهای لیبل خورده یه شبکه ساده خطی که با تابع هدف CTC ترین میشه کار رو تکمیل میکنه. نتیجه خارق العادهست! تنها با ۱۰ دقیقه صوت لیبلدار نتایجی نزدیک به state of the artهای قبلی رو در این حوزه تولید میکنه؛ یعنی WER (word error rate) حدود ۴ درصد برای صوت تمیز و حدود ۸ درصد برای صوتهای واقعی! معماری بخش contrastive lossش هم ترنسفورمری است و برای تبدیل صوت خام به وکتور از لایه کانولوشنی استفاده میکنه.
بهونه کمبود داده لیبل خورده نیارید که contrastive learning قراره بازی رو در بیاره!
لینک مقاله:
https://arxiv.org/pdf/2006.11477.pdf
لینک هاگینگ فیس:
https://huggingface.co/facebook/wav2vec2-base-960h
#read
#paper
Telegram
stuff
دورزدن فقر سختافزاری برای فاینتیون کردن مدلهای زبانی
اگر از نداشتن توان سخت افزاری برای فاین تیون کردن مدلهای زبانی رنج میبرید، شما رو به دیدن این تاک عالی دعوت میکنیم.
در بخش اول از این ویدئو که کلا سه تا ارائه داره، آقای Sylvain Gugger (یکی از اعضای هاگینگ فیس) در رابطه با تکنیکهای لازم (مثل Gradient Checkpoint و FP16 و ..) برای دست و پنجه نرم کردن با مدلهای بزرگ در حالتی که تنها داشتهتون یک gpu عادیه صحبت میکنه. به علاوه اکثر این تکنیکها توسط Trainer کتابخونه ترنسفورمرز هاگینگ فیس پیادهسازی شده و میتونید به راحتی ازشون استفاده کنید و برای سازندگانش دعای خیر کنید.
https://www.youtube.com/watch?v=RG-yV5zgqjQ
#link
#watch
@nlp_stuff
اگر از نداشتن توان سخت افزاری برای فاین تیون کردن مدلهای زبانی رنج میبرید، شما رو به دیدن این تاک عالی دعوت میکنیم.
در بخش اول از این ویدئو که کلا سه تا ارائه داره، آقای Sylvain Gugger (یکی از اعضای هاگینگ فیس) در رابطه با تکنیکهای لازم (مثل Gradient Checkpoint و FP16 و ..) برای دست و پنجه نرم کردن با مدلهای بزرگ در حالتی که تنها داشتهتون یک gpu عادیه صحبت میکنه. به علاوه اکثر این تکنیکها توسط Trainer کتابخونه ترنسفورمرز هاگینگ فیس پیادهسازی شده و میتونید به راحتی ازشون استفاده کنید و برای سازندگانش دعای خیر کنید.
https://www.youtube.com/watch?v=RG-yV5zgqjQ
#link
#watch
@nlp_stuff
YouTube
PyData Montreal #17: Online meetup on NLP
Our guests this time are:
- Sylvain Gugger, a Research Engineer at Hugging Face and one of the core maintainers of the Transformers library, with a talk on "Fine-tuning a large language model without your own supercomputer"
- Julia Kreutzer, a Research Scientist…
- Sylvain Gugger, a Research Engineer at Hugging Face and one of the core maintainers of the Transformers library, with a talk on "Fine-tuning a large language model without your own supercomputer"
- Julia Kreutzer, a Research Scientist…
ایده GLOM هینتون
هینتون (یکی دیگه از خدایگان دیپلرنینگ)، این پیرمرد خستگیناپذیر، در ۷۳ سالگی تک و تنها به خط زده و این هفته یک پیپر ۴۴ای صفحهای منتشر کرده. هینتون در این مقاله سیستم و روشی تخیلی به نام GLOM رو پیشنهاد کرده که صرفا یک ایدهست و در واقع در این پیپر هیچ پیادهسازی و آزمایشی انجام نشده.
این ایده GLOM به دنبال اینه که با ورودی گرفتن یک تصویر بتونه در خروجی یک بازنمایی سلسله مراتبی از اون تصویر ارائه بده؛ مثلا با ورودی گرفتن 🚙 بگه که یک ماشین میبینم که دو تا چرخ داره و یک بدنه، و بدنه اش هم دو تا پنجره داره. نکته اصلی اینجاست که شبکههای عصبی فعلی با ساختار ثابتشون قادر به پاسخ دادن به این سوال و پارس کردن یک درخت معنایی از اجزای حاضر توی تصویر نیستند.
ساختار پیشنهادی GLOM رو میشه به شما ترکیبی از ترنسفورمر و ساختارهای بازگشتی و فلسفه کپسول نتورکها دید. نکته جالب رو هم میشه در یک جور تبادل پیامهای بالا به پایین و پایین به بالا و البته مکانی در شبکهاش دونست. برای آموزش دادن این این شبکه هم، هینتون یک ایده مبتنی بر contrastive learning رو پیشنهاد میکنه ( همون طور که میبینید این پیپر ۴۴ صفحهای ملقمهای از همه چیزه!)
در حال حاضر با توجه به ساختار بازگشتی GLOM و قدرت سخت افزاری فعلی بعید به نظر میرسه که به زودی بتونیم ببینیمش، ولی اگر از مرحله ایده بودن بیرون بیاد و عملیاتی بشه، یک مدل عصبی تفسیرپذیر جالبی میشه. این ایده قادر به اعمال شدن بر روی حوزههای غیر تصویر مثل متن است و همانطور که هینتون در آخر مقاله اشاره میکنه، میتونه باعث وجود اومدن مدلی به نام GLOMBERT بشه.
پیشنهاد میشه اول این ویدئوی خوب در توضیح این مقاله رو ببینید و بعد اگر کنجکاوتر شدید به سراغ خودش برید:
https://youtu.be/cllFzkvrYmE
لینک مقاله:
https://arxiv.org/abs/2102.12627
پ.ن. کم کاری نکنید و لطفا کانال را به بقیهی هوشمصنوعیدوستان معرفی کنید!
#read
#watch
#paper
@nlp_stuff
هینتون (یکی دیگه از خدایگان دیپلرنینگ)، این پیرمرد خستگیناپذیر، در ۷۳ سالگی تک و تنها به خط زده و این هفته یک پیپر ۴۴ای صفحهای منتشر کرده. هینتون در این مقاله سیستم و روشی تخیلی به نام GLOM رو پیشنهاد کرده که صرفا یک ایدهست و در واقع در این پیپر هیچ پیادهسازی و آزمایشی انجام نشده.
این ایده GLOM به دنبال اینه که با ورودی گرفتن یک تصویر بتونه در خروجی یک بازنمایی سلسله مراتبی از اون تصویر ارائه بده؛ مثلا با ورودی گرفتن 🚙 بگه که یک ماشین میبینم که دو تا چرخ داره و یک بدنه، و بدنه اش هم دو تا پنجره داره. نکته اصلی اینجاست که شبکههای عصبی فعلی با ساختار ثابتشون قادر به پاسخ دادن به این سوال و پارس کردن یک درخت معنایی از اجزای حاضر توی تصویر نیستند.
ساختار پیشنهادی GLOM رو میشه به شما ترکیبی از ترنسفورمر و ساختارهای بازگشتی و فلسفه کپسول نتورکها دید. نکته جالب رو هم میشه در یک جور تبادل پیامهای بالا به پایین و پایین به بالا و البته مکانی در شبکهاش دونست. برای آموزش دادن این این شبکه هم، هینتون یک ایده مبتنی بر contrastive learning رو پیشنهاد میکنه ( همون طور که میبینید این پیپر ۴۴ صفحهای ملقمهای از همه چیزه!)
در حال حاضر با توجه به ساختار بازگشتی GLOM و قدرت سخت افزاری فعلی بعید به نظر میرسه که به زودی بتونیم ببینیمش، ولی اگر از مرحله ایده بودن بیرون بیاد و عملیاتی بشه، یک مدل عصبی تفسیرپذیر جالبی میشه. این ایده قادر به اعمال شدن بر روی حوزههای غیر تصویر مثل متن است و همانطور که هینتون در آخر مقاله اشاره میکنه، میتونه باعث وجود اومدن مدلی به نام GLOMBERT بشه.
پیشنهاد میشه اول این ویدئوی خوب در توضیح این مقاله رو ببینید و بعد اگر کنجکاوتر شدید به سراغ خودش برید:
https://youtu.be/cllFzkvrYmE
لینک مقاله:
https://arxiv.org/abs/2102.12627
پ.ن. کم کاری نکنید و لطفا کانال را به بقیهی هوشمصنوعیدوستان معرفی کنید!
#read
#watch
#paper
@nlp_stuff
YouTube
GLOM: How to represent part-whole hierarchies in a neural network (Geoff Hinton's Paper Explained)
#glom #hinton #capsules
Geoffrey Hinton describes GLOM, a Computer Vision model that combines transformers, neural fields, contrastive learning, capsule networks, denoising autoencoders and RNNs. GLOM decomposes an image into a parse tree of objects and…
Geoffrey Hinton describes GLOM, a Computer Vision model that combines transformers, neural fields, contrastive learning, capsule networks, denoising autoencoders and RNNs. GLOM decomposes an image into a parse tree of objects and…
نورونهای عصبی Multi-Modal زیر ذرهبین OpenAI Microscope!
چند روز پیش مقالهای با نام Multimodal Neurons in Artificial Neural Networks از تیم OpenAI منتشر شد. این مقاله میاد نشون میده که یک نورون در مدلی multi modal مثل CLIP داره به یک کانسپت و مفهوم (انسان، درخت، احساسات و ...) واکنش میده و فعال میشه وقتی اون مفهوم چه به صورت عکس، چه به صورت متن یا چه به صورت نقاشی باشه. این موضوع قبلا هم توسط bioکارها راجع به نورون طبیعی گفته شده بود (ما چه کلمه درخت را بخونید، چه عکس درخت ببینید چه نقاشی درخت نشونمون بدهند، میتونیم همشون را به مفهوم درخت مرتبط کنیم).
مثلا اومدند دیدند که یه نورون هست که چه عکس یارویی که لباس مرد عکنبوتی پوشیده، چه نقاشی مرد عنکبوتی یا چه کلمهی spider ببینه پاسخ میده و فعال میشه؛ یعنی یه نورون کلا به کانسپت spider man (چه تصویر چه نقاشی چه کلمه) پاسخ میده. پس این مدل Multi-Modal تونسته جنبههای مختلف از یک مفهوم را به هم ربط بده. دو تا چیز جالبه اینجا: اول اینکه مدله این ارتباط را تونسته ایجاد کنه. دوم اینکه اینا چقدر قشنگ اینو بررسی کردند. کیف کنیم!
بعد هم اینا اومدند نورونهای مختلف برای مفاهیم مختلف مثل Region, Person, Emotion, Holiday, Color و ... را پیدا کردند و به نمایش گذاشتند. چجوری؟ OpenAI یه ابزاری به نام Microscope درست کرده (متاسفانه این یکی از زیر دستمون سر خورده و توی کانال نگذاشتیم) که نورونهای لایههای مدلهای معروف تصویری مثل AlexNet ،ResNet ،Inception ،VGG و CLIP را به تصویر کشیده تا بشه تفسیرشون کرد. برای اینکار اومدند عکسایی که نورون موردنظر یا اون کانال تصویری مدنظر را خیلی فعال کردند، یه جا جمع کردند و از سمتی تصاویر ورودی از دیتاست ImageNet که اون نورونها را فعال کردند هم آوردند؛ مثلا میشه دید که همبرگر و پنکیک فلان نورون از فلان لایه را خیلی فعال میکنه. حالا اومدند نورونهای لایههای مختلف مدل CLIP هم با همین روش بررسی کردند و برای مفاهیم مختلف نورونهاشون را آوردند. و اینکه برای هر کدوم از مفاهیم هم اومدند نشون دادند که چه تصاویر صورتی، چه متونی، چه معماریهایی، چه مناظری و... نشون دهندهی اون مفهوم برای این نورونه و اون نورون را فعال میکنه. مثلا میتونید ببینید که این مدل، «آمریکا» را با چه چیزایی میتونه تشخیص بده یا مثلا «ترامپ» را با چه چیزایی یا مثلا مفهوم «خوشحال» را با چه چیزایی!
لینک ویدیوی توضیح مقاله:
https://youtu.be/Z_kWZpgEZ7w
لینک مقاله که کلی مثال خفن هم در این صفحه آوردند که باهاشون ور برید لذت ببرید:
https://distill.pub/2021/multimodal-neurons/
پ.ن. زکات لذت از این پست، نشر آن است! :)
#read
#paper
#watch
@nlp_stuff
چند روز پیش مقالهای با نام Multimodal Neurons in Artificial Neural Networks از تیم OpenAI منتشر شد. این مقاله میاد نشون میده که یک نورون در مدلی multi modal مثل CLIP داره به یک کانسپت و مفهوم (انسان، درخت، احساسات و ...) واکنش میده و فعال میشه وقتی اون مفهوم چه به صورت عکس، چه به صورت متن یا چه به صورت نقاشی باشه. این موضوع قبلا هم توسط bioکارها راجع به نورون طبیعی گفته شده بود (ما چه کلمه درخت را بخونید، چه عکس درخت ببینید چه نقاشی درخت نشونمون بدهند، میتونیم همشون را به مفهوم درخت مرتبط کنیم).
مثلا اومدند دیدند که یه نورون هست که چه عکس یارویی که لباس مرد عکنبوتی پوشیده، چه نقاشی مرد عنکبوتی یا چه کلمهی spider ببینه پاسخ میده و فعال میشه؛ یعنی یه نورون کلا به کانسپت spider man (چه تصویر چه نقاشی چه کلمه) پاسخ میده. پس این مدل Multi-Modal تونسته جنبههای مختلف از یک مفهوم را به هم ربط بده. دو تا چیز جالبه اینجا: اول اینکه مدله این ارتباط را تونسته ایجاد کنه. دوم اینکه اینا چقدر قشنگ اینو بررسی کردند. کیف کنیم!
بعد هم اینا اومدند نورونهای مختلف برای مفاهیم مختلف مثل Region, Person, Emotion, Holiday, Color و ... را پیدا کردند و به نمایش گذاشتند. چجوری؟ OpenAI یه ابزاری به نام Microscope درست کرده (متاسفانه این یکی از زیر دستمون سر خورده و توی کانال نگذاشتیم) که نورونهای لایههای مدلهای معروف تصویری مثل AlexNet ،ResNet ،Inception ،VGG و CLIP را به تصویر کشیده تا بشه تفسیرشون کرد. برای اینکار اومدند عکسایی که نورون موردنظر یا اون کانال تصویری مدنظر را خیلی فعال کردند، یه جا جمع کردند و از سمتی تصاویر ورودی از دیتاست ImageNet که اون نورونها را فعال کردند هم آوردند؛ مثلا میشه دید که همبرگر و پنکیک فلان نورون از فلان لایه را خیلی فعال میکنه. حالا اومدند نورونهای لایههای مختلف مدل CLIP هم با همین روش بررسی کردند و برای مفاهیم مختلف نورونهاشون را آوردند. و اینکه برای هر کدوم از مفاهیم هم اومدند نشون دادند که چه تصاویر صورتی، چه متونی، چه معماریهایی، چه مناظری و... نشون دهندهی اون مفهوم برای این نورونه و اون نورون را فعال میکنه. مثلا میتونید ببینید که این مدل، «آمریکا» را با چه چیزایی میتونه تشخیص بده یا مثلا «ترامپ» را با چه چیزایی یا مثلا مفهوم «خوشحال» را با چه چیزایی!
لینک ویدیوی توضیح مقاله:
https://youtu.be/Z_kWZpgEZ7w
لینک مقاله که کلی مثال خفن هم در این صفحه آوردند که باهاشون ور برید لذت ببرید:
https://distill.pub/2021/multimodal-neurons/
پ.ن. زکات لذت از این پست، نشر آن است! :)
#read
#paper
#watch
@nlp_stuff
Telegram
stuff
پشت صحنه سریال برت!
چند وقتی هست که رگباری داره مدل های عجیب و غریب مبتنی بر برت میاد که کارای خفنی میکنند. اما این دوستانمون یه لحظه ترمز رو کشیدند و گفتند بیایم ببینیم داخل برت و لایههاش چه خبره. این کار رو برای تسک QA انجام دادند و اومدند این تسک رو بر مبنای مشاهدات به ۴ فاز تقسیم کردند و ادعا میکنند ۱۲ لایهی مدل مبتنی بر برت برای انجام این تسک، این چهار فاز رو به صورت ترتیبی دارند:
۱. خوشه بندی معنایی کلمات
۲. اتصال اسامی خاص به یکدیگر با توجه به ویژگیهای آنها
۳. هماهنگی سوالات با حقایق مرتبط با آنها
۴. استخراج جواب
نکته جالبناک این مقاله اینه که یه دموی آنلاین هم آماده شده که میتونید خودتون باهاش بازی کنید و حقایق جالبی رو کشف کنید. این دوستان سورسکد این سامانه رو هم گذاشتند برای اینکه تسک های دیگه رو هم بهش اضافه کنید. پس اگر علاقهمند به تفسیرپذیری مدلها و برتولوژی هستید، بشتابید.
لینک دمو:
https://visbert.demo.datexis.com
لینک مقاله:
https://arxiv.org/pdf/2011.04507.pdf
پ.ن.۱. این تیپ کارها کم کم داره خیلی برجسته میشه. نظیرش رو هم دوست و برادر عزیزمون جناب العمار خیلی انجام میده (مثل این پست https://www.tg-me.com/nlp_stuff/126).
پ.ن.۲. در معرفی کانال به بقیه کوشا باشید!
#paper
#read
#link
@nlp_stuff
چند وقتی هست که رگباری داره مدل های عجیب و غریب مبتنی بر برت میاد که کارای خفنی میکنند. اما این دوستانمون یه لحظه ترمز رو کشیدند و گفتند بیایم ببینیم داخل برت و لایههاش چه خبره. این کار رو برای تسک QA انجام دادند و اومدند این تسک رو بر مبنای مشاهدات به ۴ فاز تقسیم کردند و ادعا میکنند ۱۲ لایهی مدل مبتنی بر برت برای انجام این تسک، این چهار فاز رو به صورت ترتیبی دارند:
۱. خوشه بندی معنایی کلمات
۲. اتصال اسامی خاص به یکدیگر با توجه به ویژگیهای آنها
۳. هماهنگی سوالات با حقایق مرتبط با آنها
۴. استخراج جواب
نکته جالبناک این مقاله اینه که یه دموی آنلاین هم آماده شده که میتونید خودتون باهاش بازی کنید و حقایق جالبی رو کشف کنید. این دوستان سورسکد این سامانه رو هم گذاشتند برای اینکه تسک های دیگه رو هم بهش اضافه کنید. پس اگر علاقهمند به تفسیرپذیری مدلها و برتولوژی هستید، بشتابید.
لینک دمو:
https://visbert.demo.datexis.com
لینک مقاله:
https://arxiv.org/pdf/2011.04507.pdf
پ.ن.۱. این تیپ کارها کم کم داره خیلی برجسته میشه. نظیرش رو هم دوست و برادر عزیزمون جناب العمار خیلی انجام میده (مثل این پست https://www.tg-me.com/nlp_stuff/126).
پ.ن.۲. در معرفی کانال به بقیه کوشا باشید!
#paper
#read
#link
@nlp_stuff
How Does BERT Answer Questions?
Watch how BERT (fine-tuned on QA tasks) transforms tokens to get to the right answers. This demo shows how the token representations change throughout the layers of BERT. We observed that the transformations mostly pass four phases related to traditional…
گراف مقالات مرتبط با یک مقاله
دارید روی یک موضوعی پژوهش میکنید و خیلی بیهدف و شاید نومیدانه دنبال مقالات مرتبط و پیشینش جستجو میکنید؟ پس این ابزار رو امتحان کنید شاید مفید واقع شد، کافیه یک مقاله هدف رو بهش بدید تا براتون یک گراف خوشگل از کارهای مرتبطش رسم کنه.
هر گره این گراف یک مقاله است که به اون مقاله مورد جستجو شما مرتبطه. رنگ و سایز هر گره هم سال انتشار و تعداد ارجاعات شده به اون مقاله رو نشون میدن. مقالهها هم بر اساس این که چه قدر با هم ارجاعات مشترک دارن به هم دیگه وصل شدهاند.
https://www.connectedpapers.com/
#tool
@nlp_stuff
دارید روی یک موضوعی پژوهش میکنید و خیلی بیهدف و شاید نومیدانه دنبال مقالات مرتبط و پیشینش جستجو میکنید؟ پس این ابزار رو امتحان کنید شاید مفید واقع شد، کافیه یک مقاله هدف رو بهش بدید تا براتون یک گراف خوشگل از کارهای مرتبطش رسم کنه.
هر گره این گراف یک مقاله است که به اون مقاله مورد جستجو شما مرتبطه. رنگ و سایز هر گره هم سال انتشار و تعداد ارجاعات شده به اون مقاله رو نشون میدن. مقالهها هم بر اساس این که چه قدر با هم ارجاعات مشترک دارن به هم دیگه وصل شدهاند.
https://www.connectedpapers.com/
#tool
@nlp_stuff
بار جدید کورس
آقا الویس (elvis) چهار تا کورس خفن معرفی کرده که وقتی بررسیشون کردیم، خوف کردیم:
یک. Applied Machine Learning: این کورس کلی از مباحث رو به صورت جمع و جور توضیح داده؛ از SVM گرفته تا Deep Learning. فقط در حد تعریف نیست و پیادهسازی و مثال هم آورده. این کورس سعی کرده به صورت گسترده عمل کنه تا عمیق.
دو. Intro to Deep Learning: این کورس کلاس دیپ لرنینگ دانشگاه برکلیه، با مقدمات ML شروع میشه، مقدمات دیپ مثل back propagation رو میگه و میرسه به CNN و RNN و ترنسرفورمرها. کوتاه و جامع. مخصوص دوران جمعبندی عید!
سه. Full Stack Deep Learning: هدف این کورس عجیب با مدرسهای غولش (یه نگاه به رخ خودشون و شرکتهاشون بندازید) اینه که فاصلهی بین آموزش مدلها و دیپلویمنت رو کم کنه. هنوز داره آپدیت میشه. ویدیوهاشون پر از Lab (و لوچه) است که به صورت عملی نشون بده داستان چیه.
چهار. CS 329S: Machine Learning Systems Design: این کورس استنفورد هم راجع به طراحی، مقیاسپذیری و دیپلویمنته. مال همین ترم اخیره. این موضوعیه که به زودی در ایران هم کلی نیاز خواهد شد و آدم هم براش خیلی کمه.
#coach
#course
@nlp_stuff
آقا الویس (elvis) چهار تا کورس خفن معرفی کرده که وقتی بررسیشون کردیم، خوف کردیم:
یک. Applied Machine Learning: این کورس کلی از مباحث رو به صورت جمع و جور توضیح داده؛ از SVM گرفته تا Deep Learning. فقط در حد تعریف نیست و پیادهسازی و مثال هم آورده. این کورس سعی کرده به صورت گسترده عمل کنه تا عمیق.
دو. Intro to Deep Learning: این کورس کلاس دیپ لرنینگ دانشگاه برکلیه، با مقدمات ML شروع میشه، مقدمات دیپ مثل back propagation رو میگه و میرسه به CNN و RNN و ترنسرفورمرها. کوتاه و جامع. مخصوص دوران جمعبندی عید!
سه. Full Stack Deep Learning: هدف این کورس عجیب با مدرسهای غولش (یه نگاه به رخ خودشون و شرکتهاشون بندازید) اینه که فاصلهی بین آموزش مدلها و دیپلویمنت رو کم کنه. هنوز داره آپدیت میشه. ویدیوهاشون پر از Lab (و لوچه) است که به صورت عملی نشون بده داستان چیه.
چهار. CS 329S: Machine Learning Systems Design: این کورس استنفورد هم راجع به طراحی، مقیاسپذیری و دیپلویمنته. مال همین ترم اخیره. این موضوعیه که به زودی در ایران هم کلی نیاز خواهد شد و آدم هم براش خیلی کمه.
#coach
#course
@nlp_stuff
مدلهای زبانی یا موتورهای محاسبه؟
معماری داخلی شبکههای ترنسفورمری را میتوان به سه بخش لایههای امبدینگ، لایههای ترنسفورمری (اتنشن) و لایه خروجی تفکیک کرد. حالا در این مقاله جدید به نام Pretrained Transformers as Universal Computation Engines اومدند و قابلیت تعمیم پذیری شبکههای ازپیشآموزشدیده زبانی روی تسکهای سایر مودالیتیها نظیر تسکهای تصویری (مثل دستهبندی روی cifar) و ریاضی (مثل حساب کردن یک عبارت) تست کردند. چگونه؟ به این نحو که قلب شبکه رو (همون بخشهای اتنشن میانی) فریز کردند و باقی بخشهای مدل رو که صرفا یک درصد از پارامترهای کل مدل هستند، روی تسک هدف فاین تیون کردند و بعد عملکرد این مدلها رو با حالتی که شبکه ترنسفورمری از ابتدا و به صورت خام روی این تسکها آموزش ببینه مقایسه کردند.
نتایج نسبتا جالب توجه هستند، به این صورت که مدلهای فاینتیونشده از مدلهای دسته دوم پا پس نکشیدند و حتی در برخی تسکها به امتیازهای بهتری دست پیدا کردند.
چند آزمایش جالب دیگه انجام دادند؛ مثلا یه بار اون اتنشنهای وسط رو رندوم عدد دادند، فریز کردند و ترین کردند و بعد دیدند جواب بد شده. یا یه بار دیگه جای پیشآموزش روی متن روی تصویر پیشآموزش دادند و دیدند باز هم متن بهتر بوده.
همین نتایج این حدس رو برمیانگیزه که احتمالا مدلهای از ازپیشآموزشدیده زبانی در قسمت لایههای اتنشن خودشون، منطق محاسباتی رو یاد میگیرند که همین بهشون در تسکهای دیگه کمک میکنه و بر همین اساس نام مقاله اینی شده که مشاهده میکنید.
لینک ویدیوی توضیح مقاله:
https://www.youtube.com/watch?v=Elxn8rS88bI&t=1080s
لینک مقاله:
https://arxiv.org/abs/2103.05247
#read
#paper
#watch
@nlp_stuff
معماری داخلی شبکههای ترنسفورمری را میتوان به سه بخش لایههای امبدینگ، لایههای ترنسفورمری (اتنشن) و لایه خروجی تفکیک کرد. حالا در این مقاله جدید به نام Pretrained Transformers as Universal Computation Engines اومدند و قابلیت تعمیم پذیری شبکههای ازپیشآموزشدیده زبانی روی تسکهای سایر مودالیتیها نظیر تسکهای تصویری (مثل دستهبندی روی cifar) و ریاضی (مثل حساب کردن یک عبارت) تست کردند. چگونه؟ به این نحو که قلب شبکه رو (همون بخشهای اتنشن میانی) فریز کردند و باقی بخشهای مدل رو که صرفا یک درصد از پارامترهای کل مدل هستند، روی تسک هدف فاین تیون کردند و بعد عملکرد این مدلها رو با حالتی که شبکه ترنسفورمری از ابتدا و به صورت خام روی این تسکها آموزش ببینه مقایسه کردند.
نتایج نسبتا جالب توجه هستند، به این صورت که مدلهای فاینتیونشده از مدلهای دسته دوم پا پس نکشیدند و حتی در برخی تسکها به امتیازهای بهتری دست پیدا کردند.
چند آزمایش جالب دیگه انجام دادند؛ مثلا یه بار اون اتنشنهای وسط رو رندوم عدد دادند، فریز کردند و ترین کردند و بعد دیدند جواب بد شده. یا یه بار دیگه جای پیشآموزش روی متن روی تصویر پیشآموزش دادند و دیدند باز هم متن بهتر بوده.
همین نتایج این حدس رو برمیانگیزه که احتمالا مدلهای از ازپیشآموزشدیده زبانی در قسمت لایههای اتنشن خودشون، منطق محاسباتی رو یاد میگیرند که همین بهشون در تسکهای دیگه کمک میکنه و بر همین اساس نام مقاله اینی شده که مشاهده میکنید.
لینک ویدیوی توضیح مقاله:
https://www.youtube.com/watch?v=Elxn8rS88bI&t=1080s
لینک مقاله:
https://arxiv.org/abs/2103.05247
#read
#paper
#watch
@nlp_stuff
Telegram
stuff
آمار کانال در سال ۱۳۹۹
سال نو همهمون مبارکا! انشاءالله همگی در سال ۱۴۰۰ مفیدتر و کاراتر از ۱۳۹۹ باشیم و سال جدید پر از امید، عزت و سلامتی برامون باشه.
ما این کانال را ۳۰ اردیبهشت ۱۳۹۹ به امید کمک به گسترش و یادگیری بیشتر هوش مصنوعی و پردازش زبان طبیعی ساختیم.
ممنون از همهی کسایی که بهمون انتقاد و کمک کردند. تشکر از همه کسایی که ما را به بقیه معرفی کردند و میکنند. دمتون گرم.
اینها تصاویری از آمارهای امسال کاناله. گفتیم شاید براتون جالب باشه (شایدم هیچ اهمیتی نداشته باشه یه کانال ۷۰۰ نفره چه آماری داره😄)!
نتایج کانال در این نه ماه شده: بیش از ۷۱۰ تا عضو، میانگین ۱۶ تا پست در ماه، میانگین ۶۵۰ تا بازدید به ازای هر پست، میانگین ۹۰ تا اشتراک به ازای هر پست و از همه مهمتر کلی پیام مهرآمیز و حمایتهای مشتی از سمت شما. به نظرمون برای یک کانال تخصصی بد نیست. بیش باد!
اگر مشکلی میبینید یا پیشنهادی دارید، بهمون بگید که سال بعد بهتر عمل کنیم. اندک کانال خودتونه، تعارف نکنید خلاصه!
#overfit
@nlp_stuff
سال نو همهمون مبارکا! انشاءالله همگی در سال ۱۴۰۰ مفیدتر و کاراتر از ۱۳۹۹ باشیم و سال جدید پر از امید، عزت و سلامتی برامون باشه.
ما این کانال را ۳۰ اردیبهشت ۱۳۹۹ به امید کمک به گسترش و یادگیری بیشتر هوش مصنوعی و پردازش زبان طبیعی ساختیم.
ممنون از همهی کسایی که بهمون انتقاد و کمک کردند. تشکر از همه کسایی که ما را به بقیه معرفی کردند و میکنند. دمتون گرم.
اینها تصاویری از آمارهای امسال کاناله. گفتیم شاید براتون جالب باشه (شایدم هیچ اهمیتی نداشته باشه یه کانال ۷۰۰ نفره چه آماری داره😄)!
نتایج کانال در این نه ماه شده: بیش از ۷۱۰ تا عضو، میانگین ۱۶ تا پست در ماه، میانگین ۶۵۰ تا بازدید به ازای هر پست، میانگین ۹۰ تا اشتراک به ازای هر پست و از همه مهمتر کلی پیام مهرآمیز و حمایتهای مشتی از سمت شما. به نظرمون برای یک کانال تخصصی بد نیست. بیش باد!
اگر مشکلی میبینید یا پیشنهادی دارید، بهمون بگید که سال بعد بهتر عمل کنیم. اندک کانال خودتونه، تعارف نکنید خلاصه!
#overfit
@nlp_stuff
عیدی صوتی فیسبوک به همه زبانها
خب مندلکبازی و تبریک سال نو بسه، بریم سراغ کار اصلیمون: چند وقت پیش در کانال درباره wav2vec2 پستی (این پست https://www.tg-me.com/nlp_stuff/135) گذاشتیم. نکتهش این بود که مدل pre-train/fine-tune که قبل از این، در حوزه NLP سربلند بیرون اومده بود حالا وارد عرصه speech شده. شما باید اول یه مدل pre-train شده رو که به صورت بدون نظارت است در یک زبان آموزش داده باشید و بعد با اندک دیتای برچسبخورده در تسک موردنظرتون (مثلا بازشناسی گفتار) بر اون تسک فائق بیاید! حالا دوستان Facebook AI گفتند که شاید برخی زبانها حتی همون دیتای بدون برچسب در حجم زیاد رو هم نداشته باشند و یا اینکه منابع لازم برای آموزش مدل pre-train رو در اختیار نداشته باشند، به خاطر همین مدل cross lingual همین wav2vec رو ارائه دادند که در واقع از شر pre-train رها میشید و فقط به دنبال fine tune کردن روی تسک مورد نظرتون تمرکز میکنید. نتیجه اینکه هاگینگ فیس هم کلی ذوق کرد و ملت رو بسیج کرد تا با امکاناتی که فراهم کرده این مدل cross lingual رو برای زبان محلی خودشون فاین تیون کنند. حالا آقای مهرداد فراهانی برای زبان فارسی، بار امانت رو به دوش کشید. طبیعتا از یه مدل cross lingual نباید توقع داشت که state of the artهای زبان رو جا به جا کنه ولی به نرخ خطای ۳۲ درصد بر اساس معیار WER رسیده که خوبه. توجه کنید که اندک کارهای قبلی در حوزه ASR فارسی نرخ خطاهایی در حدود ۲۰ الی ۲۸ درصد داشتند (البته سناریوهای تست با توجه به نویزی بودن و یا تمیز بودن صوت و مدل سازی صوت متفاوته)! اگر جایی گیر کردید و ASR لازم بودید، میتونید از این مدل استفاده کنید یا حتی روی دیتاست شخصیتون اون رو فاین تیون کنید و غمتون نباشه دیگه.
لینک مقاله cross-lingual:
https://arxiv.org/abs/2006.13979
لینک راهنمای فاینتیون کردن:
https://huggingface.co/blog/fine-tune-xlsr-wav2vec2
لینک مدل فاینتیون شده فارسی:
https://huggingface.co/m3hrdadfi/wav2vec2-large-xlsr-persian
#read
#paper
#link
@nlp_stuff
خب مندلکبازی و تبریک سال نو بسه، بریم سراغ کار اصلیمون: چند وقت پیش در کانال درباره wav2vec2 پستی (این پست https://www.tg-me.com/nlp_stuff/135) گذاشتیم. نکتهش این بود که مدل pre-train/fine-tune که قبل از این، در حوزه NLP سربلند بیرون اومده بود حالا وارد عرصه speech شده. شما باید اول یه مدل pre-train شده رو که به صورت بدون نظارت است در یک زبان آموزش داده باشید و بعد با اندک دیتای برچسبخورده در تسک موردنظرتون (مثلا بازشناسی گفتار) بر اون تسک فائق بیاید! حالا دوستان Facebook AI گفتند که شاید برخی زبانها حتی همون دیتای بدون برچسب در حجم زیاد رو هم نداشته باشند و یا اینکه منابع لازم برای آموزش مدل pre-train رو در اختیار نداشته باشند، به خاطر همین مدل cross lingual همین wav2vec رو ارائه دادند که در واقع از شر pre-train رها میشید و فقط به دنبال fine tune کردن روی تسک مورد نظرتون تمرکز میکنید. نتیجه اینکه هاگینگ فیس هم کلی ذوق کرد و ملت رو بسیج کرد تا با امکاناتی که فراهم کرده این مدل cross lingual رو برای زبان محلی خودشون فاین تیون کنند. حالا آقای مهرداد فراهانی برای زبان فارسی، بار امانت رو به دوش کشید. طبیعتا از یه مدل cross lingual نباید توقع داشت که state of the artهای زبان رو جا به جا کنه ولی به نرخ خطای ۳۲ درصد بر اساس معیار WER رسیده که خوبه. توجه کنید که اندک کارهای قبلی در حوزه ASR فارسی نرخ خطاهایی در حدود ۲۰ الی ۲۸ درصد داشتند (البته سناریوهای تست با توجه به نویزی بودن و یا تمیز بودن صوت و مدل سازی صوت متفاوته)! اگر جایی گیر کردید و ASR لازم بودید، میتونید از این مدل استفاده کنید یا حتی روی دیتاست شخصیتون اون رو فاین تیون کنید و غمتون نباشه دیگه.
لینک مقاله cross-lingual:
https://arxiv.org/abs/2006.13979
لینک راهنمای فاینتیون کردن:
https://huggingface.co/blog/fine-tune-xlsr-wav2vec2
لینک مدل فاینتیون شده فارسی:
https://huggingface.co/m3hrdadfi/wav2vec2-large-xlsr-persian
#read
#paper
#link
@nlp_stuff
Telegram
stuff