قبلا چندین بار راجع به مندلکبازیهای این مدل جدید GPT3 صحبت کردهبودیم؛ این بار مندلک جدیدش رو ببینید که باهاش سعی کردن یک انشا بلند با موضوع صلحطلبی روباتها در قبال انسانها تولید کنن. خیره کننده و تعجب برانگیزه.
نظر شخصی ما (که قاعدتا هیچی نیستیم:) ) اما اینه که شما بیای صرفا بر قدرت سخت افزاری تکیه کنی و هر از چند گاهی مدلت رو ده برابر بزرگتر کنی و نشون بدی وای چه قدر خوب شده، چه قدر نتایج خفنی داره، هنر نیست. این مسیری که دارن میرن بیشتر از این که توش نوآوری و خلاقیت دیده بشه، قدرت مالی و منابع سخت افزاری دیده میشه.
https://www.theguardian.com/commentisfree/2020/sep/08/robot-wrote-this-article-gpt-3
#read
#blog
@nlp_stuff
نظر شخصی ما (که قاعدتا هیچی نیستیم:) ) اما اینه که شما بیای صرفا بر قدرت سخت افزاری تکیه کنی و هر از چند گاهی مدلت رو ده برابر بزرگتر کنی و نشون بدی وای چه قدر خوب شده، چه قدر نتایج خفنی داره، هنر نیست. این مسیری که دارن میرن بیشتر از این که توش نوآوری و خلاقیت دیده بشه، قدرت مالی و منابع سخت افزاری دیده میشه.
https://www.theguardian.com/commentisfree/2020/sep/08/robot-wrote-this-article-gpt-3
#read
#blog
@nlp_stuff
the Guardian
A robot wrote this entire article. Are you scared yet, human? | GPT-3
We asked GPT-3, OpenAI’s powerful new language generator, to write an essay for us from scratch. The assignment? To convince us robots come in peace
یکی از مباحث مهم، کوچک کردن مدلهای غولپیکره. قبلا یه پست (https://www.tg-me.com/nlp_stuff/60) دربارهاش گذاشته بودیم. Quantization یکی دیگه از روشهای کوچک کردن مدلهای بزرگه. در این روش بدون آموزش مجدد، مثلا اعداد اعشاری ۳۲ بیتی با یک عدد صحیح ۸ بیتی تخمین زده میشه و با اینکه کارایی مدل یه ذره کم میشه، اما حجم مدل خیلی پایین میاد و کلی در مصرف رم و حافظه صرفهجویی میشه و سرعت بالا میره.
در لینک زیر این روش برای مدلهای کتابخانهی hugging face و با استفاده از کتابخانهی ONNX Runtime پیاده شده و نتایج مقایسه شده:
https://medium.com/microsoftazure/faster-and-smaller-quantized-nlp-with-hugging-face-and-onnx-runtime-ec5525473bb7
#read
#blog
@nlp_stuff
در لینک زیر این روش برای مدلهای کتابخانهی hugging face و با استفاده از کتابخانهی ONNX Runtime پیاده شده و نتایج مقایسه شده:
https://medium.com/microsoftazure/faster-and-smaller-quantized-nlp-with-hugging-face-and-onnx-runtime-ec5525473bb7
#read
#blog
@nlp_stuff
در سومین پست از رشتهپست «داستان ترنسفورمرها»، رفتیم سراغ اصل مطلب و معماری ترنسفورمرها و مقالهی attention is all you need را کامل تشریح کردیم.
این مطلب دریچه ورود به مدلهایی مثل برته؛ پس حتما بخونید!
کمکاری نکنید. نظر بدید و با بقیه به اشتراک بگذارید.
اگر پست خوبی داشتید خبر بدید که در انتشارات بگذاریم.
https://virgool.io/overfit/transformers3-uzhfclfjaikl
#read
#blog
#overfit
@nlp_stuff
این مطلب دریچه ورود به مدلهایی مثل برته؛ پس حتما بخونید!
کمکاری نکنید. نظر بدید و با بقیه به اشتراک بگذارید.
اگر پست خوبی داشتید خبر بدید که در انتشارات بگذاریم.
https://virgool.io/overfit/transformers3-uzhfclfjaikl
#read
#blog
#overfit
@nlp_stuff
ویرگول
داستان ترنسفورمرها (۳): توجه و دیگر هیچ!
در سومین پست از رشته پست «داستان ترنسفورمرها» سعی کردیم مدل ترنسفورمر رو به نحو نیکویی بررسی کنیم!
قبلا دیالوگسیستمهای وظیفهمحور را به سه تسک فهم زبانی (NLU)، مدیریت دیالوگ (Dialogue Management) و تولید متن (NLG) تقسیم میکردند. این تقسیم باعث انتشار خطا میشد.
اما حالا آقا احسان حسینی و شرکا یک مدل به نام SimpleTOD برای آموزش انتها به انتهای دیالوگهای وظیفهمحور پیشنهاد دادند. این مدل در اصل یک مدل زبانی علی (causal) مانند جیپیتی-۲ است. این بلاگ پست فنی را حتما حتما بخونید و با نتایجش کیف کنید.
https://blog.einstein.ai/simpletod/
#read
#blog
@nlp_stuff
اما حالا آقا احسان حسینی و شرکا یک مدل به نام SimpleTOD برای آموزش انتها به انتهای دیالوگهای وظیفهمحور پیشنهاد دادند. این مدل در اصل یک مدل زبانی علی (causal) مانند جیپیتی-۲ است. این بلاگ پست فنی را حتما حتما بخونید و با نتایجش کیف کنید.
https://blog.einstein.ai/simpletod/
#read
#blog
@nlp_stuff
این مقاله (از کنفرانس emnlp2020) اومده تولید محتوای سمی (فحش و حرفهای جنسیتزده و اینا) توسط مدلهای زبانی را بررسی کرده؛ مواردی مثل دلایل بروزش، چارچوبی برای سنجش میزانش در مدل و دیتای آموزشی و اینکه آیا ممکنه که جلوش گرفته شه یا نه.
کد و دیتا و کلا همه چیز را در اختیار عموم گذاشتند.
موضوع عجیبیه که در کاربردهای تولید متن مثل چتباتها و … شدیدا مشکلساز میشه.
حداقل این بلاگشون و این رشته توییت را بخونید خوبه.
https://toxicdegeneration.allenai.org
https://twitter.com/ssgrn/status/1310970616682622976
https://arxiv.org/abs/2009.11462
#read
#paper
#blog
@nlp_stuff
کد و دیتا و کلا همه چیز را در اختیار عموم گذاشتند.
موضوع عجیبیه که در کاربردهای تولید متن مثل چتباتها و … شدیدا مشکلساز میشه.
حداقل این بلاگشون و این رشته توییت را بخونید خوبه.
https://toxicdegeneration.allenai.org
https://twitter.com/ssgrn/status/1310970616682622976
https://arxiv.org/abs/2009.11462
#read
#paper
#blog
@nlp_stuff
پیشروی ترنسفورمرها در زمینهی پردازش تصویر!
در این مقاله، نویسندگان ناشناسش (تحت داوری ICLRعه) اومدند از ترنسفورمر برای تسک دستهبندی تصاویر استفاده کردند. به این شکل که هر تصویر را اومدند به قسمتهای ۱۶*۱۶ تقسیم کردند و هر کدام را پشت سر هم مثل توکن دادند به انکودر ترنسفورمر و بردار خروجی را به یک شبکهی عصبی چندلایهی ساده دادند و تونستند با منابع کمتر state of the art را رد کنند.
آیا CNNها هم به سرنوشت نکبتبار RNNها دچار میشوند؟ :)
لینک مقاله و کدش ضمیمه شده است.
https://openreview.net/forum?id=YicbFdNTTy
https://paperswithcode.com/paper/an-image-is-worth-16x16-words-transformers
#read
#paper
@nlp_stuff
در این مقاله، نویسندگان ناشناسش (تحت داوری ICLRعه) اومدند از ترنسفورمر برای تسک دستهبندی تصاویر استفاده کردند. به این شکل که هر تصویر را اومدند به قسمتهای ۱۶*۱۶ تقسیم کردند و هر کدام را پشت سر هم مثل توکن دادند به انکودر ترنسفورمر و بردار خروجی را به یک شبکهی عصبی چندلایهی ساده دادند و تونستند با منابع کمتر state of the art را رد کنند.
آیا CNNها هم به سرنوشت نکبتبار RNNها دچار میشوند؟ :)
لینک مقاله و کدش ضمیمه شده است.
https://openreview.net/forum?id=YicbFdNTTy
https://paperswithcode.com/paper/an-image-is-worth-16x16-words-transformers
#read
#paper
@nlp_stuff
کتابخونه nlpaug خیلی بهدردبخوره. باهاش میتونید نویز رو در سطح کاراکتر و کلمه به دیتاست وارد کنید و به شکل نیکویی data augmentation کنید. چند تا از کارای باحالش:
- حروف را حروف کنارش در کیبورد (QWERTY) و یا رندوم جایگزین میکنه.
- کلمهها را با کلمههای مشابه با استفاده از wordnet، word2vec، GloVe، fasttext ،BERT و یا به صورت رندم با کلمههای دیگه جایگزین میکنه.
خلاصه خیلی خوبه. لینک بلاگ و گیتش را در ادامه آوردیم.
https://towardsdatascience.com/data-augmentation-library-for-text-9661736b13ff
https://github.com/makcedward/nlpaug
اگر با data augmentation آشنا نیستید این دو تا پست را ببینید:
https://www.tg-me.com/nlp_stuff/5
https://www.tg-me.com/nlp_stuff/71
#read
#blog
#tool
@nlp_stuff
- حروف را حروف کنارش در کیبورد (QWERTY) و یا رندوم جایگزین میکنه.
- کلمهها را با کلمههای مشابه با استفاده از wordnet، word2vec، GloVe، fasttext ،BERT و یا به صورت رندم با کلمههای دیگه جایگزین میکنه.
خلاصه خیلی خوبه. لینک بلاگ و گیتش را در ادامه آوردیم.
https://towardsdatascience.com/data-augmentation-library-for-text-9661736b13ff
https://github.com/makcedward/nlpaug
اگر با data augmentation آشنا نیستید این دو تا پست را ببینید:
https://www.tg-me.com/nlp_stuff/5
https://www.tg-me.com/nlp_stuff/71
#read
#blog
#tool
@nlp_stuff
این دو تا پلیلیست یوتیوب خیلی خوبن.
مدلها و مقالههای حوزهی NLP را به شکل نیکویی توضیح میدن. از دست ندید.
https://www.youtube.com/playlist?list=PL75e0qA87dlG-za8eLI6t0_Pbxafk-cxb
https://www.youtube.com/playlist?list=PL75e0qA87dlFJiNMeKltWImhQxfFwaxvv
#coach
#course
@nlp_stuff
مدلها و مقالههای حوزهی NLP را به شکل نیکویی توضیح میدن. از دست ندید.
https://www.youtube.com/playlist?list=PL75e0qA87dlG-za8eLI6t0_Pbxafk-cxb
https://www.youtube.com/playlist?list=PL75e0qA87dlFJiNMeKltWImhQxfFwaxvv
#coach
#course
@nlp_stuff
گرافهای دانش پایگاههای دانشی هستند که علی رغم جذابیت و صحت اطلاعاتی بالاشون، اما جمع آوری و یا درست کردن اتوماتیکشون کار سختیه و نیازمند روش های supervisd یا حداکثر semisupervised هستش. حدود دو هفته پیش اما پیپری ارائه شد که روشی رو برای ساختن گراف های دانش از مدلهای زبانی نظیر Bert و GPT پیشنهاد کرد (روشی حتی بدون فاین تیون کردن این مدلهای زبانی)
حالا چند روز پیش یک ویدئوی خوبی در توضیح این پیپر منتشر شده. ببینیدش.
https://arxiv.org/abs/2010.11967
https://youtu.be/NAJOZTNkhlI
#paper
#read
@nlp_stuff
حالا چند روز پیش یک ویدئوی خوبی در توضیح این پیپر منتشر شده. ببینیدش.
https://arxiv.org/abs/2010.11967
https://youtu.be/NAJOZTNkhlI
#paper
#read
@nlp_stuff
این ویدیو و نوتبوک بهتون یاد میده که چجوری با استفاده ماژول pipline از کتابخونهی huggingface با چند خط کد مثل آب خوردن یک multilabel classifier داشته باشید.
https://www.youtube.com/watch?v=J6D-S9gfgwk&ab_channel=BhaveshBhatt
https://github.com/bhattbhavesh91/zero-shot-huggingface-demo/blob/main/zero-shot-classification-notebook.ipynb
#coach
#video
@nlp_stuff
https://www.youtube.com/watch?v=J6D-S9gfgwk&ab_channel=BhaveshBhatt
https://github.com/bhattbhavesh91/zero-shot-huggingface-demo/blob/main/zero-shot-classification-notebook.ipynb
#coach
#video
@nlp_stuff
این پست جدید از هاگینگ فیس را بنگرید!
حدود یکسال پیش بچههای هاگینگفیس طی این پست در مدیوم پیشنهاد کردند که برای شبکه های seq2seq بیایم و از انکودرهای از پیش آموزش دیده شده نظیر برت به عنوان نقطه شروع شبکههای انکودر و دیکودر استفاده کنیم ( مثالش اینه که فکر کنید یک تسک تبدیل متن انگلیسی به sql داشته باشیم و بیایم روی متن انگلیسی و متنهای sql دو تا شبکه برت آموزش بدیم و بعد این برت ها را به عنوان انکودر و دیکودر شبکه دنباله به دنباله بکاریم و حالا روش شروع به آموزش کنیم و فاین تیون کنیم)
حال پس از گذشت یک سال، هاگینگ فیس امکان استفاده از این قابلیت را تا حد خوبی پیادهسازی کرده و در این پست از بلاگش اون رو به خوبی تشریح کرده. الان دیگه به زیبایی میتونید بیاید از مدلهای جالبی مثل Bert2Bert یا Bert2GPT برای تسکهای دنباله به دنباله نظیر خلاصهسازی و ترجمهماشینی و دیالوگ و هر چی تسک دنباله به دنباله عجیبی که به ذهنتون میتونه برسه، استفاده کنید.
مرسی آقای هاگینگ فیس 🤗
https://huggingface.co/blog/warm-starting-encoder-decoder
#read
#blog
@nlp_stuff
حدود یکسال پیش بچههای هاگینگفیس طی این پست در مدیوم پیشنهاد کردند که برای شبکه های seq2seq بیایم و از انکودرهای از پیش آموزش دیده شده نظیر برت به عنوان نقطه شروع شبکههای انکودر و دیکودر استفاده کنیم ( مثالش اینه که فکر کنید یک تسک تبدیل متن انگلیسی به sql داشته باشیم و بیایم روی متن انگلیسی و متنهای sql دو تا شبکه برت آموزش بدیم و بعد این برت ها را به عنوان انکودر و دیکودر شبکه دنباله به دنباله بکاریم و حالا روش شروع به آموزش کنیم و فاین تیون کنیم)
حال پس از گذشت یک سال، هاگینگ فیس امکان استفاده از این قابلیت را تا حد خوبی پیادهسازی کرده و در این پست از بلاگش اون رو به خوبی تشریح کرده. الان دیگه به زیبایی میتونید بیاید از مدلهای جالبی مثل Bert2Bert یا Bert2GPT برای تسکهای دنباله به دنباله نظیر خلاصهسازی و ترجمهماشینی و دیالوگ و هر چی تسک دنباله به دنباله عجیبی که به ذهنتون میتونه برسه، استفاده کنید.
مرسی آقای هاگینگ فیس 🤗
https://huggingface.co/blog/warm-starting-encoder-decoder
#read
#blog
@nlp_stuff
فوقع ما وقع
این دوستمون Jax را یادتونه؟ حالا بالاخره اولین گامهای عملی در این زمینه برداشته شده و هاگینگ فیس با همکاری تیم Flax، برت و روبرتا پیادهشده روی Jax را ارائه داده.
پایتورچ و تنسرفلو آماده باشن که Jax داره میاد!
https://twitter.com/avitaloliver/status/1326986383983063058
پ.ن. اگر اولین باره که اسم Jax را میشنوین به این پست از کانال نگاه بندازین.
#twitter
@nlp_stuff
این دوستمون Jax را یادتونه؟ حالا بالاخره اولین گامهای عملی در این زمینه برداشته شده و هاگینگ فیس با همکاری تیم Flax، برت و روبرتا پیادهشده روی Jax را ارائه داده.
پایتورچ و تنسرفلو آماده باشن که Jax داره میاد!
https://twitter.com/avitaloliver/status/1326986383983063058
پ.ن. اگر اولین باره که اسم Jax را میشنوین به این پست از کانال نگاه بندازین.
@nlp_stuff
گلچین EMNLP و ICLR به روایت رودر
آقای Sebastian Ruder در شمارهی ۵۴ از NLP News سایتش، مقالههایی را که به نظرش در EMNLP و ICLR امسال قشنگ هستند و همینطور کارهای اخیر در موضوع toxicity detection و data augmentation آورده. بعضی از مقالهها و بلاگهایی که گفته قبلا در کانال بحث کردیم. دنبالش کنید که چیزای خوبی یاد میگیرید.
http://newsletter.ruder.io/issues/emnlp-iclr-2020-toxicity-detection-data-augmentation-and-adversarial-examples-285207
#read
#blog
@nlp_stuff
آقای Sebastian Ruder در شمارهی ۵۴ از NLP News سایتش، مقالههایی را که به نظرش در EMNLP و ICLR امسال قشنگ هستند و همینطور کارهای اخیر در موضوع toxicity detection و data augmentation آورده. بعضی از مقالهها و بلاگهایی که گفته قبلا در کانال بحث کردیم. دنبالش کنید که چیزای خوبی یاد میگیرید.
http://newsletter.ruder.io/issues/emnlp-iclr-2020-toxicity-detection-data-augmentation-and-adversarial-examples-285207
#read
#blog
@nlp_stuff
تولد موازیسازی مدلها روی هاگینگ فیس
بدانید و آگاه باشید که هفته قبل هاگینگفیس طی حرکت بسیار خفنی، موازیسازی مدلها روی جیپییو را اضافه کرده و فعلا برای GPT-2 و T5 هم پیاده شده.
نمیدونیم میتونید یا نه؛ ولی اگر میتونید (یعنی چند تا جیپییو دارید)، حالشو ببرید.
https://twitter.com/LysandreJik/status/1330964117243441153?s=20
#twitter
@nlp_stuff
بدانید و آگاه باشید که هفته قبل هاگینگفیس طی حرکت بسیار خفنی، موازیسازی مدلها روی جیپییو را اضافه کرده و فعلا برای GPT-2 و T5 هم پیاده شده.
نمیدونیم میتونید یا نه؛ ولی اگر میتونید (یعنی چند تا جیپییو دارید)، حالشو ببرید.
https://twitter.com/LysandreJik/status/1330964117243441153?s=20
@nlp_stuff
گلچین شاد EMNLP2020
ایشون اومده ۱۳ تا از مقالههای EMNLP2020 را گلچین کرده. مقالههای خیلی خوبی هستند، یه نگاه بهشون (حداقل عنوانشون!) بندازید خوبه.
ما هم به شرط حیات چندتاشو به زودی خلاصه میکنیم و براتون تعریف میکنیم که کی کیو زده.
https://twitter.com/sjmielke/status/1332069329416892418?s=20
#twitter
@nlp_stuff
ایشون اومده ۱۳ تا از مقالههای EMNLP2020 را گلچین کرده. مقالههای خیلی خوبی هستند، یه نگاه بهشون (حداقل عنوانشون!) بندازید خوبه.
ما هم به شرط حیات چندتاشو به زودی خلاصه میکنیم و براتون تعریف میکنیم که کی کیو زده.
https://twitter.com/sjmielke/status/1332069329416892418?s=20
@nlp_stuff
Twitter
Sabrina J. Mielke
I finally watched all the talks I wanted to, ended up importing 56 papers to my bib, and now present to you: 🎉 My 13 favorite papers (sorted alphabetically) at #EMNLP2020! 🔥 [1/15]
مهدیمون در کنفرانس WSS 2020 ارائهای با موضوع Transfer Learning in NLP with Huggingface داره و قراره مرور کاملی روی مباحث انتقال یادگیری در پردازش زبان طبیعی و استفاده از کتابخانهی هاگینگفیس داشته باشه.
سعی کنید به هیچ وجه از دستش ندید و لطفا دست به دست کنید.
زمان ارائه: ۱۰ دی (۳۰ دسامبر)
https://sharif-wss.ir/workshop/26
#coach
#overfit
@WSS_SUT
@nlp_stuff
سعی کنید به هیچ وجه از دستش ندید و لطفا دست به دست کنید.
زمان ارائه: ۱۰ دی (۳۰ دسامبر)
https://sharif-wss.ir/workshop/26
#coach
#overfit
@WSS_SUT
@nlp_stuff
دیتاست NLU فارسی
این نوزده نفر اومدند زحمت کشیدند و دیتاست NLU فارسی درست کردند که برای اولین بار بتونیم یک بنچمارک در این زمینه داشته باشیم و مدلها را مقایسه کنیم. سایز بعضی از قسمتهاش مثل پرسش و پاسخ کمه (۵۷۵ تا) اما واقعا شروع خیلی خوبیه. روش مدل خودشون را هم ارائه کردند. این دیتاست شامل ایناست:
Textual Entailment
Query Paraphrasing
Reading Comprehension
Multiple-Choice QA
Machine Translation
Sentiment Analysis
بعضی از ایدهها و منابعشون خیلی خیلی قشنگ بود. وقت و انرژی گذاشتند و لیبل زدند. دمشون گرم.
لینک مقاله و گیتشون در ادامه آوردیم. استار بدید حتما:
https://github.com/persiannlp/parsinlu
https://arxiv.org/pdf/2012.06154.pdf
پ.ن. اگر میخواهید اسمتون بمونه، شروع کنید دیتاست متنی فارسی درست کنید.
#irani
#read
#paper
#dataset
@nlp_stuff
این نوزده نفر اومدند زحمت کشیدند و دیتاست NLU فارسی درست کردند که برای اولین بار بتونیم یک بنچمارک در این زمینه داشته باشیم و مدلها را مقایسه کنیم. سایز بعضی از قسمتهاش مثل پرسش و پاسخ کمه (۵۷۵ تا) اما واقعا شروع خیلی خوبیه. روش مدل خودشون را هم ارائه کردند. این دیتاست شامل ایناست:
Textual Entailment
Query Paraphrasing
Reading Comprehension
Multiple-Choice QA
Machine Translation
Sentiment Analysis
بعضی از ایدهها و منابعشون خیلی خیلی قشنگ بود. وقت و انرژی گذاشتند و لیبل زدند. دمشون گرم.
لینک مقاله و گیتشون در ادامه آوردیم. استار بدید حتما:
https://github.com/persiannlp/parsinlu
https://arxiv.org/pdf/2012.06154.pdf
پ.ن. اگر میخواهید اسمتون بمونه، شروع کنید دیتاست متنی فارسی درست کنید.
#irani
#read
#paper
#dataset
@nlp_stuff