این لینک مدل word2vec skip-gram را به صورت خیلی خوب و مختصر توضیح میده. این مدل یکی از معروفترین روشهای تبدیل واژه به برداره (embedding).
http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/
#read
#blog
@nlp_stuff
http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/
#read
#blog
@nlp_stuff
برادرمون اومده مدل زبانی GPT2 رو روی کتاب تاملات مارکوس آئورلیوس آموزش داده، نتیجه این شده که مدل شروع به تولید متنهای فلسفی تاریخی میکنه. میتونید از هاب هاگینگ فیس دانلودش کنین لذت ببرید.
https://mobile.twitter.com/mrm8488/status/1263519187496054788
#read
#twitter
@nlp_stuff
https://mobile.twitter.com/mrm8488/status/1263519187496054788
#read
@nlp_stuff
Twitter
Manu Romero
If you like #History, #Philosophy and #AI (#NLP) I have fine tuned distil #GPT-2 on Meditations - Marco Aurelio. You can find the model on @huggingface hub and ask about the meaning of life (for example)
بالاخره huggingface 🤗 مدل reformer رو هم به مدلهای تحت پشتیبانیاش اضافه کرد! به طور مختصر و مفید reformer یک نوع transformer ای هستش که توش یک سری تکنیک زدن که شما میتونید حتی رشتههایی به طول ۱۰۰ هزار توکن رو هم بدون ترس از کم آوردن حافظه پردازش کنید (مطلبی که نقطه ضعف transformer های عادی بود )
https://twitter.com/huggingface/status/1263850138595987457
#link
#fresh
@nlp_stuff
https://twitter.com/huggingface/status/1263850138595987457
#link
#fresh
@nlp_stuff
Twitter
Hugging Face
Long-range sequence modeling meets 🤗 transformers! We are happy to officially release Reformer, a transformer that can process sequences as long as 500.000 tokens from @GoogleAI. Thanks a million, Nikita Kitaev and @lukaszkaiser! Try it out here: https:/…
NLP stuff
بالاخره huggingface 🤗 مدل reformer رو هم به مدلهای تحت پشتیبانیاش اضافه کرد! به طور مختصر و مفید reformer یک نوع transformer ای هستش که توش یک سری تکنیک زدن که شما میتونید حتی رشتههایی به طول ۱۰۰ هزار توکن رو هم بدون ترس از کم آوردن حافظه پردازش کنید (مطلبی…
اگر علاقهمند شدید میتونید پیپر reformer رو هم بخونید و از پیچیدگی درونش (مثل استفاده از hash برای محاسبه سریعتر و کم حافظهتر attention) لذت ببرید!
https://arxiv.org/abs/2001.04451
@nlp_stuff
https://arxiv.org/abs/2001.04451
@nlp_stuff
سایت paperwithcode جایی هستش که شما میتونید هم از آخرین پیپرهای trend روز پژوهشهای زمینه یادگیری ماشین مطلع بشین و هم این که کلی تسک رو براتون آورده و میتونید به تمیزی ببنید که واسه هر تسکی چه پیپرهایی ارائه شده و عملکردهر کدوم در مقایسه با هم چه شکلی بوده
https://paperswithcode.com/
https://paperswithcode.com/area/natural-language-processing
#link
@nlp_stuff
https://paperswithcode.com/
https://paperswithcode.com/area/natural-language-processing
#link
@nlp_stuff
Paperswithcode
Papers with Code - The latest in Machine Learning
Papers With Code highlights trending Machine Learning research and the code to implement it.
اولین برت فارسی بالاخره آمد!
https://twitter.com/hooshvare/status/1265644110838407169?s=20
https://github.com/hooshvare/parsbert
https://arxiv.org/pdf/2005.12515.pdf
#fresh
#irani
@nlp_stuff
https://twitter.com/hooshvare/status/1265644110838407169?s=20
https://github.com/hooshvare/parsbert
https://arxiv.org/pdf/2005.12515.pdf
#fresh
#irani
@nlp_stuff
Twitter
Hooshvare Team A.I.
🇮🇷 We are happy to announce that #BERT for the Persian Language (#ParsBERT) is here! https://t.co/JYRcDH1oZs. You can find the model on @huggingface checkout our repo https://t.co/w89FF6ckGP. Thanks to @m3hrdadfi @MGharachorloo @marziehphi @mmanthouri @hooshvare
خدمتی دیگر از huggingface 🤗؛
این جا میتونید راحت برید دیتاستهای تسکهای nlp رو بگردین و کند و کاو کنید و خلاصه کیف کنید!
تازه امکان load این دیتاستهای مختلف رو هم به صورت متمرکز و یکپارچه بهتون میده.
https://huggingface.co/nlp/viewer/
#link
#fresh
@nlp_stuff
این جا میتونید راحت برید دیتاستهای تسکهای nlp رو بگردین و کند و کاو کنید و خلاصه کیف کنید!
تازه امکان load این دیتاستهای مختلف رو هم به صورت متمرکز و یکپارچه بهتون میده.
https://huggingface.co/nlp/viewer/
#link
#fresh
@nlp_stuff
این دوره کاملا مینیمال و جمع و جوره که میتونه شروع خوبی باشه. دانش و مهارت پیش زمینهی زیادی هم لازم نداره ولی میتونه در یک سری مفاهیم و مهارتها کمککننده باشه و یه جورایی دستتون را تنسورفلویی و دیتایی بکنه. کدهاش هم در گیتهاب موجوده.
https://www.coursera.org/learn/natural-language-processing-tensorflow/home/welcome
https://github.com/lmoroney/dlaicourse/tree/master/TensorFlow%20In%20Practice/Course%203%20-%20NLP
در ضمن ویدیوهایی با مفاهیم و کدهای مشابه با این دوره و از همین مدرس را در یوتیوب با نام “Natural Language Processing-NLP Zero to Hero” میتونید ببینید:
https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvwLbzbnKJ59NkZvQAW9wLbx&index=1
#coach
#course
@nlp_stuff
https://www.coursera.org/learn/natural-language-processing-tensorflow/home/welcome
https://github.com/lmoroney/dlaicourse/tree/master/TensorFlow%20In%20Practice/Course%203%20-%20NLP
در ضمن ویدیوهایی با مفاهیم و کدهای مشابه با این دوره و از همین مدرس را در یوتیوب با نام “Natural Language Processing-NLP Zero to Hero” میتونید ببینید:
https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvwLbzbnKJ59NkZvQAW9wLbx&index=1
#coach
#course
@nlp_stuff
Coursera
Coursera | Online Courses & Credentials From Top Educators. Join for Free | Coursera
Learn online and earn valuable credentials from top universities like Yale, Michigan, Stanford, and leading companies like Google and IBM. Join Coursera for free and transform your career with degrees, certificates, Specializations, & MOOCs in data science…
یکی از سایتهای خوب برای پیدا کردن مقالههای جدید این سایته:
https://deeplearn.org
منبعش مقالههای arxiv.org و توییتر و ردیته. امکاناتی مثل مانیتور کردن و دستهبندی موضوعی هم میده.
یکی از موضوعاتش هم به اسم language است که مقالههای جدید حوزه پردازش زبان طبیعی اونجاست.
سایتهای تمیز مشابهی که اینکارو میکنند:
https://semanticscholar.org/
http://arxiv-sanity.com/
این هم آدرس ریپو این پروژهست که داداشمون کل کد سایت رو روی گیتهاب گذاشته. استار بدید که لذتشو ببره.
https://github.com/zomux/dlmonitor
خلاصه که سعی کنید مثل حرفهایها ترندهای روز رو زیر نظر داشته باشید.
#link
#tool
@nlp_stuff
https://deeplearn.org
منبعش مقالههای arxiv.org و توییتر و ردیته. امکاناتی مثل مانیتور کردن و دستهبندی موضوعی هم میده.
یکی از موضوعاتش هم به اسم language است که مقالههای جدید حوزه پردازش زبان طبیعی اونجاست.
سایتهای تمیز مشابهی که اینکارو میکنند:
https://semanticscholar.org/
http://arxiv-sanity.com/
این هم آدرس ریپو این پروژهست که داداشمون کل کد سایت رو روی گیتهاب گذاشته. استار بدید که لذتشو ببره.
https://github.com/zomux/dlmonitor
خلاصه که سعی کنید مثل حرفهایها ترندهای روز رو زیر نظر داشته باشید.
#link
#tool
@nlp_stuff
این ابزارها در پیشپردازش متون فارسی میتونند بهتون کمک کنند.
https://github.com/ICTRC/Parsivar
https://github.com/sobhe/hazm
https://github.com/ishto7/persianutils
https://github.com/kharazi/persian-stopwords
طبق بررسی ما پارسیوار (لینک اول) از بقیه بهتره. خیلی خوبه ولی قطعا هنوز هم خیلی جای تکمیل شدن داره.
لینک دوم هضمه که معروفه.
لینک سوم یک کتابخونه دیگهست که چند تا کار باحال هم انجام میده. گذاشتیمش که کلکسیون تکمیل باشه!
لینک آخر هم یه لیست از ایستواژههای فارسیه. اگر خواستید استفاده کنید، حتما یه بار کلشو خودتون نگاه کنید. بعضیهاش مثل واژهی «امیدوارند» به نظر ایستواژه نیست.
استار بدید که لذتشو ببرند.
#tool
#irani
@nlp_stuff
https://github.com/ICTRC/Parsivar
https://github.com/sobhe/hazm
https://github.com/ishto7/persianutils
https://github.com/kharazi/persian-stopwords
طبق بررسی ما پارسیوار (لینک اول) از بقیه بهتره. خیلی خوبه ولی قطعا هنوز هم خیلی جای تکمیل شدن داره.
لینک دوم هضمه که معروفه.
لینک سوم یک کتابخونه دیگهست که چند تا کار باحال هم انجام میده. گذاشتیمش که کلکسیون تکمیل باشه!
لینک آخر هم یه لیست از ایستواژههای فارسیه. اگر خواستید استفاده کنید، حتما یه بار کلشو خودتون نگاه کنید. بعضیهاش مثل واژهی «امیدوارند» به نظر ایستواژه نیست.
استار بدید که لذتشو ببرند.
#tool
#irani
@nlp_stuff
این لینک یک مبحث بسیار جذاب به اسم zero shot classification را توضیح داده.
یعنی شما مدلی رو روی تسک دیگهای مثل تشخیص قطبیت یا مدل زبانی آموزش بدید و بعدش بدون هیچ تغییری (حتی فاین تیون) ازش برای یک تسک دیگه مثل کلاسیفیکیشن جواب بگیری!! شاید به نظرتون این حرف کاملا غلط بیاد ولی در کمال ناباوری داره جواب میگیره!
ایدههایی که توضیح داده خیلی قشنگند حقیقتا.
https://amitness.com/2020/05/zero-shot-text-classification/
از این داداشمون قبلا هم پست گذاشتیم:
https://www.tg-me.com/nlp_stuff/5
بلاگ یا توییترش (https://twitter.com/amitness) را دنبال کنید. خیلی خوبه.
#read
#blog
@nlp_stuff
یعنی شما مدلی رو روی تسک دیگهای مثل تشخیص قطبیت یا مدل زبانی آموزش بدید و بعدش بدون هیچ تغییری (حتی فاین تیون) ازش برای یک تسک دیگه مثل کلاسیفیکیشن جواب بگیری!! شاید به نظرتون این حرف کاملا غلط بیاد ولی در کمال ناباوری داره جواب میگیره!
ایدههایی که توضیح داده خیلی قشنگند حقیقتا.
https://amitness.com/2020/05/zero-shot-text-classification/
از این داداشمون قبلا هم پست گذاشتیم:
https://www.tg-me.com/nlp_stuff/5
بلاگ یا توییترش (https://twitter.com/amitness) را دنبال کنید. خیلی خوبه.
#read
#blog
@nlp_stuff
اگر دنبال یک نقطه شروع خوب برای مسیر یادگیری ماشین لرنینگ یا دیپ لرنینگ هستید، شدیداً ویرایش دوم این کتاب را توصیه میکنیم.
هم متن روان و خوبی داره و هم نمونه کدهای زیادی داره و هم مفاهیم را به صورت خوبی توضیح داده. نه فصل اولش ماشین لرنینگ یاد میده و ده فصل بعدی دیپ لرنینگ.
اگر هم مفاهیم ماشین لرنینگ و الگوریتمهاش را بلدید، برای پردازش زبان طبیعی این فصلها از کتاب، شما را خیلی سریع وارد بازی میکنند:
۱۰, ۱۱, ۱۲, ۱۳, ۱۵, ۱۶
هر چند توصیه خود نویسندهی کتاب هم اینه که از ابتدای کتاب شروع کنید و کدهاش رو حتما حداقل یک بار خودتون بزنید.
پ.ن. تشکر فراوان از دکتر پیبراه و مهندس سینا شیخالاسلامی که چند سال پیش این کتاب را بهمون معرفی کردند.
https://www.amazon.com/Hands-Machine-Learning-Scikit-Learn-TensorFlow/dp/1492032646
#coach
#book
@nlp_stuff
هم متن روان و خوبی داره و هم نمونه کدهای زیادی داره و هم مفاهیم را به صورت خوبی توضیح داده. نه فصل اولش ماشین لرنینگ یاد میده و ده فصل بعدی دیپ لرنینگ.
اگر هم مفاهیم ماشین لرنینگ و الگوریتمهاش را بلدید، برای پردازش زبان طبیعی این فصلها از کتاب، شما را خیلی سریع وارد بازی میکنند:
۱۰, ۱۱, ۱۲, ۱۳, ۱۵, ۱۶
هر چند توصیه خود نویسندهی کتاب هم اینه که از ابتدای کتاب شروع کنید و کدهاش رو حتما حداقل یک بار خودتون بزنید.
پ.ن. تشکر فراوان از دکتر پیبراه و مهندس سینا شیخالاسلامی که چند سال پیش این کتاب را بهمون معرفی کردند.
https://www.amazon.com/Hands-Machine-Learning-Scikit-Learn-TensorFlow/dp/1492032646
#coach
#book
@nlp_stuff
NLP stuff
اولین برت فارسی بالاخره آمد! https://twitter.com/hooshvare/status/1265644110838407169?s=20 https://github.com/hooshvare/parsbert https://arxiv.org/pdf/2005.12515.pdf #fresh #irani @nlp_stuff
برید به لینک زیر و با پارسبرت از تیم هوشواره کیف کنید. عملکرد خیلی خوبی داره.
یک دموی خیلی خوب از چهار تا تسک NER, Sentiment Analysis, Text classification, Text Generation به صورت گرافیکی موجوده. طبیعتا با زدن دکمه Analyze بر روی متنی که در کادر کپی شده اجرا میشه.
دمشون گرم. حتما در کانالشون (@HooshvareTeam) عضو بشید که از مطالب خوبشون استفاده کنید.
http://lab.hooshvare.com
#link
@nlp_stuff
یک دموی خیلی خوب از چهار تا تسک NER, Sentiment Analysis, Text classification, Text Generation به صورت گرافیکی موجوده. طبیعتا با زدن دکمه Analyze بر روی متنی که در کادر کپی شده اجرا میشه.
دمشون گرم. حتما در کانالشون (@HooshvareTeam) عضو بشید که از مطالب خوبشون استفاده کنید.
http://lab.hooshvare.com
#link
@nlp_stuff
خلاصهی تمام مدلهایی که در کتابخانه ترنسفورمر موجوده در لینک زیر اومده. واسه شروع آشنایی با این کتابخونهی خفن میتونه راه خوبی باشه.
سعی کنید یک دور هر جوری شده کل این لینک را مطالعه کنید. اگر هم حجم کلمات و مفاهیم ناآشنای متن براتون زیاده، نگران نباشید.
قصد داریم خرد خرد شروع کنیم و برای بعضی از مدلهاش مطلب بگذاریم.
https://huggingface.co/docs/transformers/main/en/model_summary
در توییتر(https://twitter.com/huggingface) دنبالشون کنید. خیلی چیزها یاد میگیرید.
#read
#blog
@nlp_stuff
سعی کنید یک دور هر جوری شده کل این لینک را مطالعه کنید. اگر هم حجم کلمات و مفاهیم ناآشنای متن براتون زیاده، نگران نباشید.
قصد داریم خرد خرد شروع کنیم و برای بعضی از مدلهاش مطلب بگذاریم.
https://huggingface.co/docs/transformers/main/en/model_summary
در توییتر(https://twitter.com/huggingface) دنبالشون کنید. خیلی چیزها یاد میگیرید.
#read
#blog
@nlp_stuff
برید به این لینک و آمار و ارقام کنفرانس ACL2020 را ببینید.
این کنفرانس یکی از معتبرترین کنفرانسهای پردازش زبان طبیعیه.
اینجا میتونید برید ببینید برای هر کدوم از زیر شاخهها چند تا مقاله فرستاده شده و چند تا قبول شده.
یکی از فایدههای دنبال کردن این کنفرانسها خبردار شدن از ترندهای روز دنیا در هر کدام از زمینههاست.
https://acl2020.org/blog/general-conference-statistics/
#link
@nlp_stuff
این کنفرانس یکی از معتبرترین کنفرانسهای پردازش زبان طبیعیه.
اینجا میتونید برید ببینید برای هر کدوم از زیر شاخهها چند تا مقاله فرستاده شده و چند تا قبول شده.
یکی از فایدههای دنبال کردن این کنفرانسها خبردار شدن از ترندهای روز دنیا در هر کدام از زمینههاست.
https://acl2020.org/blog/general-conference-statistics/
#link
@nlp_stuff
ما در ویرگول یه انتشارات به نام overfit ساختیم و دوست داریم فعلا مطالب در حوزهی پردازش زبان طبیعی را منتشر کنیم. اگر پست خوبی داشتید خبر بدید.
به عنوان اولین پست، یکی از معیارهای سنجش مدلهای زبانی به اسم perplexity (سرگشتگی) را توضیح دادیم.
لطفا نظر فراموش نشه.
https://virgool.io/overfit/معیار-سرگشتگی-perplexity-obyc9zkvwli2
#read
#blog
#overfit
@nlp_stuff
به عنوان اولین پست، یکی از معیارهای سنجش مدلهای زبانی به اسم perplexity (سرگشتگی) را توضیح دادیم.
لطفا نظر فراموش نشه.
https://virgool.io/overfit/معیار-سرگشتگی-perplexity-obyc9zkvwli2
#read
#blog
#overfit
@nlp_stuff
یک کورس خیلی خوب و بهروز که هنوز هم داره تکمیل میشه و تمام منابعش کاملا سخاوتمندانه در دسترس هستند:
Deep Learning (with PyTorch)
استاد این درس Yann LeCun (یکی از اسطورههای دیپ لرنینگ! میشناسیدش دیگه؟) و تدریسیارش Alfredo Canziani است:
https://atcold.github.io/pytorch-Deep-Learning/
https://www.youtube.com/playlist?list=PLLHTzKZzVU9eaEyErdV26ikyolxOsz6mq
#coach
#course
@nlp_stuff
Deep Learning (with PyTorch)
استاد این درس Yann LeCun (یکی از اسطورههای دیپ لرنینگ! میشناسیدش دیگه؟) و تدریسیارش Alfredo Canziani است:
https://atcold.github.io/pytorch-Deep-Learning/
https://www.youtube.com/playlist?list=PLLHTzKZzVU9eaEyErdV26ikyolxOsz6mq
#coach
#course
@nlp_stuff
هر چه قدر فکر کردیم دلمون نیومد از این توییت جالب علمی تخیلی هینتون (یکی دیگه از اسطورهها) بگذریم.
میگه که اگر بخوایم بر اساس عملکرد GPT3 تخمین بزنیم، احتمالا برای درست کردن یک مدل که بتونه به ما در مورد زندگی و جهان و کلا همه سوالاتمون پاسخ بده نیاز به مدلی با سایز ۴۳۹۸ میلیارد پارامتر داریم. (سایز GPT3 حدود ۱۷۵ میلیارد پارامتر است)
#twitter
@nlp_stuff
میگه که اگر بخوایم بر اساس عملکرد GPT3 تخمین بزنیم، احتمالا برای درست کردن یک مدل که بتونه به ما در مورد زندگی و جهان و کلا همه سوالاتمون پاسخ بده نیاز به مدلی با سایز ۴۳۹۸ میلیارد پارامتر داریم. (سایز GPT3 حدود ۱۷۵ میلیارد پارامتر است)
@nlp_stuff
به عنوان یه نیمپست:
آمار و ارقام و مقالههای کنفرانس ICML 2020 که یکی از بهترین کنفرانسهای ماشین لرنینگه در لینک زیر به زیبایی آورده شده.
سعی کنید حتما یه نگاهی بندازید.
https://conference-viz.now.sh/ICML
#link
@nlp_stuff
آمار و ارقام و مقالههای کنفرانس ICML 2020 که یکی از بهترین کنفرانسهای ماشین لرنینگه در لینک زیر به زیبایی آورده شده.
سعی کنید حتما یه نگاهی بندازید.
https://conference-viz.now.sh/ICML
#link
@nlp_stuff
در این ویدیو تحقیقات و پیشرفتهای تا سال ۲۰۲۰ در حوزه دیپ لرنینگ و یادگیری تقویتی (که لیستش در عکس آورده شده) به صورت خیلی جمع و جور مرور شدند.
ویدیو مال شش ماه پیشه ولی بخاطر بررسی گسترده و متنوعی که داره میتونه یک مرور و معرفی سریع از زمینههای مختلف براتون داشته باشه.
https://www.youtube.com/watch?v=0VH1Lim8gL8
#link
@nlp_stuff
ویدیو مال شش ماه پیشه ولی بخاطر بررسی گسترده و متنوعی که داره میتونه یک مرور و معرفی سریع از زمینههای مختلف براتون داشته باشه.
https://www.youtube.com/watch?v=0VH1Lim8gL8
#link
@nlp_stuff