Telegram Web Link
Channel created
بسم الله الرحمن الرحیم

اینجا قصد داریم مطالب و لینک‌های به‌دردبخور برای هوش مصنوعی و پردازش زبان طبیعی را منتشر کنیم.

شکرشکن شوند همه طوطیان هند
زین قند پارسی که به بنگاله می‌رود

@nlp_stuff
اگر دنبال یک نقشه‌ی راه و چک‌لیست هستید، این لینک می‌تونه خیلی کمک‌کننده باشه.

https://github.com/amitness/learning

#coach
#course
#book

@nlp_stuff
در این لینک روش‌های تولید و تقویت دیتا(data augmentation) در حوزه پردازش زبان طبیعی آورده شده.
لینک خیلی خوبیه.

https://amitness.com/2020/05/data-augmentation-for-nlp/

#read
#blog

@nlp_stuff
یکی از مراحل پیش‌پردازش متن Subword Tokenization است که مشکل پردازش و امبدینگ کلمات ناآشنا (که در پیکره نبودند) را که در Tokenization وجود دارد حل می‌کند.
یکی از بهترین الگوریتم‌ها برای این کار BPE(Byte Pair Encoding) است که در بهترین مدل‌های زبانی امروزی مثل GPT2 و LASER هم استفاده شده.
لینک پایین این الگوریتم را به خوبی توضیح داده و کد هم براش آورده:


https://towardsdatascience.com/byte-pair-encoding-the-dark-horse-of-modern-nlp-eb36c7df4f10

#read
#blog

@nlp_stuff
این لینک به صورت خیلی خوب و خلاصه اکثر روش‌های امبدینگ متن را یکجا آورده. شدیدا ارزش خوندن داره.


https://towardsdatascience.com/document-embedding-techniques-fed3e7a6a25d

#read
#blog

@nlp_stuff
2025/07/09 20:16:02
Back to Top
HTML Embed Code: