Telegram Web Link
This media is not supported in your browser
VIEW IN TELEGRAM
توضیح ترنسفورمرها

آقای العمار در این دو پست برامون نحوه کارکرد مدل‌های ترنسفورمر را به صورت کامل و تصویری توضیح داده. در پست اول خود نحوه‌ی کارکرد ترنسفورمر را توضیح داده که ما هم در یک پست (https://www.tg-me.com/nlp_stuff/78) قبلا توضیح دادیم. در پست دوم روی ترنسفورمرهای مولد مثل جی‌پی‌تی-۲ تمرکز کرده.
بلاگشو دنبالش کنید! ازش یاد می‌گیرید.

https://jalammar.github.io/illustrated-transformer/

https://jalammar.github.io/explaining-transformers/

#read
#blog

@nlp_stuff
پردازش زبان طبیعی به کجا می‌رود؟

در روزگاری که شاهد به‌به و چه‌چه همگان از مدل‌هایی همچون برت و جی‌پی‌تی-۳ هستیم، این مقاله‌ی درخشان از کنفرانس EMNLP 2020 پا را فراتر گذاشته و نقشه‌ی راه متفاوتی برای زمینه‌ی «یادگیری زبان» ارائه داده است.
مقاله تحقق یادگیری زبان را مشروط به فتح پنج قلمرو می‌داند:

1. Corpora and Representations
2. The Written World
3. The World of Sights and Sounds
4. Embodiment and Action
5. The Social World

قلمرو اول را مانند یادگیری زبان از روی دیکشنری توصیف می‌کند.
قلمرو دوم (که تحت فرمانروایی جی‌پی‌تی-۳ و برت است) همچون یادگیری زبان از روی رادیو می‌داند و راه رسیدن به درک عمیق‌تر را گذر از داده‌ی متنی صرف معرفی می‌کند و پیشنهاد می‌کند تا در قلمرو سوم، یادگیری زبان توام با ادراک داده‌های غیرمتنی همچون تصویر و صدا شود.
قلمرو چهارم شامل تعامل با محیط، انجام عمل و دریافت عواقب آن است.
و در قلمرو پنجم، شکل‌گیری شخصیت و منظومه‌ی فکری عامل هوشمند مصنوعی را در گرو تعامل اجتماعی به حساب می‌آورد.

https://www.aclweb.org/anthology/2020.emnlp-main.703/

#read
#paper

@nlp_stuff
جی‌پی‌تی-۲ فارسی آمد!

یادتونه که چند وقت پیش تو این پست (https://www.tg-me.com/nlp_stuff/56) بهتون بلبل زبان را نشون دادیم؟ حالا به لطف توسعه‌دهنده این مدل، می‌تونید اون رو به صورت اوپن سورس استفاده کنید! برید حالش رو ببرید!

https://huggingface.co/bolbolzaban/gpt2-persian

ضمنا در این پست، می‌تونید توضیحات جالبی رو راجع به این مدل بخونید.

https://medium.com/@khashei/a-not-so-dangerous-ai-in-the-persian-language-39172a641c84

#fresh
#irani
#read
#blog

@nlp_stuff
گلچینشاد NeurIPS2020

ده تا از بهترین مقاله‌های مرتبط با پردازش زبان طبیعی که در کنفرانس NeurIPS2020 ارائه شدند، در این پست آورده شده. حداقل یه نگاهی بهشون بندازید خوبه.

https://www.topbots.com/neurips-2020-nlp-research-papers/

#read
#blog

@nlp_stuff
حمله‌ی OpenAI به قلمرو MultiModal

شرکت OpenAI (اگر نمی‌شناسیدش، مدل‌های جی‌پی‌تی را این شرکت داده) سه‌شنبه شب از دو مدل CLIP و DALL-E رونمایی کرد.
به صورت ساده و مختصر؛ مدل CLIP یک عکس و چند کلاس می‌گیرد و به صورت zero shot تشخیص می‌دهد عکس متعلق به کدام کلاس است.
و مدل DALL-E یک ترنسفورمر با ۱۲ میلیارد پارامتر است که یک متن (کپشن) می‌گیرد و تصویری متناسب با متن را تولید می‌کند.
این دو بلاگ و ویدیو توضیحاتی راجع به این مدل‌ها دادند. درون بلاگ می‌توانید نمونه‌هایی از خروجی‌ها را ببینید.
قبلا در این پست (https://www.tg-me.com/nlp_stuff/108) مقاله‌ای را توضیح داده بودیم که گفته بود یکی از ترندهای بعدی، حوزه‌ی مولتی مودال (ترکیبی از حوزه‌های مختلف مثل تصویر و متن) خواهد بود.
نتایج حیرت‌انگیز و زبان قاصر از توصیف است!

http://openai.com/blog/clip/

https://openai.com/blog/dall-e/

https://www.youtube.com/watch?v=j4xgkjWlfL4

#fresh
#blog
#read

@nlp_stuff
یکی از تسک‌های اولیه و مهم در پردازش زبان طبیعی، تشخیص اسامی خاص یا همون NER است که یک مرحله مقدماتی برای خیلی از تسک‌های دیگه‌ست.
محمدمهدی برامون در این پست ویرگول، به صورت کامل از ابتدا تا انتهای این تسک (تعریف، مدل‌ها، دیتاست‌ها و ...) را توضیح داده. حتی اگر هیچ آشنایی با این موضوع نداشته باشید، این نوشتار براتون مباحث را به شکل نیکویی روشن می‌کنه. لطفا نظر بدید و با بقیه هم به اشتراک بذارید.

پ.ن. شما هم اگر پست خوبی در زمینه‌ی هوش مصنوعی و پردازش زبان دارید، به ما خبر بدید که در انتشارات اورفیت منتشر کنیم.

https://vrgl.ir/OvlJR

#read
#blog
#overfit

@nlp_stuff
شیرجه عمیق به دیپ لرنینگ

بر شما باد چسبیدن به این سایت برای یادگیری دیپ لرنینگ.
کتاب کامل و جامع، نوت‌بوک‌های پیاده‌سازی شده با چند فریمورک (NumPy/MXNet و PyTorch و TensorFlow)، کورس رایگان و به‌روز برای کتاب از ویژگی‌هاشه.
مخصوصا فصل‌های ۱۰، ۱۴ و ۱۵اش به افرادی که دیپ بلدند و دوست دارند در حوزه‌ی NLP وارد شن توصیه میشه. در فصل ۱۰ معماری اتنشن و ترنسفورمرها را توضیح دادند و در فصل ۱۴ و ۱۵ پیش‌پردازش، آموزش و فاین تیون کردن تسک‌های NLP را آوردند.
خلاصه از این بهتر بعید می‌دونم چیزی پیدا کنید؛ پس تنبلی و وسواس را کنار بذارید و شروع کنید.


http://d2l.ai


#coach
#course
#book

@nlp_stuff
و همچنان اندر جادوی CLIP

مطلب جالبی راجع به مدل کلیپ (https://www.tg-me.com/nlp_stuff/114) اینه که در حین آموزش یک سری تسک تصویری دیگه مثل OCR و Action Recognition را هم به صورت zero shot یاد گرفته.
قبلا مدل‌های جی‌پی‌تی هم در مورد تسک‌های زبانی همینطور بودند.
برای مثال در بخش ۶ (Limitations) مقاله‌شون اومدند گفتند که ما هیچ تصویری از MNIST در دیتامون نداشتیم ولی تونستیم به صورت zero shot دقت ۸۸ (که البته دقت خوبی نیست) را روی این دیتاست بدست بیاریم!
در این لینک می‌تونید تصویر دلخواه‌تون را به صورت zero shot دسته‌بندی کنید:

https://clip.kiri.ai

اینم لینک مقاله‌اش:

https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From_Natural_Language_Supervision.pdf

#read
#paper

@nlp_stuff
هاگینگ فیس و AutoNLP

هاگینگ فیس یک کتابخونه‌ی AutoNLP داره آماده می‌کنه که به صورت خودکار مدل، فاین تیون کردن روی دیتا و دیپلویمنت مدل را برای تسک‌های مختلفی مثل classification, NER, summarization, translation به راحتی خوردن یک لیوان آب سالم می‌کنه و قراره در سه ماهه‌ی اول ۲۰۲۱ release بشه.
لینک پایین را هم دادند که ملت ثبت نام کنند و بگن که برای چه زبان و تسکی و اینا می‌خوان استفاده کنند که به نسخه بتا بهشون دسترسی بده.

https://huggingface.typeform.com/to/FAtsVfbg

#news

@nlp_stuff
موضوعات برجسته تحقیقاتی در ۲۰۲۰ از نظر رودر

برادر رودر در این پست راجع به ریسرچ‌های انجام‌شده در زمینه یادگیری ماشین و پردازش زبان در سال ۲۰۲۰ صحبت کردن. چیزایی مثل این که چه اتفاقاتی در این حوزه‌ها افتاده و گام بعدی در سال ۲۰۲۱ چیه و اینا. موضوعات مورد بحث تو این پست به صورت تیتروار ایناست:
Scaling up—and down
Retrieval augmentation
Few-shot learning
Contrastive learning
Evaluation beyond accuracy
Practical concerns of large LMs
Multilinguality
Image Transformers
ML for science
Reinforcement learning

این مطلب خیلی تازه‌ست و مال همین امروزه (۱۹ ژانویه)؛ پس داغ داغ بخونید تا بیات نشده.

https://ruder.io/research-highlights-2020/

#read
#blog

@nlp_stuff
This media is not supported in your browser
VIEW IN TELEGRAM
اکستنشن ویدیوی arxiv

برادر آمیت برادری را در حقمون تکمیل کرده و یه اکستنشن روی کروم زده که از مقاله‌ی arxiv لینک میده به ویدیوی ارائه‌ی مقاله.
لینک اکستنشن، گیت و لیست مقاله‌هایی که ویدیوشون را اضافه کرده در ادامه آوردیم:

https://chrome.google.com/webstore/detail/papers-with-video/aflnhgmklenfljibnfellgkmdpmmoekf

https://github.com/amitness/papers-with-video

https://gist.github.com/amitness/9e5ad24ab963785daca41e2c4cfa9a82

#tool

@nlp_stuff
مصورسازی نحوه انتخاب کلمه توسط ترنسفورمر

آقای العمار در این قسمت با ویژوالایز کردن حالت‌های نهان داخل ترنسفورمر نشون می‌ده که فرآیند انتخاب یک کلمه در ترنسفورمر، لایه به لایه چه شکلیه و چطور رتبه کلمه نهایی بین بقیه کلمات در مسیر لایه‌ها کاهش پیدا می‌کنه. به قول خودش می‌خواد فرآیند فکری ترنسفورمرها را بررسی کنه. یکی دو تا نوت‌بوک هم برامون گذشته اگر حوصله داشتیم باهاش ور بریم.
انصافا توضیحات و ویژوالایزهایی که تو این قسمت کرده خیلی جذابن! اگر گیر درس و امتحان نیستید، از دستشون ندید.
قبلا هم از این یکی داداشمون پست (https://www.tg-me.com/nlp_stuff/106) گذاشتیم.

https://jalammar.github.io/hidden-states/

پ.ن. برای دوستاتون که به NLP یا ویژوالیزیشن علاقه‌مندند بفرستید که کیف کنند.

#read
#blog

@nlp_stuff
آنچه بنجیو در خشت خام می‌بیند

یاشوا بنجیو که (انصافا) یکی از خدایگان هوش مصنوعی و دیپ لرنینگ است، از یکی دو سال پیش به تدریج در تاک‌های مختلف (مثلا اینجا و اینجا و اینجا و اینجا) ایده‌های خود برای پیشرفت‌ آینده هوش مصنوعی را شرح داده است. ایده‌های او بر بناکردن inductive biasهای جدیدی (به طور خیلی خلاصه و مفید inductive bias همان فرضیاتی که یک الگوریتم یادگیری قبل از حل مساله در مورد آن در نظر می‌گیرد و راه حلش روی آن فرض بنا شده است، برای مثال وقتی ما فرض می‌کنیم که معنای یک تیکه از تصویر می‌تواند از تیکه‌های مجاورش دریافت شود این فرض ما منجر به بناشدن شبکه‌های cnnای می‌شود) برای دیپ لرنینگ حول کلیدواژه مهم out of distribution generalization (تا الان بدین شکل بوده که مدل ما یک توزیع از داده‌های آموزشی در می‌آورده و نهایتا با کمی تغییر دنبال این توزیع در داده‌های تست بوده است. اما شیخ ما اعتقاد دارد بایستی از این به بعد تغییرات گسترده در داده‌های تست نسبت به توزیع داده‌های آموزش را هم بتواند تحمل کند. مثلا باید یادگرفتن را یادبگیرد تا اگر توزیع محیطش تغییری هم کرد بتواند خودش را با آن وفق دهد!) بنا شده است.
به طور مختصر و مفید؛ پیر ما معتقد است که تسک‌هایی را که مغز انسان انجام می‌دهد می‌توان به دسته سیستم ۱ و سیستم ۲ تقسیم ‌بندی کرد. تسک‌های سیستم ۱ مسائلی هستند که به صورت ناخودآگاه و البته سریع و بدون نیاز به تفکر قابل انجام توسط مغز هستند مثلا تشخیص خر از پنگوئن، تشخیص ناسزا از غیرناسزا و ... ، حال ان که تسک‌های سیستم ۲ بایستی با توجه و برنامه‌ریزی و البته آگاهانه انجام شوند مثلا رانندگی کردن.
بنجیو می‌گوید که توانایی فعلی دیپ لرنینگ در انجام دادن تسک‌های سیستم ۱ است و در سیستم ۲ توفیقی هنوز ندارد. در ادامه بنجیو پیشنهاد می‌دهد که آینده هوش مصنوعی درگیر با انجام تسک‌های سیستم ۲ و همچنین همان کلیدواژه out of distribution generalization خواهد بود.

بر اساس همین ایده اولیه، بنجیو تعدادی ایده برای الهام‌گیری و شکستن بن‌بست فعلی پیشرفت دیپ لرنینگ پیشنهاد می‌کند که از آن‌ها می‌توان به بررسی مسائل multi agent، خلق شبکه‌های عصبی با ویژگی ماژولاریزیشن نظیر RIMها، دیدن مسائل از زاویه گراف‌های علی (causal) متغیر‌ها، متالرنینگ و ... اشاره کرد.

لینک مقاله‌‌اش:

https://arxiv.org/pdf/2011.15091.pdf

پ.ن. لطفا کانال را به کسایی که هوش مصنوعی دوست دارند، معرفی کنید! ممنون.

#paper
#read

@nlp_stuff
سایت paperswithcode (که توصیه می‌کنیم توی این سایت بخوابید) اومده مقاله‌های قبول شده‌ی ICLR 2021 را به همراه کدشون گذاشته و می‌تونید با استفاده از تسک و نویسنده و keyword فیلتر کنید.

https://paperswithcode.com/conference/iclr-2021-1

#link

@nlp_stuff
This media is not supported in your browser
VIEW IN TELEGRAM
توضیح خلاصه‌ی ViT

در چند روز اخیر سیلی عظیمی از مدل‌های ترنسفورمری برای vision به راه افتاده‌اند. اگر هنوز مقاله An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale را نخوندید و حوصله خوندن پیپرش را هم هنوز ندارید، ده دقیقه این پست را مشاهده کنید تا بفهمید چه خبره و از قافله بعدی عقب نمونید.

https://theaisummer.com/vision-transformer/

پ.ن. قبلا این مقاله را در این پست (https://www.tg-me.com/nlp_stuff/82) معرفی کرده بودیم.
#read
#blog

@nlp_stuff
طوفان برت، speech را هم در نوردید!


مدل
‌های پیشرو در مبحث بازشناسی گفتار (تبدیل گفتار به متن) مثل این مقاله تا به امروز معمولا برای اینکه بازشناسی به صورت انتها به انتها انجام شود، از پشته‌ای از لایه‌های کانولوشنی برای مدلسازی گفتار استفاده می‌کردند و مدل زبانی به عنوان بخشی از تابع هزینه در نظر گرفته می‌شد؛ به این صورت که لایه آخر به ازای هر حرف در دیکشنری یه امتیاز برمی‌گردوند و این امتیاز با امتیاز مدل زبانی ترکیب می‌شد و حرف بازشناسی‌شده معین می‌شد.
حالا داداشای تایوانی‌مون در مقاله‌ی زیر اومدند و گفتند که اصل داستان مدل زبانیه و مدلسازی صوت، نمک قضیه ست! میشه مدل زبانی را به صورت main stream هم در تسک آورد یعنی بخشی از معماری شبکه باشد و نه فقط در تابع هزینه! چه طوری؟ با برت.
نتیجه اینکه مدل زبانی، تعداد انتخاب در هر لحظه رو به شدت کاهش میده و مدل گفتار میشه یه شبکه ساده که قراره از بین اون انتخاب‌های بسیار کوچیک حالا انتخاب کنه. فاین تیون کردنش هم خیلی راحت‌تره.
خلاصه اینکه ماهیت تسک انتها به انتهاتر و هلو شده! این اتفاق بار دیگه داره جایگاه مهم مدل زبانی را حتی در مباحث گفتار پردازی ثابت می‌کنه!



لینک مقاله:
https://arxiv.org/pdf/2102.00291.pdf

#paper
#read
.
@nlp_stuff
2025/07/07 15:12:20
Back to Top
HTML Embed Code: