This media is not supported in your browser
VIEW IN TELEGRAM
توضیح ترنسفورمرها
آقای العمار در این دو پست برامون نحوه کارکرد مدلهای ترنسفورمر را به صورت کامل و تصویری توضیح داده. در پست اول خود نحوهی کارکرد ترنسفورمر را توضیح داده که ما هم در یک پست (https://www.tg-me.com/nlp_stuff/78) قبلا توضیح دادیم. در پست دوم روی ترنسفورمرهای مولد مثل جیپیتی-۲ تمرکز کرده.
بلاگشو دنبالش کنید! ازش یاد میگیرید.
https://jalammar.github.io/illustrated-transformer/
https://jalammar.github.io/explaining-transformers/
#read
#blog
@nlp_stuff
آقای العمار در این دو پست برامون نحوه کارکرد مدلهای ترنسفورمر را به صورت کامل و تصویری توضیح داده. در پست اول خود نحوهی کارکرد ترنسفورمر را توضیح داده که ما هم در یک پست (https://www.tg-me.com/nlp_stuff/78) قبلا توضیح دادیم. در پست دوم روی ترنسفورمرهای مولد مثل جیپیتی-۲ تمرکز کرده.
بلاگشو دنبالش کنید! ازش یاد میگیرید.
https://jalammar.github.io/illustrated-transformer/
https://jalammar.github.io/explaining-transformers/
#read
#blog
@nlp_stuff
پردازش زبان طبیعی به کجا میرود؟
در روزگاری که شاهد بهبه و چهچه همگان از مدلهایی همچون برت و جیپیتی-۳ هستیم، این مقالهی درخشان از کنفرانس EMNLP 2020 پا را فراتر گذاشته و نقشهی راه متفاوتی برای زمینهی «یادگیری زبان» ارائه داده است.
مقاله تحقق یادگیری زبان را مشروط به فتح پنج قلمرو میداند:
1. Corpora and Representations
2. The Written World
3. The World of Sights and Sounds
4. Embodiment and Action
5. The Social World
قلمرو اول را مانند یادگیری زبان از روی دیکشنری توصیف میکند.
قلمرو دوم (که تحت فرمانروایی جیپیتی-۳ و برت است) همچون یادگیری زبان از روی رادیو میداند و راه رسیدن به درک عمیقتر را گذر از دادهی متنی صرف معرفی میکند و پیشنهاد میکند تا در قلمرو سوم، یادگیری زبان توام با ادراک دادههای غیرمتنی همچون تصویر و صدا شود.
قلمرو چهارم شامل تعامل با محیط، انجام عمل و دریافت عواقب آن است.
و در قلمرو پنجم، شکلگیری شخصیت و منظومهی فکری عامل هوشمند مصنوعی را در گرو تعامل اجتماعی به حساب میآورد.
https://www.aclweb.org/anthology/2020.emnlp-main.703/
#read
#paper
@nlp_stuff
در روزگاری که شاهد بهبه و چهچه همگان از مدلهایی همچون برت و جیپیتی-۳ هستیم، این مقالهی درخشان از کنفرانس EMNLP 2020 پا را فراتر گذاشته و نقشهی راه متفاوتی برای زمینهی «یادگیری زبان» ارائه داده است.
مقاله تحقق یادگیری زبان را مشروط به فتح پنج قلمرو میداند:
1. Corpora and Representations
2. The Written World
3. The World of Sights and Sounds
4. Embodiment and Action
5. The Social World
قلمرو اول را مانند یادگیری زبان از روی دیکشنری توصیف میکند.
قلمرو دوم (که تحت فرمانروایی جیپیتی-۳ و برت است) همچون یادگیری زبان از روی رادیو میداند و راه رسیدن به درک عمیقتر را گذر از دادهی متنی صرف معرفی میکند و پیشنهاد میکند تا در قلمرو سوم، یادگیری زبان توام با ادراک دادههای غیرمتنی همچون تصویر و صدا شود.
قلمرو چهارم شامل تعامل با محیط، انجام عمل و دریافت عواقب آن است.
و در قلمرو پنجم، شکلگیری شخصیت و منظومهی فکری عامل هوشمند مصنوعی را در گرو تعامل اجتماعی به حساب میآورد.
https://www.aclweb.org/anthology/2020.emnlp-main.703/
#read
#paper
@nlp_stuff
جیپیتی-۲ فارسی آمد!
یادتونه که چند وقت پیش تو این پست (https://www.tg-me.com/nlp_stuff/56) بهتون بلبل زبان را نشون دادیم؟ حالا به لطف توسعهدهنده این مدل، میتونید اون رو به صورت اوپن سورس استفاده کنید! برید حالش رو ببرید!
https://huggingface.co/bolbolzaban/gpt2-persian
ضمنا در این پست، میتونید توضیحات جالبی رو راجع به این مدل بخونید.
https://medium.com/@khashei/a-not-so-dangerous-ai-in-the-persian-language-39172a641c84
#fresh
#irani
#read
#blog
@nlp_stuff
یادتونه که چند وقت پیش تو این پست (https://www.tg-me.com/nlp_stuff/56) بهتون بلبل زبان را نشون دادیم؟ حالا به لطف توسعهدهنده این مدل، میتونید اون رو به صورت اوپن سورس استفاده کنید! برید حالش رو ببرید!
https://huggingface.co/bolbolzaban/gpt2-persian
ضمنا در این پست، میتونید توضیحات جالبی رو راجع به این مدل بخونید.
https://medium.com/@khashei/a-not-so-dangerous-ai-in-the-persian-language-39172a641c84
#fresh
#irani
#read
#blog
@nlp_stuff
گلچین شاد NeurIPS2020
ده تا از بهترین مقالههای مرتبط با پردازش زبان طبیعی که در کنفرانس NeurIPS2020 ارائه شدند، در این پست آورده شده. حداقل یه نگاهی بهشون بندازید خوبه.
https://www.topbots.com/neurips-2020-nlp-research-papers/
#read
#blog
@nlp_stuff
ده تا از بهترین مقالههای مرتبط با پردازش زبان طبیعی که در کنفرانس NeurIPS2020 ارائه شدند، در این پست آورده شده. حداقل یه نگاهی بهشون بندازید خوبه.
https://www.topbots.com/neurips-2020-nlp-research-papers/
#read
#blog
@nlp_stuff
TOPBOTS
NeurIPS 2020: Key Research Papers in Natural Language Processing (NLP) & Conversational AI
Here are the most interesting NLP and conversational AI research papers introduced at NeurIPS 2020.
ماجرای NLP در ۲۰۲۰ای که گذشت
در آستانه سال نو میلادی، دیدن این پست راجع به اتفاقات و پیشرفتهای NLP در سال ۲۰۲۰ خالی از لطف نیست.
https://www.linkedin.com/pulse/natural-language-processing-2020-year-review-ivan-bilan/
#read
#blog
@nlp_stuff
در آستانه سال نو میلادی، دیدن این پست راجع به اتفاقات و پیشرفتهای NLP در سال ۲۰۲۰ خالی از لطف نیست.
https://www.linkedin.com/pulse/natural-language-processing-2020-year-review-ivan-bilan/
#read
#blog
@nlp_stuff
Linkedin
Natural Language Processing in 2020: The Year In Review
Preface 2020 was a pretty terrible year for humanity, and I hope you as a reader of this piece, have not been scarred too much by it. In the NLP realm, however, the year has given us quite a few significant advancements.
حملهی OpenAI به قلمرو MultiModal
شرکت OpenAI (اگر نمیشناسیدش، مدلهای جیپیتی را این شرکت داده) سهشنبه شب از دو مدل CLIP و DALL-E رونمایی کرد.
به صورت ساده و مختصر؛ مدل CLIP یک عکس و چند کلاس میگیرد و به صورت zero shot تشخیص میدهد عکس متعلق به کدام کلاس است.
و مدل DALL-E یک ترنسفورمر با ۱۲ میلیارد پارامتر است که یک متن (کپشن) میگیرد و تصویری متناسب با متن را تولید میکند.
این دو بلاگ و ویدیو توضیحاتی راجع به این مدلها دادند. درون بلاگ میتوانید نمونههایی از خروجیها را ببینید.
قبلا در این پست (https://www.tg-me.com/nlp_stuff/108) مقالهای را توضیح داده بودیم که گفته بود یکی از ترندهای بعدی، حوزهی مولتی مودال (ترکیبی از حوزههای مختلف مثل تصویر و متن) خواهد بود.
نتایج حیرتانگیز و زبان قاصر از توصیف است!
http://openai.com/blog/clip/
https://openai.com/blog/dall-e/
https://www.youtube.com/watch?v=j4xgkjWlfL4
#fresh
#blog
#read
@nlp_stuff
شرکت OpenAI (اگر نمیشناسیدش، مدلهای جیپیتی را این شرکت داده) سهشنبه شب از دو مدل CLIP و DALL-E رونمایی کرد.
به صورت ساده و مختصر؛ مدل CLIP یک عکس و چند کلاس میگیرد و به صورت zero shot تشخیص میدهد عکس متعلق به کدام کلاس است.
و مدل DALL-E یک ترنسفورمر با ۱۲ میلیارد پارامتر است که یک متن (کپشن) میگیرد و تصویری متناسب با متن را تولید میکند.
این دو بلاگ و ویدیو توضیحاتی راجع به این مدلها دادند. درون بلاگ میتوانید نمونههایی از خروجیها را ببینید.
قبلا در این پست (https://www.tg-me.com/nlp_stuff/108) مقالهای را توضیح داده بودیم که گفته بود یکی از ترندهای بعدی، حوزهی مولتی مودال (ترکیبی از حوزههای مختلف مثل تصویر و متن) خواهد بود.
نتایج حیرتانگیز و زبان قاصر از توصیف است!
http://openai.com/blog/clip/
https://openai.com/blog/dall-e/
https://www.youtube.com/watch?v=j4xgkjWlfL4
#fresh
#blog
#read
@nlp_stuff
یکی از تسکهای اولیه و مهم در پردازش زبان طبیعی، تشخیص اسامی خاص یا همون NER است که یک مرحله مقدماتی برای خیلی از تسکهای دیگهست.
محمدمهدی برامون در این پست ویرگول، به صورت کامل از ابتدا تا انتهای این تسک (تعریف، مدلها، دیتاستها و ...) را توضیح داده. حتی اگر هیچ آشنایی با این موضوع نداشته باشید، این نوشتار براتون مباحث را به شکل نیکویی روشن میکنه. لطفا نظر بدید و با بقیه هم به اشتراک بذارید.
پ.ن. شما هم اگر پست خوبی در زمینهی هوش مصنوعی و پردازش زبان دارید، به ما خبر بدید که در انتشارات اورفیت منتشر کنیم.
https://vrgl.ir/OvlJR
#read
#blog
#overfit
@nlp_stuff
محمدمهدی برامون در این پست ویرگول، به صورت کامل از ابتدا تا انتهای این تسک (تعریف، مدلها، دیتاستها و ...) را توضیح داده. حتی اگر هیچ آشنایی با این موضوع نداشته باشید، این نوشتار براتون مباحث را به شکل نیکویی روشن میکنه. لطفا نظر بدید و با بقیه هم به اشتراک بذارید.
پ.ن. شما هم اگر پست خوبی در زمینهی هوش مصنوعی و پردازش زبان دارید، به ما خبر بدید که در انتشارات اورفیت منتشر کنیم.
https://vrgl.ir/OvlJR
#read
#blog
#overfit
@nlp_stuff
ویرگول
داستان نامداران: یافتن اسامی خاص!
برای یافتن اسامی خاص توی متن با استفاده از یادگیری ماشین این پست رو بخونین
شیرجه عمیق به دیپ لرنینگ
بر شما باد چسبیدن به این سایت برای یادگیری دیپ لرنینگ.
کتاب کامل و جامع، نوتبوکهای پیادهسازی شده با چند فریمورک (NumPy/MXNet و PyTorch و TensorFlow)، کورس رایگان و بهروز برای کتاب از ویژگیهاشه.
مخصوصا فصلهای ۱۰، ۱۴ و ۱۵اش به افرادی که دیپ بلدند و دوست دارند در حوزهی NLP وارد شن توصیه میشه. در فصل ۱۰ معماری اتنشن و ترنسفورمرها را توضیح دادند و در فصل ۱۴ و ۱۵ پیشپردازش، آموزش و فاین تیون کردن تسکهای NLP را آوردند.
خلاصه از این بهتر بعید میدونم چیزی پیدا کنید؛ پس تنبلی و وسواس را کنار بذارید و شروع کنید.
http://d2l.ai
#coach
#course
#book
@nlp_stuff
بر شما باد چسبیدن به این سایت برای یادگیری دیپ لرنینگ.
کتاب کامل و جامع، نوتبوکهای پیادهسازی شده با چند فریمورک (NumPy/MXNet و PyTorch و TensorFlow)، کورس رایگان و بهروز برای کتاب از ویژگیهاشه.
مخصوصا فصلهای ۱۰، ۱۴ و ۱۵اش به افرادی که دیپ بلدند و دوست دارند در حوزهی NLP وارد شن توصیه میشه. در فصل ۱۰ معماری اتنشن و ترنسفورمرها را توضیح دادند و در فصل ۱۴ و ۱۵ پیشپردازش، آموزش و فاین تیون کردن تسکهای NLP را آوردند.
خلاصه از این بهتر بعید میدونم چیزی پیدا کنید؛ پس تنبلی و وسواس را کنار بذارید و شروع کنید.
http://d2l.ai
#coach
#course
#book
@nlp_stuff
و همچنان اندر جادوی CLIP
مطلب جالبی راجع به مدل کلیپ (https://www.tg-me.com/nlp_stuff/114) اینه که در حین آموزش یک سری تسک تصویری دیگه مثل OCR و Action Recognition را هم به صورت zero shot یاد گرفته.
قبلا مدلهای جیپیتی هم در مورد تسکهای زبانی همینطور بودند.
برای مثال در بخش ۶ (Limitations) مقالهشون اومدند گفتند که ما هیچ تصویری از MNIST در دیتامون نداشتیم ولی تونستیم به صورت zero shot دقت ۸۸ (که البته دقت خوبی نیست) را روی این دیتاست بدست بیاریم!
در این لینک میتونید تصویر دلخواهتون را به صورت zero shot دستهبندی کنید:
https://clip.kiri.ai
اینم لینک مقالهاش:
https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From_Natural_Language_Supervision.pdf
#read
#paper
@nlp_stuff
مطلب جالبی راجع به مدل کلیپ (https://www.tg-me.com/nlp_stuff/114) اینه که در حین آموزش یک سری تسک تصویری دیگه مثل OCR و Action Recognition را هم به صورت zero shot یاد گرفته.
قبلا مدلهای جیپیتی هم در مورد تسکهای زبانی همینطور بودند.
برای مثال در بخش ۶ (Limitations) مقالهشون اومدند گفتند که ما هیچ تصویری از MNIST در دیتامون نداشتیم ولی تونستیم به صورت zero shot دقت ۸۸ (که البته دقت خوبی نیست) را روی این دیتاست بدست بیاریم!
در این لینک میتونید تصویر دلخواهتون را به صورت zero shot دستهبندی کنید:
https://clip.kiri.ai
اینم لینک مقالهاش:
https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From_Natural_Language_Supervision.pdf
#read
#paper
@nlp_stuff
هاگینگ فیس و AutoNLP
هاگینگ فیس یک کتابخونهی AutoNLP داره آماده میکنه که به صورت خودکار مدل، فاین تیون کردن روی دیتا و دیپلویمنت مدل را برای تسکهای مختلفی مثل classification, NER, summarization, translation به راحتی خوردن یک لیوان آب سالم میکنه و قراره در سه ماههی اول ۲۰۲۱ release بشه.
لینک پایین را هم دادند که ملت ثبت نام کنند و بگن که برای چه زبان و تسکی و اینا میخوان استفاده کنند که به نسخه بتا بهشون دسترسی بده.
https://huggingface.typeform.com/to/FAtsVfbg
#news
@nlp_stuff
هاگینگ فیس یک کتابخونهی AutoNLP داره آماده میکنه که به صورت خودکار مدل، فاین تیون کردن روی دیتا و دیپلویمنت مدل را برای تسکهای مختلفی مثل classification, NER, summarization, translation به راحتی خوردن یک لیوان آب سالم میکنه و قراره در سه ماههی اول ۲۰۲۱ release بشه.
لینک پایین را هم دادند که ملت ثبت نام کنند و بگن که برای چه زبان و تسکی و اینا میخوان استفاده کنند که به نسخه بتا بهشون دسترسی بده.
https://huggingface.typeform.com/to/FAtsVfbg
#news
@nlp_stuff
موضوعات برجسته تحقیقاتی در ۲۰۲۰ از نظر رودر
برادر رودر در این پست راجع به ریسرچهای انجامشده در زمینه یادگیری ماشین و پردازش زبان در سال ۲۰۲۰ صحبت کردن. چیزایی مثل این که چه اتفاقاتی در این حوزهها افتاده و گام بعدی در سال ۲۰۲۱ چیه و اینا. موضوعات مورد بحث تو این پست به صورت تیتروار ایناست:
Scaling up—and down
Retrieval augmentation
Few-shot learning
Contrastive learning
Evaluation beyond accuracy
Practical concerns of large LMs
Multilinguality
Image Transformers
ML for science
Reinforcement learning
این مطلب خیلی تازهست و مال همین امروزه (۱۹ ژانویه)؛ پس داغ داغ بخونید تا بیات نشده.
https://ruder.io/research-highlights-2020/
#read
#blog
@nlp_stuff
برادر رودر در این پست راجع به ریسرچهای انجامشده در زمینه یادگیری ماشین و پردازش زبان در سال ۲۰۲۰ صحبت کردن. چیزایی مثل این که چه اتفاقاتی در این حوزهها افتاده و گام بعدی در سال ۲۰۲۱ چیه و اینا. موضوعات مورد بحث تو این پست به صورت تیتروار ایناست:
Scaling up—and down
Retrieval augmentation
Few-shot learning
Contrastive learning
Evaluation beyond accuracy
Practical concerns of large LMs
Multilinguality
Image Transformers
ML for science
Reinforcement learning
این مطلب خیلی تازهست و مال همین امروزه (۱۹ ژانویه)؛ پس داغ داغ بخونید تا بیات نشده.
https://ruder.io/research-highlights-2020/
#read
#blog
@nlp_stuff
ruder.io
ML and NLP Research Highlights of 2020
This post summarizes progress in 10 exciting and impactful directions in ML and NLP in 2020.
This media is not supported in your browser
VIEW IN TELEGRAM
اکستنشن ویدیوی arxiv
برادر آمیت برادری را در حقمون تکمیل کرده و یه اکستنشن روی کروم زده که از مقالهی arxiv لینک میده به ویدیوی ارائهی مقاله.
لینک اکستنشن، گیت و لیست مقالههایی که ویدیوشون را اضافه کرده در ادامه آوردیم:
https://chrome.google.com/webstore/detail/papers-with-video/aflnhgmklenfljibnfellgkmdpmmoekf
https://github.com/amitness/papers-with-video
https://gist.github.com/amitness/9e5ad24ab963785daca41e2c4cfa9a82
#tool
@nlp_stuff
برادر آمیت برادری را در حقمون تکمیل کرده و یه اکستنشن روی کروم زده که از مقالهی arxiv لینک میده به ویدیوی ارائهی مقاله.
لینک اکستنشن، گیت و لیست مقالههایی که ویدیوشون را اضافه کرده در ادامه آوردیم:
https://chrome.google.com/webstore/detail/papers-with-video/aflnhgmklenfljibnfellgkmdpmmoekf
https://github.com/amitness/papers-with-video
https://gist.github.com/amitness/9e5ad24ab963785daca41e2c4cfa9a82
#tool
@nlp_stuff
مصورسازی نحوه انتخاب کلمه توسط ترنسفورمر
آقای العمار در این قسمت با ویژوالایز کردن حالتهای نهان داخل ترنسفورمر نشون میده که فرآیند انتخاب یک کلمه در ترنسفورمر، لایه به لایه چه شکلیه و چطور رتبه کلمه نهایی بین بقیه کلمات در مسیر لایهها کاهش پیدا میکنه. به قول خودش میخواد فرآیند فکری ترنسفورمرها را بررسی کنه. یکی دو تا نوتبوک هم برامون گذشته اگر حوصله داشتیم باهاش ور بریم.
انصافا توضیحات و ویژوالایزهایی که تو این قسمت کرده خیلی جذابن! اگر گیر درس و امتحان نیستید، از دستشون ندید.
قبلا هم از این یکی داداشمون پست (https://www.tg-me.com/nlp_stuff/106) گذاشتیم.
https://jalammar.github.io/hidden-states/
پ.ن. برای دوستاتون که به NLP یا ویژوالیزیشن علاقهمندند بفرستید که کیف کنند.
#read
#blog
@nlp_stuff
آقای العمار در این قسمت با ویژوالایز کردن حالتهای نهان داخل ترنسفورمر نشون میده که فرآیند انتخاب یک کلمه در ترنسفورمر، لایه به لایه چه شکلیه و چطور رتبه کلمه نهایی بین بقیه کلمات در مسیر لایهها کاهش پیدا میکنه. به قول خودش میخواد فرآیند فکری ترنسفورمرها را بررسی کنه. یکی دو تا نوتبوک هم برامون گذشته اگر حوصله داشتیم باهاش ور بریم.
انصافا توضیحات و ویژوالایزهایی که تو این قسمت کرده خیلی جذابن! اگر گیر درس و امتحان نیستید، از دستشون ندید.
قبلا هم از این یکی داداشمون پست (https://www.tg-me.com/nlp_stuff/106) گذاشتیم.
https://jalammar.github.io/hidden-states/
پ.ن. برای دوستاتون که به NLP یا ویژوالیزیشن علاقهمندند بفرستید که کیف کنند.
#read
#blog
@nlp_stuff
آنچه بنجیو در خشت خام میبیند
یاشوا بنجیو که (انصافا) یکی از خدایگان هوش مصنوعی و دیپ لرنینگ است، از یکی دو سال پیش به تدریج در تاکهای مختلف (مثلا اینجا و اینجا و اینجا و اینجا) ایدههای خود برای پیشرفت آینده هوش مصنوعی را شرح داده است. ایدههای او بر بناکردن inductive biasهای جدیدی (به طور خیلی خلاصه و مفید inductive bias همان فرضیاتی که یک الگوریتم یادگیری قبل از حل مساله در مورد آن در نظر میگیرد و راه حلش روی آن فرض بنا شده است، برای مثال وقتی ما فرض میکنیم که معنای یک تیکه از تصویر میتواند از تیکههای مجاورش دریافت شود این فرض ما منجر به بناشدن شبکههای cnnای میشود) برای دیپ لرنینگ حول کلیدواژه مهم out of distribution generalization (تا الان بدین شکل بوده که مدل ما یک توزیع از دادههای آموزشی در میآورده و نهایتا با کمی تغییر دنبال این توزیع در دادههای تست بوده است. اما شیخ ما اعتقاد دارد بایستی از این به بعد تغییرات گسترده در دادههای تست نسبت به توزیع دادههای آموزش را هم بتواند تحمل کند. مثلا باید یادگرفتن را یادبگیرد تا اگر توزیع محیطش تغییری هم کرد بتواند خودش را با آن وفق دهد!) بنا شده است.
به طور مختصر و مفید؛ پیر ما معتقد است که تسکهایی را که مغز انسان انجام میدهد میتوان به دسته سیستم ۱ و سیستم ۲ تقسیم بندی کرد. تسکهای سیستم ۱ مسائلی هستند که به صورت ناخودآگاه و البته سریع و بدون نیاز به تفکر قابل انجام توسط مغز هستند مثلا تشخیص خر از پنگوئن، تشخیص ناسزا از غیرناسزا و ... ، حال ان که تسکهای سیستم ۲ بایستی با توجه و برنامهریزی و البته آگاهانه انجام شوند مثلا رانندگی کردن.
بنجیو میگوید که توانایی فعلی دیپ لرنینگ در انجام دادن تسکهای سیستم ۱ است و در سیستم ۲ توفیقی هنوز ندارد. در ادامه بنجیو پیشنهاد میدهد که آینده هوش مصنوعی درگیر با انجام تسکهای سیستم ۲ و همچنین همان کلیدواژه out of distribution generalization خواهد بود.
بر اساس همین ایده اولیه، بنجیو تعدادی ایده برای الهامگیری و شکستن بنبست فعلی پیشرفت دیپ لرنینگ پیشنهاد میکند که از آنها میتوان به بررسی مسائل multi agent، خلق شبکههای عصبی با ویژگی ماژولاریزیشن نظیر RIMها، دیدن مسائل از زاویه گرافهای علی (causal) متغیرها، متالرنینگ و ... اشاره کرد.
لینک مقالهاش:
https://arxiv.org/pdf/2011.15091.pdf
پ.ن. لطفا کانال را به کسایی که هوش مصنوعی دوست دارند، معرفی کنید! ممنون.
#paper
#read
@nlp_stuff
یاشوا بنجیو که (انصافا) یکی از خدایگان هوش مصنوعی و دیپ لرنینگ است، از یکی دو سال پیش به تدریج در تاکهای مختلف (مثلا اینجا و اینجا و اینجا و اینجا) ایدههای خود برای پیشرفت آینده هوش مصنوعی را شرح داده است. ایدههای او بر بناکردن inductive biasهای جدیدی (به طور خیلی خلاصه و مفید inductive bias همان فرضیاتی که یک الگوریتم یادگیری قبل از حل مساله در مورد آن در نظر میگیرد و راه حلش روی آن فرض بنا شده است، برای مثال وقتی ما فرض میکنیم که معنای یک تیکه از تصویر میتواند از تیکههای مجاورش دریافت شود این فرض ما منجر به بناشدن شبکههای cnnای میشود) برای دیپ لرنینگ حول کلیدواژه مهم out of distribution generalization (تا الان بدین شکل بوده که مدل ما یک توزیع از دادههای آموزشی در میآورده و نهایتا با کمی تغییر دنبال این توزیع در دادههای تست بوده است. اما شیخ ما اعتقاد دارد بایستی از این به بعد تغییرات گسترده در دادههای تست نسبت به توزیع دادههای آموزش را هم بتواند تحمل کند. مثلا باید یادگرفتن را یادبگیرد تا اگر توزیع محیطش تغییری هم کرد بتواند خودش را با آن وفق دهد!) بنا شده است.
به طور مختصر و مفید؛ پیر ما معتقد است که تسکهایی را که مغز انسان انجام میدهد میتوان به دسته سیستم ۱ و سیستم ۲ تقسیم بندی کرد. تسکهای سیستم ۱ مسائلی هستند که به صورت ناخودآگاه و البته سریع و بدون نیاز به تفکر قابل انجام توسط مغز هستند مثلا تشخیص خر از پنگوئن، تشخیص ناسزا از غیرناسزا و ... ، حال ان که تسکهای سیستم ۲ بایستی با توجه و برنامهریزی و البته آگاهانه انجام شوند مثلا رانندگی کردن.
بنجیو میگوید که توانایی فعلی دیپ لرنینگ در انجام دادن تسکهای سیستم ۱ است و در سیستم ۲ توفیقی هنوز ندارد. در ادامه بنجیو پیشنهاد میدهد که آینده هوش مصنوعی درگیر با انجام تسکهای سیستم ۲ و همچنین همان کلیدواژه out of distribution generalization خواهد بود.
بر اساس همین ایده اولیه، بنجیو تعدادی ایده برای الهامگیری و شکستن بنبست فعلی پیشرفت دیپ لرنینگ پیشنهاد میکند که از آنها میتوان به بررسی مسائل multi agent، خلق شبکههای عصبی با ویژگی ماژولاریزیشن نظیر RIMها، دیدن مسائل از زاویه گرافهای علی (causal) متغیرها، متالرنینگ و ... اشاره کرد.
لینک مقالهاش:
https://arxiv.org/pdf/2011.15091.pdf
پ.ن. لطفا کانال را به کسایی که هوش مصنوعی دوست دارند، معرفی کنید! ممنون.
#paper
#read
@nlp_stuff
YouTube
Yoshua Bengio: Deep Learning Cognition | Full Keynote - AI in 2020 & Beyond
Yoshua Bengio, considered one of the 'Godfathers of Artificial Intelligence' discusses Recurrent independent mechanisms, sample complexity, end-to-end adaptation, multivariate categorical MLP conditionals and more.
When summarising his talk, Professor Bengio…
When summarising his talk, Professor Bengio…
سایت paperswithcode (که توصیه میکنیم توی این سایت بخوابید) اومده مقالههای قبول شدهی ICLR 2021 را به همراه کدشون گذاشته و میتونید با استفاده از تسک و نویسنده و keyword فیلتر کنید.
https://paperswithcode.com/conference/iclr-2021-1
#link
@nlp_stuff
https://paperswithcode.com/conference/iclr-2021-1
#link
@nlp_stuff
This media is not supported in your browser
VIEW IN TELEGRAM
توضیح خلاصهی ViT
در چند روز اخیر سیلی عظیمی از مدلهای ترنسفورمری برای vision به راه افتادهاند. اگر هنوز مقاله An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale را نخوندید و حوصله خوندن پیپرش را هم هنوز ندارید، ده دقیقه این پست را مشاهده کنید تا بفهمید چه خبره و از قافله بعدی عقب نمونید.
https://theaisummer.com/vision-transformer/
پ.ن. قبلا این مقاله را در این پست (https://www.tg-me.com/nlp_stuff/82) معرفی کرده بودیم.
#read
#blog
@nlp_stuff
در چند روز اخیر سیلی عظیمی از مدلهای ترنسفورمری برای vision به راه افتادهاند. اگر هنوز مقاله An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale را نخوندید و حوصله خوندن پیپرش را هم هنوز ندارید، ده دقیقه این پست را مشاهده کنید تا بفهمید چه خبره و از قافله بعدی عقب نمونید.
https://theaisummer.com/vision-transformer/
پ.ن. قبلا این مقاله را در این پست (https://www.tg-me.com/nlp_stuff/82) معرفی کرده بودیم.
#read
#blog
@nlp_stuff
طوفان برت، speech را هم در نوردید!
مدلهای پیشرو در مبحث بازشناسی گفتار (تبدیل گفتار به متن) مثل این مقاله تا به امروز معمولا برای اینکه بازشناسی به صورت انتها به انتها انجام شود، از پشتهای از لایههای کانولوشنی برای مدلسازی گفتار استفاده میکردند و مدل زبانی به عنوان بخشی از تابع هزینه در نظر گرفته میشد؛ به این صورت که لایه آخر به ازای هر حرف در دیکشنری یه امتیاز برمیگردوند و این امتیاز با امتیاز مدل زبانی ترکیب میشد و حرف بازشناسیشده معین میشد.
حالا داداشای تایوانیمون در مقالهی زیر اومدند و گفتند که اصل داستان مدل زبانیه و مدلسازی صوت، نمک قضیه ست! میشه مدل زبانی را به صورت main stream هم در تسک آورد یعنی بخشی از معماری شبکه باشد و نه فقط در تابع هزینه! چه طوری؟ با برت.
نتیجه اینکه مدل زبانی، تعداد انتخاب در هر لحظه رو به شدت کاهش میده و مدل گفتار میشه یه شبکه ساده که قراره از بین اون انتخابهای بسیار کوچیک حالا انتخاب کنه. فاین تیون کردنش هم خیلی راحتتره.
خلاصه اینکه ماهیت تسک انتها به انتهاتر و هلو شده! این اتفاق بار دیگه داره جایگاه مهم مدل زبانی را حتی در مباحث گفتار پردازی ثابت میکنه!
لینک مقاله:
https://arxiv.org/pdf/2102.00291.pdf
#paper
#read
.
@nlp_stuff
مدلهای پیشرو در مبحث بازشناسی گفتار (تبدیل گفتار به متن) مثل این مقاله تا به امروز معمولا برای اینکه بازشناسی به صورت انتها به انتها انجام شود، از پشتهای از لایههای کانولوشنی برای مدلسازی گفتار استفاده میکردند و مدل زبانی به عنوان بخشی از تابع هزینه در نظر گرفته میشد؛ به این صورت که لایه آخر به ازای هر حرف در دیکشنری یه امتیاز برمیگردوند و این امتیاز با امتیاز مدل زبانی ترکیب میشد و حرف بازشناسیشده معین میشد.
حالا داداشای تایوانیمون در مقالهی زیر اومدند و گفتند که اصل داستان مدل زبانیه و مدلسازی صوت، نمک قضیه ست! میشه مدل زبانی را به صورت main stream هم در تسک آورد یعنی بخشی از معماری شبکه باشد و نه فقط در تابع هزینه! چه طوری؟ با برت.
نتیجه اینکه مدل زبانی، تعداد انتخاب در هر لحظه رو به شدت کاهش میده و مدل گفتار میشه یه شبکه ساده که قراره از بین اون انتخابهای بسیار کوچیک حالا انتخاب کنه. فاین تیون کردنش هم خیلی راحتتره.
خلاصه اینکه ماهیت تسک انتها به انتهاتر و هلو شده! این اتفاق بار دیگه داره جایگاه مهم مدل زبانی را حتی در مباحث گفتار پردازی ثابت میکنه!
لینک مقاله:
https://arxiv.org/pdf/2102.00291.pdf
#paper
#read
.
@nlp_stuff
Telegram
stuff