NLP stuff

مدل مولتی مودال Frozen

مدل‌های زبانی خفنی مثل GPT3 به واسطه ظرفیت و قدرت بالایی که دارند توی وظایف مختلف امتیاز بالایی رو کسب کرده‌اند و مورد ستایش واقع شده‌اند. یکی از توانایی‌های خفن این مدل‌ها یادگیری few shot و zero shot است؛ با این توضیح ساده که میتونند بدون آموزش دیدن روی دیتاهای یک وظیفه جدید و صرفا با ورودی گرفتن توضیحات اون وظیفه به همراه چند مثال ازش، خروجی رو برای یک ورودی مرتبط با اون وظیفه پیش‌بینی کنند.

با وجود تمامی اوصاف و مناقب مدلهای نظیر GPT3، اما به علت این که این مدل‌ها صرفا محدود به دیتاهای متنی است، از قدرت بالای اونها در حل مسائل بینایی نمی‌تونیم استفاده کنیم. حالا افرادی از دیپ مایند اومدند و یک مدل زبانی مولتی‌مودال با قابلیت یادگیری few shot رو با نام Frozen خلق کردند و یک پیپر بیرون دادند. در واقع هدف از این مدل این بوده که بتونه هم با داده تصویری و هم با داده متنی کار کنه. داده متنی رو که به راحتی و با توکنایزر میشه به رشته‌ای از بردارها تبدیل کرد و به مدل ورودی داد، میمونه داده‌های تصویری. برای داده‌های تصویری هم این دوستان اومدند و شبکه‌‌ای رو آموزش دادند که با ورودی گرفتن یک تصویر در خروجی خودش دنباله‌ای از بردارها رو تولید کنه ( انگار که تصویر رو به امبدینگ چند تا کلمه تبدیل میکنه) و سپس هر موقع بخوان تصویری رو به مدل زبانی ورودی بدن، در عوض میان این دنباله‌ بردارهای تولیدشده توسط این شبکه انکودر تصویری رو به مدل زبانی ورودی می‌دن. برای آموزش مدل‌ هم وظیفه Image Captioning رو در نظر گرفتند. به این شکل که تصاویر دادگان Conceptual Caption رو به مدل دادند و ازش خواستند که Caption رو تولید کنه.

حالا چرا اسم مدل Frozen است؟ پاسخ این به نحوه آموزش مدل برمی‌گرده. از اونجایی که قدرت مدلهای نظیر GPT بسیار زیاده و ناشی از آموزش دیدن اونها روی حجم عظیمی از داده است پس اصلا عاقلانه نیست که وزن‌های این شبکه رو بخوایم باهاشون ور بریم و دستکاری‌شون کنیم. در نتیجه در هنگام آموزش این شبکه پارامتر‌های مدل زبانی ثابت میمونن و در عوض گرادیانی که به عقب برمی‌گرده میره و انکودر تصویری رو آموزش میده. در واقع این انکودر تصویریه که باید بتونه خودش رو با مدل زبانی تنظیم کنه.

در نهایت هم اومدند با انجام چند آزمایش و گذاشتن نتایجش در مقاله نشون دادن که چه قدر یادگیرنده Few Shot خوبیه این مدل.

جهت درک بهتر توضیحات ارائه شده میتونید تصاویر پیوست شده از مقاله رو یه نگاهی بیاندازید.

لینک مقاله:
https://arxiv.org/abs/2106.13884

#paper
#read

@nlp_stuff

stuff

1.94K viewsedited 12:57