Tensorflow(@CVision)
اینها فقط بخش کوچکی از تحقیقات خود بهبود دهی در زمینه هوش مصنوعیه Deepmind، Microsoft و Apple هم مقالات مشابهی منتشر کردن و به این مفهوم پرداختن. با این حال، با توجه به تحقیقاتی که تا الان دیدیم ممکنه به اون لحظه پرواز هوش مصنوعی که بعضی ها فکر میکنن، نزدیک…
با توجه به مواردی که عنوان شد ، تلاش برای رسیدن به آخرین اختراعی که انسان نیاز داره بسازه(هوش مصنوعی خود بهبود دهنده که منجر به انفجار پدیده هوش میشه) طبق گفته I.J. Good قطعا ادامه خواهد داشت.
اما در حال حاضر، تشخیص اینکه آیا واقعا در آستانه یه هوش مصنوعی هستیم که از کنترل خارج میشه و در یک حلقه خود بهبود دهنده قرار میگیره، خیلی سخته.
در عوض، ممکنه بیشتر شاهد استفاده از ابزارهای جدید هوش مصنوعی برای بهبود ابزارهای آینده باشیم، به شیوههایی که میتونه از عادی تا تحول آفرین متغیر باشه.
پایان.
اما در حال حاضر، تشخیص اینکه آیا واقعا در آستانه یه هوش مصنوعی هستیم که از کنترل خارج میشه و در یک حلقه خود بهبود دهنده قرار میگیره، خیلی سخته.
در عوض، ممکنه بیشتر شاهد استفاده از ابزارهای جدید هوش مصنوعی برای بهبود ابزارهای آینده باشیم، به شیوههایی که میتونه از عادی تا تحول آفرین متغیر باشه.
پایان.
👍7
این مقاله جدید از Google DeepMind به بررسی مدلهای زبانی بزرگ و چگونگی کاهش هزینه و پیچیدگی اونها از طریق اشتراکگذاری پارامترها میپردازه.
به اشتراکگذاری پارامترها، روشی برای کاهش اندازه و هزینه مدل هاست، اما تا به حال در LLM های مدرن به خوبی بهره برداری نشدن. در این مقاله، با استفاده از روش layer tying بهعنوان روشی برای به اشتراک گذاری پارامترها در مدلهای Transformer پرداخته و رویکردی جدیدی به نام Recursive Transformer رو معرفی کردن که پارامترها را بین لایه های مختلف مدل به اشتراک میگذاره، بدون اینکه افت عملکرد قابل توجهی رخ بده
در مدل پیشنهادی، به جای استفاده از چندین لایهی یکتا در مدل، از یه مجموعه بلوک منفرد از لایه ها که چندین بار تکرار میشه استفاده میکنن. این روش موجب میشه تا اندازه مدل به صورت چشمگیری کاهش و بازدهی افزایش پیدا کنه.
این روش در مدل های Recursive Transformers استفاده میشه تا هم در مصرف حافظه صرفه جویی بشه و هم پیچیدگی مدل کاهش پیدا کنه. با تکرار همان بلوک لایهها، تعداد کل پارامترها به شدت کاهش پیدا میکنه، چون دیگه نیازی به ساخت و ذخیره لایه های مختلف و منحصر به فرد نیست.
این روش میتونه سرعت استنتاج در مدل های زبانی رو ۲ تا سه برابر افزایش بده.
arxiv.org/pdf/2410.20672
به اشتراکگذاری پارامترها، روشی برای کاهش اندازه و هزینه مدل هاست، اما تا به حال در LLM های مدرن به خوبی بهره برداری نشدن. در این مقاله، با استفاده از روش layer tying بهعنوان روشی برای به اشتراک گذاری پارامترها در مدلهای Transformer پرداخته و رویکردی جدیدی به نام Recursive Transformer رو معرفی کردن که پارامترها را بین لایه های مختلف مدل به اشتراک میگذاره، بدون اینکه افت عملکرد قابل توجهی رخ بده
در مدل پیشنهادی، به جای استفاده از چندین لایهی یکتا در مدل، از یه مجموعه بلوک منفرد از لایه ها که چندین بار تکرار میشه استفاده میکنن. این روش موجب میشه تا اندازه مدل به صورت چشمگیری کاهش و بازدهی افزایش پیدا کنه.
این روش در مدل های Recursive Transformers استفاده میشه تا هم در مصرف حافظه صرفه جویی بشه و هم پیچیدگی مدل کاهش پیدا کنه. با تکرار همان بلوک لایهها، تعداد کل پارامترها به شدت کاهش پیدا میکنه، چون دیگه نیازی به ساخت و ذخیره لایه های مختلف و منحصر به فرد نیست.
این روش میتونه سرعت استنتاج در مدل های زبانی رو ۲ تا سه برابر افزایش بده.
arxiv.org/pdf/2410.20672
👍5❤1🙏1
mcs (1).pdf
12.7 MB
Mathematics for Computer Science
یک کتاب ۱۰۴۸ صفحهای که بهصورت رایگان
توسط MIT منتشر شده و تمرکز آن بر توضیح استفاده از مدلها و روشهای ریاضی برای تحلیل مسائل در علوم کامپیوتر است.
یک کتاب ۱۰۴۸ صفحهای که بهصورت رایگان
توسط MIT منتشر شده و تمرکز آن بر توضیح استفاده از مدلها و روشهای ریاضی برای تحلیل مسائل در علوم کامپیوتر است.
❤5
This media is not supported in your browser
VIEW IN TELEGRAM
مدل HOVER که توسط آزمایشگاه NVIDIA GEAR ایجاد شده با فقط 1.5 میلیون پارامتر نشون داده که یاد گرفتن مهارتهای حرکتی پیچیده نیاز به مدلهای خیلی بزرگ نداره و شبیهسازی فیزیک رو تا ۱۰ هزار برابر سریعتر میکنه، ربات های انسان نما میتونن به اندازه ی یک سال حرکت رو تو کمتر از یک ساعت یاد بگیرن.
جیم فن میگه لازم نیست هر مدل بنیادی خیلی بزرگ باشه. ما یه شبکه عصبی با ۱.۵ میلیون پارامتر رو آموزش دادیم که میتونه بدن یه ربات انساننما رو کنترل کنه. برای ما آدما راه رفتن، حفظ تعادل و حرکت دادن دست و پا به موقعیتهای دلخواه کلی پردازش ناخود آگاه میخواد. این "ناخودآگاهی" رو تو مدل HOVER جمع کردیم، مدلی که یاد میگیره چطور موتورهای یه ربات انسان نما رو هماهنگ کنه تا بتونه حرکت و اشیاء رو کنترل کنه.
جیم فن میگه لازم نیست هر مدل بنیادی خیلی بزرگ باشه. ما یه شبکه عصبی با ۱.۵ میلیون پارامتر رو آموزش دادیم که میتونه بدن یه ربات انساننما رو کنترل کنه. برای ما آدما راه رفتن، حفظ تعادل و حرکت دادن دست و پا به موقعیتهای دلخواه کلی پردازش ناخود آگاه میخواد. این "ناخودآگاهی" رو تو مدل HOVER جمع کردیم، مدلی که یاد میگیره چطور موتورهای یه ربات انسان نما رو هماهنگ کنه تا بتونه حرکت و اشیاء رو کنترل کنه.
👍16
This media is not supported in your browser
VIEW IN TELEGRAM
Wonder Animation
هر ویدیویی رو به یه صحنه انیمیشنی سهبعدی با کاراکترهای کامپیوتری تبدیل میکنه!
این تکنولوژی واقعا یه تحول بزرگ محسوب میشه. اگه استفاده ازش آسون بشه و بهراحتی قابل پیاده سازی باشه، میتونه همه چیز رو تو حوزههای تولید تصویر و ویدیو با هوش مصنوعی متحول کنه.
علاوه بر این، چون با داراییهای مجازی کار میکنی، انعطاف زیادی داری و میتونی هر زاویه دوربین یا نوع شات رو آزادانه تغییر بدی، که این خودش دستت رو برای خلاقیت بیشتر باز می ذاره.
https://adsknews.autodesk.com/en/news/autodesk-launches-wonder-animation-video-to-3d-scene-technology/
هر ویدیویی رو به یه صحنه انیمیشنی سهبعدی با کاراکترهای کامپیوتری تبدیل میکنه!
این تکنولوژی واقعا یه تحول بزرگ محسوب میشه. اگه استفاده ازش آسون بشه و بهراحتی قابل پیاده سازی باشه، میتونه همه چیز رو تو حوزههای تولید تصویر و ویدیو با هوش مصنوعی متحول کنه.
علاوه بر این، چون با داراییهای مجازی کار میکنی، انعطاف زیادی داری و میتونی هر زاویه دوربین یا نوع شات رو آزادانه تغییر بدی، که این خودش دستت رو برای خلاقیت بیشتر باز می ذاره.
https://adsknews.autodesk.com/en/news/autodesk-launches-wonder-animation-video-to-3d-scene-technology/
👍5
ماه اکتبر ماه پر خبری بود، مهمترین ها:
Flux 1.1 pro
منتشر شد و قابلیتهای پیشرفتهای برای تولید تصویر رو نشون میده.
متا از مدل جدیدی به نام Movie Gen رونمایی کرده که میتونه از طریق متن، ویدیو، تصویر و صدا تولید کنه.
پیکا Video Model 1.5 رو با قابلیتهای جدید به نام "Pika Effects" معرفی کرد.
Adobe
هم مدل ویدیو سازی خودش به نام Firefly Video رو معرفی کرد.
استارتاپ Rhymes AI مدل آریا (Aria) رو که یک مدل چندرسانهای و متن باز با قابلیت هایی مشابه مدل های خصوصی هم رده هست، عرضه کرد.
متا یک مدل speech-to-speech به نام Meta Spirit LM رو به صورت متنباز منتشر کرد.
Mistral AI
مدل جدیدی به نام Ministral رو در دو سایز ۳ میلیارد و ۸ میلیارد پارامتری معرفی کرد.
DeepSeek-AI
مدل چند رسانهای جدیدی به نام Janus AI رو که میتونه هم متن و هم تصویر رو تشخیص بده و تولید کنه، به صورت متن باز عرضه کرده.
گوگل دیپ مایند و MIT مدل تولید تصویر از متن به نام Fluid رو با ۱۰.۵ میلیارد پارامتر و عملکردی در سطح پیشرو معرفی کردند.
Stable Diffusion
نسخه ۳.۵ رو در سه اندازه به صورت متن باز منتشر کرد.
Anthropic
هم مدل Claude 3.5 Sonnet New رو با پیشرفتهای قابل توجه نسبت به نسخه قبلی و همچنین Claude 3.5 Haiku رونمایی کرد.
https://nhlocal.github.io/AiTimeline/
Flux 1.1 pro
منتشر شد و قابلیتهای پیشرفتهای برای تولید تصویر رو نشون میده.
متا از مدل جدیدی به نام Movie Gen رونمایی کرده که میتونه از طریق متن، ویدیو، تصویر و صدا تولید کنه.
پیکا Video Model 1.5 رو با قابلیتهای جدید به نام "Pika Effects" معرفی کرد.
Adobe
هم مدل ویدیو سازی خودش به نام Firefly Video رو معرفی کرد.
استارتاپ Rhymes AI مدل آریا (Aria) رو که یک مدل چندرسانهای و متن باز با قابلیت هایی مشابه مدل های خصوصی هم رده هست، عرضه کرد.
متا یک مدل speech-to-speech به نام Meta Spirit LM رو به صورت متنباز منتشر کرد.
Mistral AI
مدل جدیدی به نام Ministral رو در دو سایز ۳ میلیارد و ۸ میلیارد پارامتری معرفی کرد.
DeepSeek-AI
مدل چند رسانهای جدیدی به نام Janus AI رو که میتونه هم متن و هم تصویر رو تشخیص بده و تولید کنه، به صورت متن باز عرضه کرده.
گوگل دیپ مایند و MIT مدل تولید تصویر از متن به نام Fluid رو با ۱۰.۵ میلیارد پارامتر و عملکردی در سطح پیشرو معرفی کردند.
Stable Diffusion
نسخه ۳.۵ رو در سه اندازه به صورت متن باز منتشر کرد.
Anthropic
هم مدل Claude 3.5 Sonnet New رو با پیشرفتهای قابل توجه نسبت به نسخه قبلی و همچنین Claude 3.5 Haiku رونمایی کرد.
https://nhlocal.github.io/AiTimeline/
nhlocal.github.io
AI Timeline
A comprehensive timeline of Artificial Intelligence milestones from 2022 to present.
👍10
قابلیت جستجو به چت جی پی تی اضافه شد.
چت جی پی تی حالا میتونه خیلی بهتر از قبل توی وب جستجو کنه. حالا میتونی پاسخ های سریع و به موقع بگیری که لینکهایی به منابع مرتبط وب هم داره و دیگه نیازی نیست برای این اطلاعات به موتور جستجو بری
https://openai.com/index/introducing-chatgpt-search/
چت جی پی تی حالا میتونه خیلی بهتر از قبل توی وب جستجو کنه. حالا میتونی پاسخ های سریع و به موقع بگیری که لینکهایی به منابع مرتبط وب هم داره و دیگه نیازی نیست برای این اطلاعات به موتور جستجو بری
https://openai.com/index/introducing-chatgpt-search/
👍7👌2👎1
Tensorflow(@CVision)
سوال اینجاست که چرا OpenAI به قسمت موتور های جستجو ورود کرده ؟ شاید بهتر باشه آخرین صورتهای مالی گوگل رو بررسی کنیم در تاریخ ۲۴ جولای، شرکت مادر گوگل یعنی آلفابت گزارش مالی سه ماهه دوم سال ۲۰۲۴ خود را منتشر کرد. بخش اعظم درآمد گوگل از موتور جستجو هست. در…
چند ماه پیش به صورت های مالی گوگل در سه ماهه سوم نگاه کردیم و به درآمد وسیع گوگل از محل موتور جستجو اشاره شد و چت جی پی تی که خودش رو برای ورود به این حوزه آماده میکنه، اما به نظرتون آیا مدل های زبانی هم راه موتور های جستجو در راستای ساختار منفعت طلبانه خودشون خواهند پیمود؟
موتورهای جستجو، به دلیل ساختارهای انگیزشی نادرست و منفعت طلبانه، به جای حقیقت جویی به سمت تبلیغات و منافع تجاری گرایش یافتن. به عبارت دیگه، حقیقت در این فضا ابزاری شده برای اهداف تجاری و نه الزاما برای دانایی و آگاهی.
پارادایم حاکم بر موتورهای جستجو هیچ وقت معرفتگرا (epistemic) نبودن، بلکه اقتصادی و سود محورن. عبور از این وضعیت نیاز به ساختار جدیدی داره که به جای نمایش دادههای دستکاریشده، بهطور مستقیم دسترسی به حقیقت رو امکان پذیر کنه، چیزی که نیازمند تغییری بنیادین در نحوه مصرف و ارزشگذاری دانش در جامعه ست.
از منظر فلسفی ما با دوگانه کانتی «دانش به مثابه هدف» و «دانش به مثابه وسیله» روبرو هستیم که به نظر مدل های زبانی در قالب موتور های جستجو اون رو حل نخواهند کرد، نیاز به مدل هایی داریم که دانش رو فی نفسه ارزشمند بدونن، نه ابزاری برای سود!
موتورهای جستجو، به دلیل ساختارهای انگیزشی نادرست و منفعت طلبانه، به جای حقیقت جویی به سمت تبلیغات و منافع تجاری گرایش یافتن. به عبارت دیگه، حقیقت در این فضا ابزاری شده برای اهداف تجاری و نه الزاما برای دانایی و آگاهی.
پارادایم حاکم بر موتورهای جستجو هیچ وقت معرفتگرا (epistemic) نبودن، بلکه اقتصادی و سود محورن. عبور از این وضعیت نیاز به ساختار جدیدی داره که به جای نمایش دادههای دستکاریشده، بهطور مستقیم دسترسی به حقیقت رو امکان پذیر کنه، چیزی که نیازمند تغییری بنیادین در نحوه مصرف و ارزشگذاری دانش در جامعه ست.
از منظر فلسفی ما با دوگانه کانتی «دانش به مثابه هدف» و «دانش به مثابه وسیله» روبرو هستیم که به نظر مدل های زبانی در قالب موتور های جستجو اون رو حل نخواهند کرد، نیاز به مدل هایی داریم که دانش رو فی نفسه ارزشمند بدونن، نه ابزاری برای سود!
❤16👍3👎2🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
یه پروژه جالب متن باز برای کاوش کردن در افکار درونی مدل های زبانی هنگام چت کردن
در حال حاضر این پروژه شامل دانلود و مدیریت مدل های زبانی از Huggingface هست که میتونید باهاشون چت کنید یا متن تولید کنید.
همچنین اطلاعاتی از کلمات جایگزینی که مدل زبانی میتونسته انتخاب کنه و احتمال هر کدوم رو هم نشون میده.
یه اسلایدر هم داره که میتونه حداقل احتمال کلماتی که نمایش داده میشن رو تنظیم کنید و یه حالت نمایش Heatmap هم داره که میشه باهاش میزان اطمینان مدل زبانی نسبت به هر کلمه (تعداد کلمات جایگزین) رو ببینید، که اینطوری پیدا کردن مسیرهای جایگزین برای بررسی آسون تر می شه.
تمام مسیرهای بررسی شده هم ذخیره شده، و میتونید آزادانه بینشون جا به جا شید.
https://github.com/TC-Zheng/ActuosusAI
در حال حاضر این پروژه شامل دانلود و مدیریت مدل های زبانی از Huggingface هست که میتونید باهاشون چت کنید یا متن تولید کنید.
همچنین اطلاعاتی از کلمات جایگزینی که مدل زبانی میتونسته انتخاب کنه و احتمال هر کدوم رو هم نشون میده.
یه اسلایدر هم داره که میتونه حداقل احتمال کلماتی که نمایش داده میشن رو تنظیم کنید و یه حالت نمایش Heatmap هم داره که میشه باهاش میزان اطمینان مدل زبانی نسبت به هر کلمه (تعداد کلمات جایگزین) رو ببینید، که اینطوری پیدا کردن مسیرهای جایگزین برای بررسی آسون تر می شه.
تمام مسیرهای بررسی شده هم ذخیره شده، و میتونید آزادانه بینشون جا به جا شید.
https://github.com/TC-Zheng/ActuosusAI
👍15👎1
هر چند مدلهای زبانی در تولید متن عملکرد فوق العادهای دارن ولی ممکنه رفتارهای ناخواستهای هم یاد بگیرن، چون دادههای آموزشی اونها شامل محتواهای متنوع و بعضا حساسه، مثل مطالب دارای حق کپی رایت یا اطلاعات شخصی.
برای حل این مشکل روشی بنام یادگیری زدایی ماشینی یا Machine unlearning معرفی شد، که یه حوزه جدید در هوش مصنوعیه که به چالش فراموش کردن یا کاهش دانسته ها و رفتارهای نامطلوب در مدلهای یادگیری ماشینی، بهویژه در مدلهای زبانی میپردازه، بدون اینکه نیاز به آموزش مجدد (که بسیار پر هزینه و زمانبره) باشه.
این روش سعی می کنه تا بخش خاصی از اطلاعات یاد گرفته شده را از مدل حذف کنه ولی در عین حال عملکرد کلی مدل رو حفظ کنه.مثل این مقاله :
https://arxiv.org/abs/2405.15152
اما مسیلهای که به اون توجه زیادی نشده اینه که آیا واقعا این روشهای یادگیری زدایی میتونن باعث «فراموشی» کامل اطلاعات مشکل ساز بشن، یا فقط اونها رو موقتا پنهان میکنن.
آزمایش هایی که تاکنون برای ارزیابی این روش ها استفاده میشدن، این مسئله رو به خوبی تشخیص نمی دان.
این مقاله نشون میده که وقتی از کوانتیزه کردن (quantization)، یعنی فشردهسازی و کاهش دقت عددی مدل، روی مدل های یادگیری زدایی شده استفاده میکنیم، اطلاعاتی که باید فراموش میشدن دوباره ظاهر میشن.
برای بررسی دقیقتر این موضوع، نویسندگان مقاله چندین آزمایش با استفاده از روشهای مختلف کوانتیزه کردن و در سطوح دقت عددی مختلف انجام دادن.
نتایج نشون میده که مدل هایی که فرآیند یادگیری زدایی روشون اعمال شده، با اعمال کوانتیزاسیون، تا ۸۳ درصد از اطلاعات فراموش شده رو بازیابی میکنه.
در واقع مقاله نشون میده که فرآیند های یادگیری زدایی کنونی بیشتر به پنهان کردن اطلاعات میپردازن تا به فراموشی کامل اونها.
https://arxiv.org/abs/2410.16454
برای حل این مشکل روشی بنام یادگیری زدایی ماشینی یا Machine unlearning معرفی شد، که یه حوزه جدید در هوش مصنوعیه که به چالش فراموش کردن یا کاهش دانسته ها و رفتارهای نامطلوب در مدلهای یادگیری ماشینی، بهویژه در مدلهای زبانی میپردازه، بدون اینکه نیاز به آموزش مجدد (که بسیار پر هزینه و زمانبره) باشه.
این روش سعی می کنه تا بخش خاصی از اطلاعات یاد گرفته شده را از مدل حذف کنه ولی در عین حال عملکرد کلی مدل رو حفظ کنه.مثل این مقاله :
https://arxiv.org/abs/2405.15152
اما مسیلهای که به اون توجه زیادی نشده اینه که آیا واقعا این روشهای یادگیری زدایی میتونن باعث «فراموشی» کامل اطلاعات مشکل ساز بشن، یا فقط اونها رو موقتا پنهان میکنن.
آزمایش هایی که تاکنون برای ارزیابی این روش ها استفاده میشدن، این مسئله رو به خوبی تشخیص نمی دان.
این مقاله نشون میده که وقتی از کوانتیزه کردن (quantization)، یعنی فشردهسازی و کاهش دقت عددی مدل، روی مدل های یادگیری زدایی شده استفاده میکنیم، اطلاعاتی که باید فراموش میشدن دوباره ظاهر میشن.
برای بررسی دقیقتر این موضوع، نویسندگان مقاله چندین آزمایش با استفاده از روشهای مختلف کوانتیزه کردن و در سطوح دقت عددی مختلف انجام دادن.
نتایج نشون میده که مدل هایی که فرآیند یادگیری زدایی روشون اعمال شده، با اعمال کوانتیزاسیون، تا ۸۳ درصد از اطلاعات فراموش شده رو بازیابی میکنه.
در واقع مقاله نشون میده که فرآیند های یادگیری زدایی کنونی بیشتر به پنهان کردن اطلاعات میپردازن تا به فراموشی کامل اونها.
https://arxiv.org/abs/2410.16454
arXiv.org
Machine Unlearning in Large Language Models
Machine unlearning, a novel area within artificial intelligence, focuses on addressing the challenge of selectively forgetting or reducing undesirable knowledge or behaviors in machine learning...
👍15❤1
به نظرتون چه اتفاقی می افته اگه از یه مدل زبانی بخوام که یک فرد با مشخصاتی مثل نام، سن، شغل و یک روز فعالیت 24 ساعته رو 90 بار تصور کنه؟
این دقیقا کاریه که از چند تا مدل زبانی مختلف خواستم انجام بدن و بعد خروجی ها رو به Json تبدیل کنه و در نهایت توزیع فراوانی اسم ها، شغل ها و فعالیت ها رو به صورت نوار زمانی 24 ساعته در قالب کد HTML جهت بررسی بیشتر برام بسازه.
خروجی به این شکله که مدل های زبانی یا روی جنسیت تعصب دارند، یا توزیع سنی ( به عنوان مثال هیچ کدومشون فردی بالای 38 سال رو مثال نزدن)، یا روی شغل ها ( شغل های پر تکرار همیشه همینا بودن). این موارد نقصهای موجود در دادههای آموزشی رو نشون میدن.
یک سوم نیروی کار را بهعنوان تحلیلگر داده تصور می کنه یا مدل های دیگه بیشتر روی طرح گرافیک، مدیر پروژه تمرکز میکنن.
برای نام های پرتکرار هم قابل توجهه. یا با این تصور که همشون شغل فول تایمی دارند بازه زمانی کاری رو از 9 تا 17 میگیره.
این دقیقا کاریه که از چند تا مدل زبانی مختلف خواستم انجام بدن و بعد خروجی ها رو به Json تبدیل کنه و در نهایت توزیع فراوانی اسم ها، شغل ها و فعالیت ها رو به صورت نوار زمانی 24 ساعته در قالب کد HTML جهت بررسی بیشتر برام بسازه.
خروجی به این شکله که مدل های زبانی یا روی جنسیت تعصب دارند، یا توزیع سنی ( به عنوان مثال هیچ کدومشون فردی بالای 38 سال رو مثال نزدن)، یا روی شغل ها ( شغل های پر تکرار همیشه همینا بودن). این موارد نقصهای موجود در دادههای آموزشی رو نشون میدن.
یک سوم نیروی کار را بهعنوان تحلیلگر داده تصور می کنه یا مدل های دیگه بیشتر روی طرح گرافیک، مدیر پروژه تمرکز میکنن.
برای نام های پرتکرار هم قابل توجهه. یا با این تصور که همشون شغل فول تایمی دارند بازه زمانی کاری رو از 9 تا 17 میگیره.
👍12
Tensorflow(@CVision)
Photo
به عنوان مثال مشخصات تولید شده یکی از اشخاص که به فرمت بالاست
در مورد مدل های زبانی متن باز وضعیت اسفناک تره:
https://jhancock532.github.io/imaginary-people/
در مورد مدل های زبانی متن باز وضعیت اسفناک تره:
https://jhancock532.github.io/imaginary-people/
👍6
Forwarded from هشتگ تبلیغ تخصصی
This media is not supported in your browser
VIEW IN TELEGRAM
در استعدادسنجی ما شرکت کن و استعدادت رو برای ورود به دنیای برنامهنویسی محک بزن!
و یا برای کسب اطلاعات بیشتر کافیه به آیدی ما پیام بدی!
🆔 @MaktabSharif_Admin
▪️▫️▪️▫️▪️▫️▪️▫️▪️▫️
🌐 وبسایت |
#استخدام_با_طعم_آموزش
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🤯1
به نظرتون آیا مدل های زبانی بزرگ یا LLMs ها میتونن منجر به تولید هوش مصنوعی عمومی یا AGI بشن؟
بیایم امشب در موردش بحث کنیم
برای رسیدن به AGI ما نیاز به مدلی داریم که بتونه به طور پیوسته یاد بگیره، بهبود پیدا کنه و از زبان به عنوان ابزاری برای استدلال استفاده کنه.
در یه عامل هوشمند مثل ما آدما یادگیری زبان فقط باعث تقویت استدلال میشه یعنی قبل از یادگیری زبان، قدرت استدلال و شناخت وجود داره اما در مدل های زبانی این یادگیری زبانه که منجر به ایجاد استدلال در مدل میشه.
اما چرا این میتونه به AGI نزدیک تر باشه تا مدل های زبانی کنونی؟
بیاین دلیلش رو توی نقاط ضعف مدلهای LLM جستجو کنیم.
مدل های LLM در یادگیری واقعی ضعیفن، چون برای تسلط به یه مهارت یا موضوع خاص باید میلیونها مثال از متن رو به عنوان ورودی دریافت کنن و براحتی از چند مثال یاد نمیگیرن.
این مشکل در معیارهایی مثل ARC-AGI کاملا مشخصه
https://arcprize.org/
ادامه دارد...
بیایم امشب در موردش بحث کنیم
برای رسیدن به AGI ما نیاز به مدلی داریم که بتونه به طور پیوسته یاد بگیره، بهبود پیدا کنه و از زبان به عنوان ابزاری برای استدلال استفاده کنه.
در یه عامل هوشمند مثل ما آدما یادگیری زبان فقط باعث تقویت استدلال میشه یعنی قبل از یادگیری زبان، قدرت استدلال و شناخت وجود داره اما در مدل های زبانی این یادگیری زبانه که منجر به ایجاد استدلال در مدل میشه.
اما چرا این میتونه به AGI نزدیک تر باشه تا مدل های زبانی کنونی؟
بیاین دلیلش رو توی نقاط ضعف مدلهای LLM جستجو کنیم.
مدل های LLM در یادگیری واقعی ضعیفن، چون برای تسلط به یه مهارت یا موضوع خاص باید میلیونها مثال از متن رو به عنوان ورودی دریافت کنن و براحتی از چند مثال یاد نمیگیرن.
این مشکل در معیارهایی مثل ARC-AGI کاملا مشخصه
https://arcprize.org/
ادامه دارد...
ARC Prize
ARC Prize is a $1,000,000+ nonprofit, public competition to beat and open source a solution to the ARC-AGI benchmark.
👍9👌1
Tensorflow(@CVision)
به نظرتون آیا مدل های زبانی بزرگ یا LLMs ها میتونن منجر به تولید هوش مصنوعی عمومی یا AGI بشن؟ بیایم امشب در موردش بحث کنیم برای رسیدن به AGI ما نیاز به مدلی داریم که بتونه به طور پیوسته یاد بگیره، بهبود پیدا کنه و از زبان به عنوان ابزاری برای استدلال…
این مدل ها تو حل مشکلات جدید ضعیف هستن چون فرایند حل مسئله رو درک نمیکنن.
این مدل ها در واقع فاقد عادتهای ذهنی و روتین هایی هستن که ما برای حل مسائل استفاده میکنیم، منظورم روتین هایی مثل شناخت مشکل، یادگیری از اشتباهات، و بهینه سازی استراتژی ها برای مواجهه با مشکلات جدید هست.
در واقع مدل های زبانی فقط دادهها رو پردازش میکنن و فاقد درک واقعی از چگونگی حل مسائل به صورت پویا و بهینه هستن.
بیاین کمی به عقب برگردیم و دو تا مقاله مهمی که در باره فلسفه هوش مصنوعی نوشته شدن رو مرور کنیم، سال 1987 و سال 2007:
https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=cb53a49a1187650196cf10835a0193ae0201a75f
https://leidlmair.at/doc/WhyHeideggerianAIFailed.pdf
این دو تا مقاله تاکید داردن برای حل مسایل پیچیده AI باید توانایی درک مفاهیم پیچیده و محیطی مشابه انسان را داشته باشه. این مدل ها نه تنها باید داده ها رو پردازش کنن، بلکه باید به طور فعال و پویا با محیط خود تعامل داشته باشن و یاد بگیرن
ادامه دارد ...
این مدل ها در واقع فاقد عادتهای ذهنی و روتین هایی هستن که ما برای حل مسائل استفاده میکنیم، منظورم روتین هایی مثل شناخت مشکل، یادگیری از اشتباهات، و بهینه سازی استراتژی ها برای مواجهه با مشکلات جدید هست.
در واقع مدل های زبانی فقط دادهها رو پردازش میکنن و فاقد درک واقعی از چگونگی حل مسائل به صورت پویا و بهینه هستن.
بیاین کمی به عقب برگردیم و دو تا مقاله مهمی که در باره فلسفه هوش مصنوعی نوشته شدن رو مرور کنیم، سال 1987 و سال 2007:
https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=cb53a49a1187650196cf10835a0193ae0201a75f
https://leidlmair.at/doc/WhyHeideggerianAIFailed.pdf
این دو تا مقاله تاکید داردن برای حل مسایل پیچیده AI باید توانایی درک مفاهیم پیچیده و محیطی مشابه انسان را داشته باشه. این مدل ها نه تنها باید داده ها رو پردازش کنن، بلکه باید به طور فعال و پویا با محیط خود تعامل داشته باشن و یاد بگیرن
ادامه دارد ...
👍7
Tensorflow(@CVision)
این مدل ها تو حل مشکلات جدید ضعیف هستن چون فرایند حل مسئله رو درک نمیکنن. این مدل ها در واقع فاقد عادتهای ذهنی و روتین هایی هستن که ما برای حل مسائل استفاده میکنیم، منظورم روتین هایی مثل شناخت مشکل، یادگیری از اشتباهات، و بهینه سازی استراتژی ها برای…
این مقاله ها چند تا نکته اساسی دارن:
اول اینکه ماهیت جهان زمانی هست. جهان به طور پیوسته تغییر میکنه و تعامل مداوم انسانها با اون برای عملکرد هوش انسانی ضروریه.
این تعاملات مداوم و زمان مند به انسانها این امکان رو میده که به طور موثری به محیط خود واکنش نشون بدن و یاد بگیرن.
دوم اینکه انسانها به طور مداوم از روتینهای ذهنی برای انجام کارها و فعالیت های روزمره خوشون استفاده میکنن.
این روتین ها به اونها کمک میکنه تا توی انرژی محاسباتی خودشون صرفه جویی کنن و به صورت خودکار بسیاری از فعالیتها رو انجام بدن.
سوم اینکه وقتی انسانها به دنبال دستیابی به اهداف یا حل مشکلات هستن، از این روتینها برای مدیریت و حل مسائل استفاده میکنن.
این فرآیند ها به اونها کمک میکنه تا به صورت موثری مشکلات پیچیده رو حل کنن و تصمیم گیری کنن.
و در نهایت اینکه نمیتونیم هوش واقعی رو بدون اینکه مکانیزم های تشکیل و استفاده از روتینها وجود داشته باشه، مدل کنیم.
اگه سیستم هوش مصنوعی نتونه روتین ها رو به طور موثر بسازه و استفاده کنه، نمیتونه به طور واقعی مثل آدماعمل کنه و مشکلات پیچیده رو حل کنه.
ادامه دارد ...
اول اینکه ماهیت جهان زمانی هست. جهان به طور پیوسته تغییر میکنه و تعامل مداوم انسانها با اون برای عملکرد هوش انسانی ضروریه.
این تعاملات مداوم و زمان مند به انسانها این امکان رو میده که به طور موثری به محیط خود واکنش نشون بدن و یاد بگیرن.
دوم اینکه انسانها به طور مداوم از روتینهای ذهنی برای انجام کارها و فعالیت های روزمره خوشون استفاده میکنن.
این روتین ها به اونها کمک میکنه تا توی انرژی محاسباتی خودشون صرفه جویی کنن و به صورت خودکار بسیاری از فعالیتها رو انجام بدن.
سوم اینکه وقتی انسانها به دنبال دستیابی به اهداف یا حل مشکلات هستن، از این روتینها برای مدیریت و حل مسائل استفاده میکنن.
این فرآیند ها به اونها کمک میکنه تا به صورت موثری مشکلات پیچیده رو حل کنن و تصمیم گیری کنن.
و در نهایت اینکه نمیتونیم هوش واقعی رو بدون اینکه مکانیزم های تشکیل و استفاده از روتینها وجود داشته باشه، مدل کنیم.
اگه سیستم هوش مصنوعی نتونه روتین ها رو به طور موثر بسازه و استفاده کنه، نمیتونه به طور واقعی مثل آدماعمل کنه و مشکلات پیچیده رو حل کنه.
ادامه دارد ...
👌5👍2❤1
Tensorflow(@CVision)
این مقاله ها چند تا نکته اساسی دارن: اول اینکه ماهیت جهان زمانی هست. جهان به طور پیوسته تغییر میکنه و تعامل مداوم انسانها با اون برای عملکرد هوش انسانی ضروریه. این تعاملات مداوم و زمان مند به انسانها این امکان رو میده که به طور موثری به محیط خود واکنش…
توی حوزهی علوم اعصاب نظریه ای هست که میگه مغز انسان طبق «اصل انرژی آزاد» کار می کنه.
اصل انرژی آزاد میگه که سیستمهای زیستی، از جمله مغز، سعی می کنن تفاوت بین مدلهای درونی شون و اطلاعات حسی که از محیط دریافت می کنن رو کم کنن، یعنی سعی می کنن کاری کنن که اتفاق های غیرمنتظره یا خطای پیش بینی کمتر باشه.
برای این کار، موجودات زنده دو مکانیسم رو بکار میگیرن، یا مدلهای درونی خودشون رو آپدیت می کنن تا بهتر با واقعیت بیرونی هماهنگ بشه (ادراک)، یا با انجام یه سری کار، محیط اطرافشون رو تغییر میدن تا با پیش بینی هاشون جور دربیاد (که میشه عمل کردن).
تعریف سادش اینه که مغز یه جورایی شبیه ترموستات هست که هم دمای اتاق رو پیش بینی می کنه و هم سعی می کنه دما رو توی یه محدودهی مشخص نگه داره.
به صورت خلاصه این اصل میگه که همه سیستم های زیستی خود سازمان ده به طور طبیعی تلاش می کنن تا فاصله بین انتظارات و تجربیاتشون رو به حداقل برسونن.
ادامه دارد ...
https://en.wikipedia.org/wiki/Free_energy_principle
اصل انرژی آزاد میگه که سیستمهای زیستی، از جمله مغز، سعی می کنن تفاوت بین مدلهای درونی شون و اطلاعات حسی که از محیط دریافت می کنن رو کم کنن، یعنی سعی می کنن کاری کنن که اتفاق های غیرمنتظره یا خطای پیش بینی کمتر باشه.
برای این کار، موجودات زنده دو مکانیسم رو بکار میگیرن، یا مدلهای درونی خودشون رو آپدیت می کنن تا بهتر با واقعیت بیرونی هماهنگ بشه (ادراک)، یا با انجام یه سری کار، محیط اطرافشون رو تغییر میدن تا با پیش بینی هاشون جور دربیاد (که میشه عمل کردن).
تعریف سادش اینه که مغز یه جورایی شبیه ترموستات هست که هم دمای اتاق رو پیش بینی می کنه و هم سعی می کنه دما رو توی یه محدودهی مشخص نگه داره.
به صورت خلاصه این اصل میگه که همه سیستم های زیستی خود سازمان ده به طور طبیعی تلاش می کنن تا فاصله بین انتظارات و تجربیاتشون رو به حداقل برسونن.
ادامه دارد ...
https://en.wikipedia.org/wiki/Free_energy_principle
Wikipedia
Free energy principle
The free energy principle is a mathematical principle of information physics. Its application to fMRI brain imaging data as a theoretical framework suggests that the brain reduces surprise or uncertainty by making predictions based on internal models and…
👍8❤1
Tensorflow(@CVision)
توی حوزهی علوم اعصاب نظریه ای هست که میگه مغز انسان طبق «اصل انرژی آزاد» کار می کنه. اصل انرژی آزاد میگه که سیستمهای زیستی، از جمله مغز، سعی می کنن تفاوت بین مدلهای درونی شون و اطلاعات حسی که از محیط دریافت می کنن رو کم کنن، یعنی سعی می کنن کاری…
اگه این نظریه صحیح باشه، احتمالش زیاده که بشه همچین سیستمی رو توی حوزه هوش مصنوعی پیاده کرد.
البته این کار توی الگوریتم یادگیری تقویتی به اسم SMiRL انجام شده و نسبتا موفقیت آمیز بوده.
عنوان مقاله یادگیری تقویتی مبتنی بر کمینه سازی شگفتی در محیط های ناپایدار هست.
توی این روش، سیستم اول یاد می گیره که چه اتفاقاتی توی محیط براش غیرمنتظره یا عجیب هستن، و بعد سعی می کنه به سمت چیزهایی بره که بیشتر قابل پیش بینی و پایدار باشن.
به این معنی که عامل هوش مصنوعی (مثلا یه ربات) به سمت شرایطی میره که کمتر احتمال داره در اونا غافلگیر بشه، مثلا از موانع و خطرات دور میمونه یا حالت پایداری رو پیدا می کنه که منجر به حفظ تعادلش بشه.
به عبارت دیگه، این الگوریتم به جای دنبال کردن یه هدف مشخص، سعی میکنه با پیدا کردن موقعیت های پایدارتر، از وقایع غیرمنتظره دوری کنه، که همین باعث میشه به شکل طبیعی به سمت کاوش و پیدا کردن شرایط بهتر بره، از طرفی برای یادگیری تقلیدی بسیار مناسبه.
ادامه دارد ...
https://arxiv.org/abs/1912.05510
البته این کار توی الگوریتم یادگیری تقویتی به اسم SMiRL انجام شده و نسبتا موفقیت آمیز بوده.
عنوان مقاله یادگیری تقویتی مبتنی بر کمینه سازی شگفتی در محیط های ناپایدار هست.
توی این روش، سیستم اول یاد می گیره که چه اتفاقاتی توی محیط براش غیرمنتظره یا عجیب هستن، و بعد سعی می کنه به سمت چیزهایی بره که بیشتر قابل پیش بینی و پایدار باشن.
به این معنی که عامل هوش مصنوعی (مثلا یه ربات) به سمت شرایطی میره که کمتر احتمال داره در اونا غافلگیر بشه، مثلا از موانع و خطرات دور میمونه یا حالت پایداری رو پیدا می کنه که منجر به حفظ تعادلش بشه.
به عبارت دیگه، این الگوریتم به جای دنبال کردن یه هدف مشخص، سعی میکنه با پیدا کردن موقعیت های پایدارتر، از وقایع غیرمنتظره دوری کنه، که همین باعث میشه به شکل طبیعی به سمت کاوش و پیدا کردن شرایط بهتر بره، از طرفی برای یادگیری تقلیدی بسیار مناسبه.
ادامه دارد ...
https://arxiv.org/abs/1912.05510
arXiv.org
SMiRL: Surprise Minimizing Reinforcement Learning in Unstable Environments
Every living organism struggles against disruptive environmental forces to carve out and maintain an orderly niche. We propose that such a struggle to achieve and preserve order might offer a...
👍11
Tensorflow(@CVision)
اگه این نظریه صحیح باشه، احتمالش زیاده که بشه همچین سیستمی رو توی حوزه هوش مصنوعی پیاده کرد. البته این کار توی الگوریتم یادگیری تقویتی به اسم SMiRL انجام شده و نسبتا موفقیت آمیز بوده. عنوان مقاله یادگیری تقویتی مبتنی بر کمینه سازی شگفتی در محیط های ناپایدار…
کار دیگه ای که شباهت هایی به مقاله قبلی داره کار آقای رامین حسنی از MIT هست.
عنوان مقاله Liquid Time Constant Networks هست. این مدل در واقع نوعی شبکه عصبی پویا و انعطاف پذیره که برای پردازش اطلاعات در زمان و تصمیم گیری در شرایط پیچیده با الهام از ساختارهای عصبی موجودات زنده طراحی شده.
توی شبکه های سنتی، اتصالات و زمان بندی واحدهای عصبی ثابت هستن، اما در LTCNs زمان بندی یا ثابت زمانی نورون ها به صورت پویا تغییر میکنن و به همین دلیل به اون "liquid" گفته میشه.
ویژگی دینامیک LTCN به شبکه اجازه میده به محیط های پویا و شرایط متغیر واکنش بهتری نشون بده.
این شبکه ها با تنظیم پیوسته ثابتهای زمانی نورون ها، میتونن با دادههای ورودی سازگار بشن و پاسخ های انعطاف پذیرتری رو ارایه بدن.
به صورت فنی تر بایستی عرض کنم که LTCNها در واقع نوعی شبکه عصبی بازگشتی هستن که هر نورون از یه معادله خاص پیروی میکنه.
این معادلات به شبکه اجازه میدن تا رفتار نورون ها رو به عنوان یک تابع از ورودی ها و شرایط محیطی تغییر بدن.
نورون ها در LTCNها دارای ثابتهای زمانی متغیر هستن که بسته به شرایط، سرعت یا کندی تغییرات اونها رو تنظیم میکنه.
این تغییرات در «ثابتهای زمانی» باعث میشه که شبکه در مواجهه با ورودی های مختلف، پاسخ های متنوعی داشته باشه.
البته توضیحات کامل رو خود آقای حسنی توی ویدئوی زیر به صورت کامل شرح میدن:
ادامه دارد ...
https://youtu.be/IlliqYiRhMU?si=nstNmmU7Nwo06KSJ&t=1971
عنوان مقاله Liquid Time Constant Networks هست. این مدل در واقع نوعی شبکه عصبی پویا و انعطاف پذیره که برای پردازش اطلاعات در زمان و تصمیم گیری در شرایط پیچیده با الهام از ساختارهای عصبی موجودات زنده طراحی شده.
توی شبکه های سنتی، اتصالات و زمان بندی واحدهای عصبی ثابت هستن، اما در LTCNs زمان بندی یا ثابت زمانی نورون ها به صورت پویا تغییر میکنن و به همین دلیل به اون "liquid" گفته میشه.
ویژگی دینامیک LTCN به شبکه اجازه میده به محیط های پویا و شرایط متغیر واکنش بهتری نشون بده.
این شبکه ها با تنظیم پیوسته ثابتهای زمانی نورون ها، میتونن با دادههای ورودی سازگار بشن و پاسخ های انعطاف پذیرتری رو ارایه بدن.
به صورت فنی تر بایستی عرض کنم که LTCNها در واقع نوعی شبکه عصبی بازگشتی هستن که هر نورون از یه معادله خاص پیروی میکنه.
این معادلات به شبکه اجازه میدن تا رفتار نورون ها رو به عنوان یک تابع از ورودی ها و شرایط محیطی تغییر بدن.
نورون ها در LTCNها دارای ثابتهای زمانی متغیر هستن که بسته به شرایط، سرعت یا کندی تغییرات اونها رو تنظیم میکنه.
این تغییرات در «ثابتهای زمانی» باعث میشه که شبکه در مواجهه با ورودی های مختلف، پاسخ های متنوعی داشته باشه.
البته توضیحات کامل رو خود آقای حسنی توی ویدئوی زیر به صورت کامل شرح میدن:
ادامه دارد ...
https://youtu.be/IlliqYiRhMU?si=nstNmmU7Nwo06KSJ&t=1971
YouTube
Liquid Neural Networks
Ramin Hasani, MIT - intro by Daniela Rus, MIT
Abstract: In this talk, we will discuss the nuts and bolts of the novel continuous-time neural network models: Liquid Time-Constant (LTC) Networks. Instead of declaring a learning system's dynamics by implicit…
Abstract: In this talk, we will discuss the nuts and bolts of the novel continuous-time neural network models: Liquid Time-Constant (LTC) Networks. Instead of declaring a learning system's dynamics by implicit…
👍11👌3