Tensorflow(@CVision) 3802

Tensorflow(@CVision)

اینها فقط بخش کوچکی از تحقیقات خود بهبود دهی در زمینه هوش مصنوعیه Deepmind، Microsoft و Apple هم مقالات مشابهی منتشر کردن و به این مفهوم پرداختن. با این حال، با توجه به تحقیقاتی که تا الان دیدیم ممکنه به اون لحظه پرواز هوش مصنوعی که بعضی ها فکر میکنن، نزدیک…

با توجه به مواردی که عنوان شد ، تلاش برای رسیدن به آخرین اختراعی که انسان نیاز داره بسازه(هوش مصنوعی خود بهبود دهنده که منجر به انفجار پدیده هوش میشه) طبق گفته I.J. Good قطعا ادامه خواهد داشت.

اما در حال حاضر، تشخیص اینکه آیا واقعا در آستانه یه هوش مصنوعی هستیم که از کنترل خارج میشه و در یک حلقه خود بهبود دهنده قرار می‌گیره، خیلی سخته.

در عوض، ممکنه بیشتر شاهد استفاده از ابزارهای جدید هوش مصنوعی برای بهبود ابزارهای آینده باشیم، به شیوه‌هایی که میتونه از عادی تا تحول ‌آفرین متغیر باشه.

پایان.

👍7

2.93K viewsAlister ☄️, 18:10

Tensorflow(@CVision)

این مقاله جدید از Google DeepMind به بررسی مدل‌های زبانی بزرگ و چگونگی کاهش هزینه و پیچیدگی اونها از طریق اشتراک‌گذاری پارامترها می‌پردازه.

به اشتراک‌گذاری پارامترها، روشی برای کاهش اندازه و هزینه مدل‌ هاست، اما تا به حال در LLM های مدرن به‌ خوبی بهره‌ برداری نشدن. در این مقاله، با استفاده از روش layer tying به‌عنوان روشی برای به اشتراک‌ گذاری پارامترها در مدل‌های Transformer پرداخته و رویکردی جدیدی به نام Recursive Transformer رو معرفی کردن که پارامترها را بین لایه‌ های مختلف مدل به اشتراک می‌گذاره، بدون اینکه افت عملکرد قابل توجهی رخ بده

در مدل پیشنهادی، به جای استفاده از چندین لایه‌ی یکتا در مدل، از یه مجموعه بلوک منفرد از لایه ها که چندین بار تکرار میشه استفاده میکنن. این روش موجب میشه تا اندازه مدل‌ به صورت چشمگیری کاهش و بازدهی افزایش پیدا کنه.

این روش در مدل‌ های Recursive Transformers استفاده میشه تا هم در مصرف حافظه صرفه‌ جویی بشه و هم پیچیدگی مدل کاهش پیدا کنه. با تکرار همان بلوک لایه‌ها، تعداد کل پارامترها به شدت کاهش پیدا میکنه، چون دیگه نیازی به ساخت و ذخیره لایه‌ های مختلف و منحصر به‌ فرد نیست.

این روش می‌تونه سرعت استنتاج در مدل های زبانی رو ۲ تا سه برابر افزایش بده.

arxiv.org/pdf/2410.20672

👍5❤1🙏1

4.83K viewsAlister ☄️, 04:50

Tensorflow(@CVision)

mcs (1).pdf

12.7 MB

Mathematics for Computer Science

یک کتاب ۱۰۴۸ صفحه‌ای که به‌صورت رایگان
توسط MIT منتشر شده و تمرکز آن بر توضیح استفاده از مدل‌ها و روش‌های ریاضی برای تحلیل مسائل در علوم کامپیوتر است.

❤5

6.27K viewsedited 09:08

Tensorflow(@CVision)

0:42

This media is not supported in your browser

VIEW IN TELEGRAM

مدل HOVER که توسط آزمایشگاه NVIDIA GEAR ایجاد شده با فقط 1.5 میلیون پارامتر نشون داده که یاد گرفتن مهارت‌های حرکتی پیچیده نیاز به مدل‌های خیلی بزرگ نداره و شبیه‌سازی فیزیک رو تا ۱۰ هزار برابر سریع‌تر می‌کنه، ربات های انسان نما می‌تونن به اندازه‌ ی یک سال حرکت رو تو کمتر از یک ساعت یاد بگیرن.

جیم فن میگه لازم نیست هر مدل بنیادی خیلی بزرگ باشه. ما یه شبکه عصبی با ۱.۵ میلیون پارامتر رو آموزش دادیم که می‌تونه بدن یه ربات انسان‌نما رو کنترل کنه. برای ما آدما راه رفتن، حفظ تعادل و حرکت دادن دست و پا به موقعیت‌های دلخواه کلی پردازش ناخود آگاه می‌خواد. این "ناخودآگاهی" رو تو مدل HOVER جمع کردیم، مدلی که یاد می‌گیره چطور موتورهای یه ربات انسان‌ نما رو هماهنگ کنه تا بتونه حرکت و اشیاء رو کنترل کنه.

👍16

3.7K viewsAlister ☄️, 14:18

Tensorflow(@CVision)

1:05

This media is not supported in your browser

VIEW IN TELEGRAM

Wonder Animation

هر ویدیویی رو به یه صحنه انیمیشنی سه‌بعدی با کاراکترهای کامپیوتری تبدیل میکنه!

این تکنولوژی واقعا یه تحول بزرگ محسوب می‌شه. اگه استفاده ازش آسون بشه و به‌راحتی قابل پیاده‌ سازی باشه، می‌تونه همه چیز رو تو حوزه‌های تولید تصویر و ویدیو با هوش مصنوعی متحول کنه.

علاوه بر این، چون با دارایی‌های مجازی کار می‌کنی، انعطاف زیادی داری و می‌تونی هر زاویه دوربین یا نوع شات رو آزادانه تغییر بدی، که این خودش دستت رو برای خلاقیت بیشتر باز می‌ ذاره.

https://adsknews.autodesk.com/en/news/autodesk-launches-wonder-animation-video-to-3d-scene-technology/

👍5

3.38K viewsAlister ☄️, 14:39

Tensorflow(@CVision)

ماه اکتبر ماه پر خبری بود، مهمترین ها:
Flux 1.1 pro
منتشر شد و قابلیت‌های پیشرفته‌ای برای تولید تصویر رو نشون میده.

متا از مدل جدیدی به نام Movie Gen رونمایی کرده که می‌تونه از طریق متن، ویدیو، تصویر و صدا تولید کنه.

پیکا Video Model 1.5 رو با قابلیت‌های جدید به نام "Pika Effects" معرفی کرد.

Adobe
هم مدل ویدیو سازی خودش به نام Firefly Video رو معرفی کرد.

استارتاپ Rhymes AI مدل آریا (Aria) رو که یک مدل چندرسانه‌ای و متن‌ باز با قابلیت‌ هایی مشابه مدل‌ های خصوصی هم‌ رده هست، عرضه کرد‌.

متا یک مدل speech-to-speech به نام Meta Spirit LM رو به صورت متن‌باز منتشر کرد.

Mistral AI
مدل جدیدی به نام Ministral رو در دو سایز ۳ میلیارد و ۸ میلیارد پارامتری معرفی کرد.

DeepSeek-AI
مدل چند رسانه‌ای جدیدی به نام Janus AI رو که می‌تونه هم متن و هم تصویر رو تشخیص بده و تولید کنه، به صورت متن‌ باز عرضه کرده.

گوگل دیپ‌ مایند و MIT مدل تولید تصویر از متن به نام Fluid رو با ۱۰.۵ میلیارد پارامتر و عملکردی در سطح پیشرو معرفی کردند.

Stable Diffusion
نسخه ۳.۵ رو در سه اندازه به صورت متن‌ باز منتشر کرد.

Anthropic
هم مدل Claude 3.5 Sonnet New رو با پیشرفت‌های قابل توجه نسبت به نسخه قبلی و همچنین Claude 3.5 Haiku رونمایی کرد.

https://nhlocal.github.io/AiTimeline/

nhlocal.github.io

AI Timeline

A comprehensive timeline of Artificial Intelligence milestones from 2022 to present.

👍10

3.87K viewsAlister ☄️, 14:59

Tensorflow(@CVision)

قابلیت جستجو به چت جی پی تی اضافه شد.

چت‌ جی‌ پی‌ تی حالا می‌تونه خیلی بهتر از قبل توی وب جستجو کنه. حالا می‌تونی پاسخ‌ های سریع و به‌ موقع بگیری که لینک‌هایی به منابع مرتبط وب هم داره و دیگه نیازی نیست برای این اطلاعات به موتور جستجو بری

https://openai.com/index/introducing-chatgpt-search/

👍7👌2👎1

3.39K viewsAlister ☄️, 07:34

Tensorflow(@CVision)

سوال اینجاست که چرا OpenAI به قسمت موتور های جستجو ورود کرده ؟ شاید بهتر باشه آخرین صورتهای مالی گوگل رو بررسی کنیم در تاریخ ۲۴ جولای، شرکت مادر گوگل یعنی آلفابت گزارش مالی سه ماهه دوم سال ۲۰۲۴ خود را منتشر کرد. بخش اعظم درآمد گوگل از موتور جستجو هست. در…

چند ماه پیش به صورت های مالی گوگل در سه ماهه سوم نگاه کردیم و به درآمد وسیع گوگل از محل موتور جستجو اشاره شد و چت جی پی تی که خودش رو برای ورود به این حوزه آماده می‌کنه، اما به نظرتون آیا مدل های زبانی هم راه موتور های جستجو در راستای ساختار منفعت طلبانه خودشون خواهند پیمود؟

موتورهای جستجو، به دلیل ساختارهای انگیزشی نادرست و منفعت‌ طلبانه، به جای حقیقت‌ جویی به سمت تبلیغات و منافع تجاری گرایش یافتن. به عبارت دیگه، حقیقت در این فضا ابزاری شده برای اهداف تجاری و نه الزاما برای دانایی و آگاهی.

پارادایم حاکم بر موتورهای جستجو هیچ وقت معرفت‌گرا (epistemic) نبودن، بلکه اقتصادی و سود محورن. عبور از این وضعیت نیاز به ساختار جدیدی داره که به جای نمایش داده‌های دستکاری‌شده، به‌طور مستقیم دسترسی به حقیقت رو امکان‌ پذیر کنه، چیزی که نیازمند تغییری بنیادین در نحوه مصرف و ارزش‌گذاری دانش در جامعه ست.

از منظر فلسفی ما با دوگانه کانتی «دانش به‌ مثابه هدف» و «دانش به‌ مثابه وسیله» روبرو هستیم که به نظر مدل های زبانی در قالب موتور های جستجو اون رو حل نخواهند کرد، نیاز به مدل هایی داریم که دانش رو فی‌ نفسه ارزشمند بدونن، نه ابزاری برای سود!

❤16👍3👎2🤔1

3.8K viewsAlister ☄️, edited 07:40

Tensorflow(@CVision)

1:51

This media is not supported in your browser

VIEW IN TELEGRAM

یه پروژه جالب متن باز برای کاوش کردن در افکار درونی مدل های زبانی هنگام چت کردن

در حال حاضر این پروژه شامل دانلود و مدیریت مدل‌ های زبانی از Huggingface هست که می‌تونید باهاشون چت کنید یا متن تولید کنید.

همچنین اطلاعاتی از کلمات جایگزینی که مدل زبانی می‌تونسته انتخاب کنه و احتمال هر کدوم رو هم نشون میده.

یه اسلایدر هم داره که میتونه حداقل احتمال کلماتی که نمایش داده می‌شن رو تنظیم کنید و یه حالت نمایش Heatmap هم داره که میشه باهاش میزان اطمینان مدل زبانی نسبت به هر کلمه (تعداد کلمات جایگزین) رو ببینید، که اینطوری پیدا کردن مسیرهای جایگزین برای بررسی آسون تر می‌ شه.

تمام مسیرهای بررسی‌ شده هم ذخیره شده، و میتونید آزادانه بینشون جا به‌ جا شید.

https://github.com/TC-Zheng/ActuosusAI

👍15👎1

3.19K viewsAlister ☄️, edited 03:50

Tensorflow(@CVision)

هر چند مدل‌های زبانی در تولید متن عملکرد فوق‌ العاده‌ای دارن ولی ممکنه رفتارهای ناخواسته‌ای هم یاد بگیرن، چون داده‌های آموزشی اونها شامل محتواهای متنوع و بعضا حساسه، مثل مطالب دارای حق کپی‌ رایت یا اطلاعات شخصی.

برای حل این مشکل روشی بنام یادگیری‌ زدایی ماشینی یا Machine unlearning معرفی شد، که یه حوزه جدید در هوش مصنوعیه که به چالش فراموش کردن یا کاهش دانسته‌ ها و رفتارهای نامطلوب در مدل‌های یادگیری ماشینی، به‌ویژه در مدل‌های زبانی می‌پردازه، بدون این‌که نیاز به آموزش مجدد (که بسیار پر هزینه و زمان‌بره) باشه.

این روش سعی می‌ کنه تا بخش خاصی از اطلاعات یاد گرفته شده را از مدل حذف کنه ولی در عین حال عملکرد کلی مدل رو حفظ کنه.مثل این مقاله :

https://arxiv.org/abs/2405.15152

اما مسیله‌ای که به اون توجه زیادی نشده اینه که آیا واقعا این روش‌های یادگیری‌ زدایی میتونن باعث «فراموشی» کامل اطلاعات مشکل‌ ساز بشن، یا فقط اونها رو موقتا پنهان می‌کنن.

آزمایش‌ هایی که تاکنون برای ارزیابی این روش‌ ها استفاده میشدن، این مسئله رو به خوبی تشخیص نمی دان.

این مقاله نشون میده که وقتی از کوانتیزه‌ کردن (quantization)، یعنی فشرده‌سازی و کاهش دقت عددی مدل، روی مدل‌ های یادگیری‌ زدایی شده استفاده می‌کنیم، اطلاعاتی که باید فراموش میشدن دوباره ظاهر میشن.

برای بررسی دقیق‌تر این موضوع، نویسندگان مقاله چندین آزمایش با استفاده از روش‌های مختلف کوانتیزه‌ کردن و در سطوح دقت عددی مختلف انجام دادن.

نتایج نشون میده که مدل‌ هایی که فرآیند یادگیری‌ زدایی روشون اعمال شده، با اعمال کوانتیزاسیون، تا ۸۳ درصد از اطلاعات فراموش شده رو بازیابی میکنه.

در واقع مقاله نشون میده که فرآیند های یادگیری‌ زدایی کنونی بیشتر به پنهان کردن اطلاعات می‌پردازن تا به فراموشی کامل اونها.

https://arxiv.org/abs/2410.16454

arXiv.org

Machine Unlearning in Large Language Models

Machine unlearning, a novel area within artificial intelligence, focuses on addressing the challenge of selectively forgetting or reducing undesirable knowledge or behaviors in machine learning...

👍15❤1

3.27K viewsAlister ☄️, edited 04:35

Tensorflow(@CVision)

به نظرتون چه اتفاقی می افته اگه از یه مدل‌ زبانی بخوام که یک فرد با مشخصاتی مثل نام، سن، شغل و یک روز فعالیت 24 ساعته رو 90 بار تصور کنه؟

این دقیقا کاریه که از چند تا مدل زبانی مختلف خواستم انجام بدن و بعد خروجی ها رو به Json تبدیل کنه و در نهایت توزیع فراوانی اسم ها، شغل ها و فعالیت ها رو به صورت نوار زمانی 24 ساعته در قالب کد HTML جهت بررسی بیشتر برام بسازه.

خروجی به این شکله که مدل های زبانی یا روی جنسیت تعصب دارند، یا توزیع سنی ( به عنوان مثال هیچ کدومشون فردی بالای 38 سال رو مثال نزدن)، یا روی شغل ها ( شغل های پر تکرار همیشه همینا بودن). این موارد نقص‌های موجود در داده‌های آموزشی رو نشون میدن.

یک‌ سوم نیروی کار را به‌عنوان تحلیلگر داده تصور می‌ کنه یا مدل های دیگه بیشتر روی طرح گرافیک، مدیر پروژه تمرکز میکنن.

برای نام های پرتکرار هم قابل توجهه. یا با این تصور که همشون شغل فول تایمی دارند بازه زمانی کاری رو از 9 تا 17 میگیره.

👍12

3.05K viewsAlister ☄️, 16:56

Tensorflow(@CVision)

Photo

به عنوان مثال مشخصات تولید شده یکی از اشخاص که به فرمت بالاست

در مورد مدل های زبانی متن باز وضعیت اسفناک تره:

https://jhancock532.github.io/imaginary-people/

👍6

3.47K viewsAlister ☄️, 16:59

Tensorflow(@CVision)

Forwarded from هشتگ‌ تبلیغ تخصصی

0:43

This media is not supported in your browser

VIEW IN TELEGRAM

💡 اگه به برنامه‌نویسی علاقه داری و میشه روی همت و پشت‌کارت حساب کرد،
در استعدادسنجی ما شرکت کن و استعدادت رو برای ورود به دنیای برنامه‌نویسی محک بزن!

✔️ توضیحات بیشتر = تماشای ویدئو 😎

☯️ شرکت در آزمون و دورۀ آماده‌سازی رایگان ➡️

و یا برای کسب اطلاعات بیشتر کافیه به آی‌دی ما پیام بدی! ‌‌‌‌

🆔 @MaktabSharif_Admin
▪️▫️▪️▫️▪️▫️▪️▫️▪️▫️
🌐 وبسایت |⭐ کانال تلگرام |📹 اینستاگرام

#استخدام_با_طعم_آموزش

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1🤯1

2.86K views18:30

Tensorflow(@CVision)

به نظرتون آیا مدل های زبانی بزرگ یا LLMs ها میتونن منجر به تولید هوش مصنوعی عمومی یا AGI بشن؟

بیایم امشب در موردش بحث کنیم

برای رسیدن به AGI ما نیاز به مدلی داریم که بتونه به ‌طور پیوسته یاد بگیره، بهبود پیدا کنه و از زبان به‌ عنوان ابزاری برای استدلال استفاده کنه.

در یه عامل هوشمند مثل ما آدما یادگیری زبان فقط باعث تقویت استدلال میشه یعنی قبل از یادگیری زبان، قدرت استدلال و شناخت وجود داره اما در مدل های زبانی این یادگیری زبانه که منجر به ایجاد استدلال در مدل میشه.

اما چرا این می‌تونه به AGI نزدیک‌ تر باشه تا مدل های زبانی کنونی؟

بیاین دلیلش رو توی نقاط ضعف مدل‌های LLM جستجو کنیم.

مدل‌ های LLM در یادگیری واقعی ضعیفن، چون برای تسلط به یه مهارت یا موضوع خاص باید میلیون‌ها مثال از متن رو به عنوان ورودی دریافت کنن و براحتی از چند مثال یاد نمیگیرن.

این مشکل در معیارهایی مثل ARC-AGI کاملا مشخصه

https://arcprize.org/

ادامه دارد...

ARC Prize

ARC Prize is a $1,000,000+ nonprofit, public competition to beat and open source a solution to the ARC-AGI benchmark.

👍9👌1

2.67K viewsAlister ☄️, edited 17:31

Tensorflow(@CVision)

این مدل ها تو حل مشکلات جدید ضعیف هستن چون فرایند حل مسئله رو درک نمی‌کنن.

این مدل ‌ها در واقع فاقد عادت‌های ذهنی و روتین ‌هایی هستن که ما برای حل مسائل استفاده میکنیم، منظورم روتین ‌هایی مثل شناخت مشکل، یادگیری از اشتباهات، و بهینه ‌سازی استراتژی ‌ها برای مواجهه با مشکلات جدید هست.

در واقع مدل های زبانی فقط داده‌ها رو پردازش میکنن و فاقد درک واقعی از چگونگی حل مسائل به صورت پویا و بهینه هستن.

بیاین کمی به عقب برگردیم و دو تا مقاله مهمی که در باره فلسفه هوش مصنوعی نوشته شدن رو مرور کنیم، سال 1987 و سال 2007:

https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=cb53a49a1187650196cf10835a0193ae0201a75f

https://leidlmair.at/doc/WhyHeideggerianAIFailed.pdf

این دو تا مقاله تاکید داردن برای حل مسایل پیچیده AI باید توانایی درک مفاهیم پیچیده و محیطی مشابه انسان را داشته باشه. این مدل‌ ها نه تنها باید داده‌ ها رو پردازش کنن، بلکه باید به طور فعال و پویا با محیط خود تعامل داشته باشن و یاد بگیرن

ادامه دارد ...

👍7

2.44K viewsAlister ☄️, edited 17:49

Tensorflow(@CVision)

این مقاله ها چند تا نکته اساسی دارن:

اول اینکه ماهیت جهان زمانی هست. جهان به ‌طور پیوسته تغییر میکنه و تعامل مداوم انسانها با اون برای عملکرد هوش انسانی ضروریه.

این تعاملات مداوم و زما‌ن مند به انسانها این امکان رو می‌ده که به طور موثری به محیط خود واکنش نشون بدن و یاد بگیرن.

دوم اینکه انسانها به طور مداوم از روتین‌های ذهنی برای انجام کارها و فعالیت‌ های روزمره خوشون استفاده میکنن.

این روتین ‌ها به اونها کمک میکنه تا توی انرژی محاسباتی خودشون صرفه‌ جویی کنن و به صورت خودکار بسیاری از فعالیت‌ها رو انجام بدن.

سوم اینکه وقتی انسانها به دنبال دستیابی به اهداف یا حل مشکلات هستن، از این روتین‌ها برای مدیریت و حل مسائل استفاده می‌کنن.

این فرآیند ها به اونها کمک میکنه تا به صورت موثری مشکلات پیچیده رو حل کنن و تصمیم‌ گیری کنن.

و در نهایت اینکه نمیتونیم هوش واقعی رو بدون اینکه مکانیزم‌ های تشکیل و استفاده از روتین‌ها وجود داشته باشه، مدل کنیم.

اگه سیستم هوش مصنوعی نتونه روتین ها رو به طور موثر بسازه و استفاده کنه، نمیتونه به طور واقعی مثل آدماعمل کنه و مشکلات پیچیده رو حل کنه.

ادامه دارد ...

👌5👍2❤1

2.23K viewsAlister ☄️, 17:58

Tensorflow(@CVision)

توی حوزه‌ی علوم اعصاب نظریه ‌ای هست که میگه مغز انسان طبق «اصل انرژی آزاد» کار می ‌کنه.

اصل انرژی آزاد میگه که سیستم‌های زیستی، از جمله مغز، سعی می‌ کنن تفاوت بین مدل‌های درونی ‌شون و اطلاعات حسی که از محیط دریافت می ‌کنن رو کم کنن، یعنی سعی می ‌کنن کاری کنن که اتفاق های غیرمنتظره یا خطای پیش ‌بینی کمتر باشه.

برای این کار، موجودات زنده دو مکانیسم رو بکار میگیرن، یا مدل‌های درونی خودشون رو آپدیت می ‌کنن تا بهتر با واقعیت بیرونی هماهنگ بشه (ادراک)، یا با انجام یه سری کار، محیط اطرافشون رو تغییر میدن تا با پیش ‌بینی‌ هاشون جور دربیاد (که میشه عمل کردن).

تعریف سادش اینه که مغز یه جورایی شبیه ترموستات هست که هم دمای اتاق رو پیش ‌بینی می ‌کنه و هم سعی می‌ کنه دما رو توی یه محدوده‌ی مشخص نگه داره.

به صورت خلاصه این اصل میگه که همه‌ سیستم‌ های زیستی خود سازمان ‌ده به طور طبیعی تلاش می ‌کنن تا فاصله بین انتظارات و تجربیاتشون رو به حداقل برسونن.

ادامه دارد ...

https://en.wikipedia.org/wiki/Free_energy_principle

Wikipedia

Free energy principle

The free energy principle is a mathematical principle of information physics. Its application to fMRI brain imaging data as a theoretical framework suggests that the brain reduces surprise or uncertainty by making predictions based on internal models and…

👍8❤1

2.29K viewsAlister ☄️, edited 18:08

Tensorflow(@CVision)

اگه این نظریه صحیح باشه، احتمالش زیاده که بشه همچین سیستمی رو توی حوزه هوش مصنوعی پیاده کرد.

البته این کار توی الگوریتم یادگیری تقویتی به اسم SMiRL انجام شده و نسبتا موفقیت ‌آمیز بوده.

عنوان مقاله یادگیری تقویتی مبتنی بر کمینه سازی شگفتی در محیط ‌های ناپایدار هست.

توی این روش، سیستم اول یاد می ‌گیره که چه اتفاقاتی توی محیط براش غیرمنتظره یا عجیب هستن، و بعد سعی می ‌کنه به سمت چیزهایی بره که بیشتر قابل پیش‌ بینی و پایدار باشن.

به این معنی که عامل هوش مصنوعی (مثلا یه ربات) به سمت شرایطی میره که کمتر احتمال داره در اونا غافلگیر بشه، مثلا از موانع و خطرات دور میمونه یا حالت پایداری رو پیدا می ‌کنه که منجر به حفظ تعادلش بشه.

به عبارت دیگه، این الگوریتم به جای دنبال کردن یه هدف مشخص، سعی می‌کنه با پیدا کردن موقعیت ‌های پایدارتر، از وقایع غیرمنتظره دوری کنه، که همین باعث می‌شه به شکل طبیعی به سمت کاوش و پیدا کردن شرایط بهتر بره، از طرفی برای یادگیری تقلیدی بسیار مناسبه.

ادامه دارد ...

https://arxiv.org/abs/1912.05510

arXiv.org

SMiRL: Surprise Minimizing Reinforcement Learning in Unstable Environments

Every living organism struggles against disruptive environmental forces to carve out and maintain an orderly niche. We propose that such a struggle to achieve and preserve order might offer a...

👍11

2.54K viewsAlister ☄️, 18:19

Tensorflow(@CVision)

کار دیگه ای که شباهت هایی به مقاله قبلی داره کار آقای رامین حسنی از MIT هست.

عنوان مقاله Liquid Time Constant Networks هست. این مدل در واقع نوعی شبکه عصبی پویا و انعطاف ‌پذیره که برای پردازش اطلاعات در زمان و تصمیم ‌گیری در شرایط پیچیده با الهام از ساختارهای عصبی موجودات زنده طراحی شده.

توی شبکه‌ های سنتی، اتصالات و زمان ‌بندی واحدهای عصبی ثابت هستن، اما در LTCNs زمان‌ بندی یا ثابت زمانی نورون‌ ها به صورت پویا تغییر میکنن و به همین دلیل به اون "liquid" گفته میشه.

ویژگی دینامیک LTCN به شبکه اجازه میده به محیط‌ های پویا و شرایط متغیر واکنش بهتری نشون بده.

این شبکه‌ ها با تنظیم پیوسته ثابت‌های زمانی نورون‌ ها، میتونن با داده‌های ورودی سازگار بشن و پاسخ ‌های انعطاف ‌پذیرتری رو ارایه بدن.

به صورت فنی تر بایستی عرض کنم که LTCN‌ها در واقع نوعی شبکه عصبی بازگشتی هستن که هر نورون از یه معادله‌ خاص پیروی میکنه.

این معادلات به شبکه اجازه میدن تا رفتار نورون ‌ها رو به عنوان یک تابع از ورودی‌ ها و شرایط محیطی تغییر بدن.

نورون ‌ها در LTCN‌ها دارای ثابت‌های زمانی متغیر هستن که بسته به شرایط، سرعت یا کندی تغییرات اونها رو تنظیم می‌کنه.

این تغییرات در «ثابت‌های زمانی» باعث میشه که شبکه در مواجهه با ورودی‌ های مختلف، پاسخ‌ های متنوعی داشته باشه.

البته توضیحات کامل رو خود آقای حسنی توی ویدئوی زیر به صورت کامل شرح میدن:

ادامه دارد ...

https://youtu.be/IlliqYiRhMU?si=nstNmmU7Nwo06KSJ&t=1971

YouTube

Liquid Neural Networks

Ramin Hasani, MIT - intro by Daniela Rus, MIT

Abstract: In this talk, we will discuss the nuts and bolts of the novel continuous-time neural network models: Liquid Time-Constant (LTC) Networks. Instead of declaring a learning system's dynamics by implicit…

👍11👌3

2.34K viewsAlister ☄️, edited 18:28

2025/07/11 21:39:08
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>