Telegram Web Link
Out of Distribution
Illusion of Dimnishing Returns 3/... اما قسمت زیبا و گل پیپر همین جا در سر تعریف کردن اکسپریمنت‌ها و تسک‌هاشه. اینها اومدند برای این که بتونن اون مفاهیم step و turn و task رو عینی کنند یک تسک خیلی ساده اما بسیار کنترل پذیر و عاری از هر گونه فاکتور مزاحم دیگه‌ای…
Illusion of Dimnishing Returns
4/...


ریزالت شگفت این پیپر اما اینجاست. قبلتر گفتیم که دو متریک Turn Acc و Task Acc می‌تونن وجود داشته باشند. در مورد Task Acc واضحه که هر چه قدر که طول تسک بیشتر بشه دقت Task افت پیدا می‌کنه به واسطه این که به هر حال احتمال این که مدل حداقل یک جا خراب کنه بیشتر می‌شه. اما در مورد Turn Acc چه می‌شه گفت؟ در نگاه اول به ذهنمون می‌رسه که Turn Acc یک معیاری مستقل از کوتاهی یا بلندی تسک هست و این که این Turn فعلی درست انجام می‌شه یا نه نباید ربطی به طول تسک داشته باشه. قبلا در پیپر GSM-Infinite مشابه این نشون داده شده بود که اتفاقا با افزایش طول تسک، اون turn هایی که دیرتر هستند، دقتشون پایینتر از turnهای زودتره. در اون پیپر علت این پدیده رو به طولانی‌شدن context ربط داده بودند که منطقی هم هست.

در این پیپر illusion of dimnishing returns اما اومدن یک کار جالب کردند. اومدند یک ستینگی رو تعریف کردند که در اون برای سنجیدن دقت یک turn میان turnهای قبلی اون رو به یک احتمالی خراب می‌کنند و نتیجه‌اش رو عوض می‌کنند. پدیده جالبی که مشاهده کردند اینه که هر چه قدر نرخ خطای turnهای قبلی رو بیشتر می‌کنند مدل‌ در turn های بعدی هم به احتمال بیشتری خطا می‌کنه که اصلا حداقل با ذات عملکردی انسان بدیهی نمی‌خوره. اسم این پدیده رو گذاشتند self-conditioning و این جوری تعریفش کردند که:

Models self-condition on their previous mistakes, leading to degradation in per-step accuracy.


به این معنا که مدل روی خطاهای قبلی که خودش کرده هم مشروط می‌شه و عملکردش تحت تاثیر اونا قرار می‌گیره هر چند اصلا عملیات اجرای این turn فعلی مستقل از اون turn های خراب قدیم باشه. نکته‌ای که مشاهده کردند اینه که scale کردن سایز مدل باعث جلوگیری از self conditioning نمیشه اما thinking تا حدزیادی این مشکل رو برطرف می‌کنه. رازی که خود پیپر درش اظهار نظر نمی‌کنه و دست به حدس می‌زنه اینه که شاید شاید انجام RL در موقع آموزش این مدل‌ها باعث شده که اینها مصون به self-conditioning باشند.
Out of Distribution
Illusion of Dimnishing Returns 4/... ریزالت شگفت این پیپر اما اینجاست. قبلتر گفتیم که دو متریک Turn Acc و Task Acc می‌تونن وجود داشته باشند. در مورد Task Acc واضحه که هر چه قدر که طول تسک بیشتر بشه دقت Task افت پیدا می‌کنه به واسطه این که به هر حال احتمال…
Illusion of Dimnishing Returns
5/5


در نهایت هم یک شکل در مقاله هست که نشون می‌ده که مدلهای مختلف در تسک‌های اجرای بلند چه تفاوتی با هم دارند. گپی که GPT-5 نسبت به بقیه داره قابل توجهه و البته که گویا Gemini 2.5-Pro نسبت به بقیه در این فاکتور وضع خوبی نداره. فاکتوری که می‌تونه در انجام تسک‌های بلند مثل مهندسی‌ نرم‌افزار و ... موثر باشه.
نبرد شناخت اراده‌ها با سنگ، کاغذ، قیچی

چند روزی بود آقای بهنام (که حق استادی به گردن بنده بابت کوبر دارند)، هر از گاهی محض تفنن در حین کار بنده رو به سنگ کاغذ قیچی دعوت می‌کردند. به طرز عجیبی من هم هر بار هر روز به بهنام می‌باختم. بهنام انگار بهتر از من می‌دونست که من در حرکت بعدی می‌خواهم چه اکشنی بزنم. سر همین من بیشتر توجهم به سنگ کاغذ قیچی جلب شد.

سنگ کاغذ به ظاهر بازی هست که هیچ چیزی نداره. شما سه تا اکشن ممکن دارید که هر کدوم رو انتخاب کنید به احتمال ۰.۵ می‌برید و به احتمال ۰.۵ می‌بازید. و حتی عنصر تاسی هم وجود نداره که قطعیت رو از شما سلب کنه. در نگاه اول آدم حس می‌کنه یک بازی کاملا تصادفیه که درش هوشمندی هم معنا نداره ولی اتفاقا وقتی با یک نفر از یک حدی بیشتر بازی می‌کنید، اگر طرف مقابل باهوش باشه می‌تونه کم کم روحیه شما رو از سنگ کاغذ قیچی بفهمه و از همین بتونه حدس بزنه که شما چه استراتژی پیاده می‌کنید. در واقع سنگ کاغذ قیچی در عین ساده بودنش یک استعاره خیلی تمیز از نبرد شناخت اراده‌ها است (دقت کنید که نبرد شناخت اراده‌ها و نه نبرد اراده‌ها، چرا که اراده هم معنی نداره صرفا تنها چیزی که اهمیت داره شناخت اراده‌هاست)

امروز آخر وقت یکبار دیگه فرصت شد با بهنام بازی کنم. در کمال تعجب سه بر صفر شکستش دادم. بهنام تعجب کرد و پرسید که چطوری تونستی بالاخره؟ من گفتم هیچی. فهمیدم که تو من رو می‌شناسی برای همین قبل از این که بازی شروع بشم به تصادف تصمیم گرفتم فارغ از اتفاقات بازی حرکت‌هام رو به ترتیب قیچی، قیچی، کاغذ، قیچی، سنگ بزنم و خب نتیجه داد. فهمیدم که هر چه قدر بیشتر سعی کنم استراتژی بچینم بیشتر بر طبق الگوی رفتاری خودم فکر می‌کنم و الگوی رفتاریم حتی اگر خودم هم بهش واقف نباشم برای بهنام خیلی آشکاره. در چنین شرایطی رندوم بازی کردن بهتر از استراتژی چیدنه و خب شانس بردن در رندوم بازی کردن نصف نصفه. گاهی وقتا رندوم بازی کردن در شرایطی که بقیه شما رو می‌شناسن و حرکت بعدیتون رو می‌دونن بهترین حرکت ممکنه.

پی‌نوشت: نقطه آخر رو که گذاشتم، از ذهنم گذشت که سیاست خارجی ایران امروز چه قدر پیش‌بینی پذیر هست.

پی‌نوشت: آقای مصطفی مشکاتی لطفا به بخش کامنت‌ها مراجعه کنند چند نفر کارشون دارند.
به حشر، تن به جحیم افکنم نخستین گام
دل و دماغ رسن‌بازی صراطم نیست

طالب آملی در این بیت می‌گه روز قیامت که بشه همون گام اول خودم رو از روی پل صراط به جهنم می‌اندازم، حال و حوصله رو پل رفتن و تلاش برای روش موندن و نیافتادن رو ندارم. شاعر چنان از اعمال دنیوی خود مایوس است که خود را اهل بهشت نمی‌داند و ترجیح می‌دهد از همان ابتدا به جای امتحان‌دادن از پل صراط، کار را یکسره کند.
انقلابی در راه است: مدل‌های ویدئویی چگونه فرمول‌بندی مسائل ویژنی را تغییر می‌دهند؟


در چند سال اخیر، بعد از موفقیت مدل‌های generative در حوزه متن، به تازگی مدل‌های video generation هم در حال توسعه هستند. این مدل‌ها این شکلی‌اند که شما یک پرامپت مثل "یک طوطی در حال فوتبال بازی کردن" بهش می‌دید و اون هم برای شما فریم به فریم یک ویدئو مرتبط با اون پرامپت رو می‌کشه و در نهایت یک ویدئو بهتون می‌ده. حالا اگر از شما پرسیده بشه کاربرد این video modelها چیه، شما احتمال زیاد پاسخ می‌دید که باهاش میشه ویدئو تولید کرد. این پاسخ اشتباه نیست ولی کامل هم نیست. در واقع مثل این می‌مونه که بپرسیم با LLMها می‌شه چه کار کرد و پاسخ بدیم که می‌شه باهاش چت کرد. در حالی که با LLMها می‌شه خیلی‌ کارهای دیگه رو در قالب و بستر چت هندل کرد.

مرتبط با این حالا یک ریسرچی اومده و بررسی کرده که آیا تسک‌های ویژنی رو می‌شه با این video modelها انجام داد یا نه؟ به این منظور اومدن مدل veo3 گوگل که خفن‌ترین مدل ویدئو جنریشن فعلی هست رو برداشتند و سعی کردند با پرامپت‌دادن بهش عملکرد این مدل رو توی تسک‌های مختلف ویژنی بسنجیند. مثلا چه شکلیه؟ مثلا بهش تصویر یک طوطی می‌دید و می‌گید سگمنتیشن روش بکن و حالا video model میاد و فریم به فریم عملیات سگمنتشن رو روی این انجام می‌ده تا به فریم نهایی که همون جواب سگمنتیشن هست برسه. حالا این ریسرچ اومده و دسته تسک‌های مختلف رو با veo3 تست گرفت. دسته perception مثل همین تسک‌های ویژنی ساده سگمنتیشن و کی پوینت درآوردن، دسته Modeling مثل سنجیدن توانایی‌های world modelای مثلا به مدل می‌گن کاغذ رو آتش بزن بنداز تو آب (ببینند آیا مدل می‌تونه درست پیش بینی کنه عاقبت این کار چه می‌شه)، و دسته کارهای reasoning ای (مثلا یک ماز رو می‌دن به مدل می‌گن مسیر خروجی رو دربیار ا اصلا فلان الگوریتم رو روی این گراف اجرا کن) (یا حتی کارهایی از جنس binding مثلا یک صحنه پر از مکعب و کره‌های آبی و قرمز رو می‌دن به مدل بعد میگن مکعب آبی شروع به سبزشدن می‌کنه).

نتیجه کارهاشون قابل توجهه و نشون دادن که veo3 تو خیلی از تسک‌های ویژنی عملکرد خوبی داره. از طرفی نشون هم دادند که مفهومی مثل chain of thought رو میشه اینجا به شکل chain of frame پیاده سازی کرد (مثلا به مدل می‌گی که قبل از رسیدن به جواب نهایی چند فریم برای خودت طراحی کن). نکته جالب دیگه هم اینه که میشه تسک‌ها رو به شکل جدیدی فرموله کرد مثلا یک حرف از دیتاست القبای آمنی‌گلات رو به مدل دادند و گفتند پارسش کن و مدل شروع کرده تکه تکه اون حرف رو کشیدن و به نوعی دیکامپوزش کرد.

البته که veo3 بهترین عملکرد رو نسبت به مدل‌های ساده دیگه نداره ولی نویسندگان مقاله معتقدند که ما الان در این حوزه مشابه وقتی هستیم که GPT3 اومده بود و با این که از مدل‌های فاین تیون شده عملکرد پایینتری داشت ولی به نوعی generali purpose بود. حالا این دوستان هم معتقدند که احتمالا veo4 وقتی منتشر بشه در حکم یک مدل generalist برای تسک‌های ویژنی می‌شه و شاید اصلا نحوه فرمولیشن ما از تسک‌ها هم تغییر پیدا کنه، مشابه اتفاقی که LLMها برای حوزه NLP رقم زدند. حتما ویدئوهاش رو ببینید.

لینک:
https://video-zero-shot.github.io/
زمین‌گیر است جمعیت، فلک پیماست تنهایی

به توحید خدا همچون الف گویاست تنهایی
دویی در پله شرک است و بی همتاست تنهایی

تجرد پیشگان را نیست کثرت مانع از وحدت
که در دریای لشکر چون علم تنهاست تنهایی

به اندک سختیی رو از تو گردانند همراهان
روی گر در دهان اژدها همپاست تنهایی

حدیث قاف و عنقا را مدان افسانه چون طفلان
که کوه قاف کنج عزلت و عنقاست تنهایی

دل رم کرده هر کس را بود در سینه، می داند
که صحبت دامگاه و دامن صحراست تنهایی

تجرد شهپر پرواز گردون شد مسیحا را
زمین گیرست جمعیت، فلک پیماست تنهایی

چو مرغ خانگی بر گرد آب و گل نمی گردد
همای خوش نشین اوج استغناست تنهایی

چو بوی گل که در آغوش گل با گل نیامیزد
اگر چه هست در دنیا، نه در دنیاست تنهایی

ز خود دورافکند چون نافه صائب سایه خود را
غزال وحشی دامان این صحراست تنهایی

صائب

پی‌نوشت: صائب شاعر اندرریتدی هست. فقط از صائب برمیاد بتونه چنین شعر حماسی در تحسین تنهایی بگه.
ونَحنُ لَم نَحلُم .. بأكثَر مِن حَياةٍ كَالحَياة !
و ما رویایی بیشتر از یک زندگی که شبیه زندگی باشد نداشتیم.

محمود درویش
این مصاحبه اخیر یورگن کلوپ برای من تکان دهنده بود. آدم بسیار جالبیه. توش اول از همه اذعان می‌کنه که (با این که مربی بسیار محبوبی بود) ولی بیشتر از نرخی که باید فینال‌ها، یعنی اون گام آخر، رو باخته. بعد راجع به این صحبت می‌کنه که سال ۲۰۰۱ در حالی که هیچ اعتباری نداشته و می‌خواسته وارد سرمربی‌گری بشه به خانومش گفته من ۲۵ سال می‌خوام بدون توقف کار کنم و خانومش هم گفته که اشکال نداره اگر ریسکت جواب نداد و موفق نشدی من می‌تونم راننده تاکسی بشم. و واقعا هم ۲۵ سال، بدون توقف، عمرش رو گذاشته رو سرمربی‌‌گری. طوری که می‌گه دو بار کلا عروسی رفتم در این ۲۵ سال و چهار بار هم کلا سینما رفتم که ۴ بارش همین امسال بوده. اما بعدش چه؟ الان ازش می‌پرسند برای فوتبال دلت تنگ نشده؟ می‌گه نه و احتمالا هم نمی‌خوام دیگه سرمربی بشم. و تعریف می‌کنه که الان روال زندگی روتینی داره و از بودن کنار نوه‌هاش لذت می‌بره. خیلی زندگی جالبی داشته. اون روح زندگی رو انگار زندگی کرده. بخش خوبی از عمرش رو گذاشته روی چیزی که ممکن بوده جواب نده. تبدیل به یک مربی محبوب و کاریزماتیک و تاثیرگذار شده ولی در نهایت در گامهای آخر کم آورده و هیچ در تاریخ فوتبال ازش به عنوان پرافتخارترین مربی‌ها یاد نمیشه. سرمربی‌گری رو در ۵۸ سالگی کنار گذاشته و حالا میگه از زندگی لذت میبرم نمی‌خوام به فوتبال، اون پروژه‌ای که واسش ۲۵ سال عمرم رو گذاشتم، برگردم. خوشا به حالت آقای کلوپ

I lost more Champions League finals than most people play. I know how to lose and how life goes on. I don’t need to keep my experience for myself. I never did, but I just never had time to talk to people about it because it was the next game coming up. Now if somebody asks me something, I’m the most open book I know

Klopp says he told his girlfriend Ulla, now his wife, in 2001 that he would do “25 years at full throttle without looking left and right” as a football coach. And if it didn’t work out? “Ulla said I can drive a taxi.”


The risk, as he puts it, was worth taking. “But the thought was not that I would do this until the end of my life,” adds Klopp. “I missed nothing in my life because I never thought about it. So during almost 25 years, I twice went to a wedding — one of them was mine and the other one was two months ago. In 25 years, I have been four times at the cinema — all in the last eight weeks. It’s now nice to be able to do it.


I didn’t know when games started. I was just out. I played sports. We enjoyed life, spent time with the grandkids, completely normal stuff, knowing I will work again. But knowing as well, that I don’t want to work as a coach anymore
دل گم شده است، سینه پردازی هست
جان سوخته است، جلوهٔ نازی هست
زخمی نشود شکار، بی شست وخدنگ
خونین جگریم، ناوک اندازی هست

حزین لاهیجی
در مورد Context Engineering

در چند سال اخیر اصطلاح prompt engineering پررنگ‌ترین مفهوم در طراحی راه‌حل‌های llm بوده. prompt engineering به صورت مشخص‌تر به این معناست که من چیزی که می‌خوام رو چطوری و با چه ادبیات و کلمه‌هایی برای llm توضیح بدم. در این اواخر اما یک اصطلاح تازه‌ای هم به نام context engineering به وجود اومده که ممکنه در نگاه اول شبیه به prompt engineering به نظر بیاد اما موضوعش یک درد و درمان جدایی هست.

ماجرا اینه که هر چه قدر که llmها رشد کردند و ازشون در تسک‌های پیچیده‌تر و اصطلاحا long horizon تری (مثل مهندسی نرم‌افزار) استفاده شد از اونور میزان توکنی که بهشون به عنوان context باید داده بشه بیشتر و بیشتر می‌شه. این context خودش می‌تونه شامل چیزهای مختلفی نظیر system prompt یا tool call های ایجنت یا تاریخچه مکالمه‌اش با user باشه. حالا این بزرگ‌شدن context دو مشکل می‌تونه به وجود بیاره. یکی این که ممکنه اون قدر بزرگ بشه که ظرفیت context مدل‌های llm ای جا نشه و یکی دیگه هم این که حتی اگر context در حد ظرفیت llm هم باشه آزمایشات نشون دادند که هر چه قدر context بزرگتر بشه عملکرد llm افت پیدا می‌کنه و اصطلاحا llm یک بودجه اتنشن محدودی داره. در نتیجه توسعه‌دهنده باید تا حد امکان بتونه جوری context رو مهندسی کرده که اطلاعات مربوط با تعداد توکن کمتری به llm داده بشه. این که مثلا چه جاهایی از تاریخچه مکالمه رو به llm بدم، چه tool call هایی رو بدم و ... همه می‌تونن استراتژی‌های مختلف برای این مساله باشند.

حالا Anthropic چند روز پیش اومده در بلاگی راجع به context engineering و ابعاد مختلفش صحبت کرده و یک سری توصیه و نیک‌روش (امروز دوستم آقای حبیبی داشت فحش میداد چرا از واژه‌های انگلیسی استفاده می‌کنیم، به همین دلیل به جای بست پرکتیس از نیک‌روش استفاده کردم) ارائه کرده. تنی چند از این توصیه‌هایی که به نظرم خودم جالب بودند اینها هستند:

- یک context engineering موفق به این معنا هست که کوچکترین ست ممکن از توکن‌هایی رو پیدا کنیم که نقش سیگنال رو برای llm جوری بازی کنند که احتمال بهترین رفتار llm رو بیشتر کنند. در جایی که عملکرد مساوی بنابراین اولویت با اون ستی هست که کوچکتر باشه.

- سیستم پرامپت باید نه اون قدر مبهم باشه که llm نفهمه دقیقا باید چی کار کنه و نه اون قدر با جزییات نوشته شده باشه که مستعد اورفیت و شکست روی نمونه‌ها باشه. یک جاهایی اون وسطها باید باشه.

- روند ساخت سیستم پرامپت باید این جوری باشه که سعی بشه اول با یک پرامپت مینیمال روی بهترین llm موجود جواب گرفته بشه و بعد حالا از یک طرف سعی بشه تا failure mode رو با اضافه‌کردن توضیحات یا مثال هندل کرد. از طرف دیگه هم آروم آروم از بهترین مدل به ممکن‌ترین مدل (مدلی که هزینه‌اش بهمون بخوره) رسید.

- میشه از tool ها به نحوی استفاده کرد که context مون کوچیکتر بشه. بدین منظور باید toolهایی داشته باشیم که بخشی از منطق مساله رو بدون این که نیاز باشه تو کانتکس tool یا agent های دیگه بیاریم به اونها بسپریم. این tool ها باید تا حدامکان خودنگهدار باشند و مرز کار منطقی که انجام می‌دن با هم مشخص باشه.

- تکنیک few shot exampling با این که خوبه اما اکثرا به صورت اشتباهی استفاده میشه. باید مثال‌های دایورسی رو قرار داد تا مبادا مدل روی مثال‌های خاص اورفیت کنه.

- برای تسک‌های long horizon و بهینه‌ترکردن context شون میشه سه استراتژی داشت: خلاصه کردن محتوا برای دورهای بعدی، قابلیت note taking و جداکردن conern های منطقی با sub agentها. در note taking این شکلی میشه که ایجنت میاد چیزایی که بهشون دست پیدا کرده رو یادداشت می‌کنه و عوض این که هر سری تو کانتکس خودش نگه داره یک جای دیگه ذخیره می‌کنه و هر وقت که نیاز شد می‌ره برش می‌داره میذاره تو کانتکس

لینک بلاگ:
https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
چاره‌ای کن که به لطف تو گنهکار شدم

تا در آن حلقهٔ زلف تو گرفتار شدم
سوختم تا که من از عشق خبردار شدم

من چه کردم که چنین از نظرت افتادم
چاره‌ای کن که به لُطف تو گنهکار شدم

خواب دیدم که سر زلف تو در دستم بود
بوی عطری به مشامم زد و بیدار شدم

تا در آن سلسلهٔ زلف تو افتادم من
بی‌سبب چیست که پیش نظرت خوار شدم

برو ای باد صبا بر سر کویش تو بگو
که ز مهجوری تو دست و دل از کار شدم

جان به لب آمد و راز تو نگفتم به کسی
نقد جان دادم و عشق تو خریدار شدم

شاطر عباس صبوحی
Out of Distribution
Photo
تکنیک‌های تدریس

ساعاتی پیش نمره آخرین دانشجوی هوش هم ثبت شد و عملا دیگه کارم با درس بعد از بیش از ۸ ماه تموم شد. بعد از این ترم که درش هم هوش و هم سیستم‌۲ رو داشتم دیگه اون شور و طمع تدریس درم برای اولین بار کم‌شعله شده و فکر هم می‌کنم که حالاحالاها نخوام درس بدم. هم خودم پیر و مستهلک شدم و هم این که احساس می‌کنم درس‌دادن در دنیای امروز در دانشگاه دیگه پوینت آن چنان خاصی نداره. ماهیت درس‌های ما هم مثل علوم انسانی نیست که درش بحث‌کردن خودش بتونه هر لحظه چیز جدید و نویی رو به خود شمای مدرس اضافه کنه، مخصوصا برای درس‌های پایه مثل هوش اینا. به هر صورت از تدریس خودم راضی‌تر بودم و به نظرم به تکنیک‌ها و تاکتیک‌های ارائه درس مسلط شده‌ام. می‌خواستم چند چیزی که برام این ترم تجربه شد رو بنویسم شاید به درد شما هم خورد:

- برای بسیاری توضیح‌دادن یک مطلب کار سختیه. حتی اگر خوب هم بلد باشن یک چیزی رو برای خودشون یا یک نفر دیگه توضیح بدن مخصوصا وقتی در مقابل یک جمعیت زیادی قرار می‌گیرند، نوع بیان و ادبیاتشون عوض میشه. من در این جا از الگوی روایت عموی سوباسا استفاده می‌کنم. اگر یادتون باشه دیالوگی داشت به سوباسا به این منوال که با توپ جوری رفتار کن که انگار بخشی از بدن تو هست اون وقت بهتر می‌تونی هدایتش کنی. در مقوله تدریس هم آدم اولا باید با ذهنیتی با کلاس رفتار کنه که انگار اتاق خودش هست و اون وقت می‌تونه راحت‌تر درس رو پیش ببره. از طرف دیگه هم اما باید سعی کنه موقع درس دادن خودش رو جای دانشجو بذاره تا مبادا دانشجو براش تبدیل به یک دیگری بشه و مطلب رو نفهمه. شما باید جوری درس بدید که انگار می‌خواید به اون ورژنی از خودتون که مطلب رو بلد نیست درس بدید.

- مثل انیمه‌ها که اوپنینگ‌هاشون توشون مهمه، کلاس درس هم باید اوپنینگ داشته باشه. اول از همه چند دقیقه با یک مطلب بی ربط کلاس باید شروع بشه تا اون یخ ذهنی اول ملت آب بشه. اگر این اتفاق نیافته و از اول دانشجو با درس مواجه بشه همون اول از مطالب احساس عقب افتادگی می‌کنه و دیگه جلو نمیاد با درس. بعد از اون ۵ دقیقه همیشه باید مطالب جلسه قبل مرور بشن. دانشجو با داشتن ۲۰ واحد و کلی کار و مشغله ذهنی مثل یک ماهی قرمز می‌مونه. باید مطالب رو هر سری براش توضیح داد تا زنجیره دستش بیاد.

- یک زمان از یکی شنیدم که کوتی رو نقل کرد که فیلسوف خوب اونی نیست که پاسخ خوبی به سوالات بده اونیه که سوال خوبی رو مطرح کنه. استراتژی اصلی من هم در درس دادنم همینه. اونم این که فلسفه اون درد و سوالی که وجود داره رو به دانشجو فهمونده بشه. وگرنه راه‌حل‌ها که چیزهای راحت‌تر و اغلب حفظی هستند و پوینتی ندارند. طرح سوال بنابراین مهمه

- آدم‌ها مهم‌تر از آثارشون هستند. من عادت دارم خیلی وقت‌ها در خلل درس به داستان زندگی‌ آدم‌های مرتبط با اون تکه می‌پردازم. به پرسپتورن که می‌رسم راجع به روننبرک صحبت می‌کنم و به الکس‌نت که می‌رسم راجع به Alex Krizhevsky. هم دانشجو احساس همذات پنداری بهتری با درس می‌کنه و هم این که داستان زندگی آدم‌ها چیزای مهمتر و ارزشمندتری هستند و جا داره بعضا بحث بشه روش.

- من عادت دارم وسط درس بارها از دانشجوها سوال بپرسم. این طوری هم حواسشون جمع میشه هم من در حین درس دادنم فیدبک می‌گیرم که کجا رو ملت فهمیدند و یا اشتباه گرفتند.

- در مقابل هر از گاهی حین کلاس یک پنجره سوال باز می‌کنم که بچه‌ها حین درس دادن سوالاتشون رو بپرسند. کارکرد اینجا اینه که هم من نفسی چاق کنم و هم فیدبک بگیرم اگر جایی رو ملت نفهمیدند براشون بهتر توضیح بدم. یک نکته‌ای که اینجا مهم هست اینه که اگر دانشجو سوال پرسید مدرس باید سوال دانشجو رو با صدای بلند و به بیانی دقیق‌تر برای کلاس تعریف و ترجمه کنه تا اونها هم اگر سوالشون اینه بشنوند و بعد پاسخ بده. خیلی وقتها هم پیش میاد که دانشجوها سوالات چرند می‌پرسند اینجا باز مدرس می‌تونه سوال دانشجو رو ترجمه کنه به سوال درست و اون رو با کلاس مطرح کنه.

- اسلایدها کار مدرس‌ رو راحت‌تر می‌کنند ولی در مقابل می‌تونند اسیرش کنند. مدرس نباید برای تدریس خودش برده اسلاید بشه وگرنه گیر می‌کنه. اسلاید برای مدرس نقش پلن و برای دانشجو نقش حواس جمعی رو باید داشته باشه.

- آشنایی زدیی کردن از مباحث: قبلا اینجا گفته بودم.

- و در نهایت امتحان. عادتی که در دانشکده ما هست اینه که وقتی می‌خوان سوال سخت طراحی کنند اون رو به لحاظ محاسباتی و تکنیکی سختش می‌کنن. من ولی دوست داشتم که به لحاظ مفهومی سختش کنم. مثلا در میانترم سوال طرح کردم یک مثالی بزنید که به صورت مارکوف به هیچ وجه نشه مدلش کرد و خب تقریبا همه ملت اشتباه نوشتند. می‌دونستند مارکوف چیه ولی نمی‌دونستند چی مارکوف نیست. البته سوالات مفهومی چالشی داره و اینه که سر تصحیح دانشجو قانع نمیشه که نفهمیده و برای همین استاد سوال محاسباتی رو ترجیح میده.

#تجارب
واقعیت اینه که من قوی نیستم بر خیلی کارها، ضعیغم و زورم بهشون نمی‌رسه. حالا بعدش کلی تئوری‌چینی و بحث می‌کنیم چرا فلانه و ما باید چه کار کنیم و اینها که انگار می‌خوام با این، نتونستن رو بپذیرم یا نپذیرم. ولی واقعیت اینه که من اگر قدرتش رو داشتم دیگه اون بحث‌های پسینی هم به وجود نمیومد. این همه بحث صرفا مکانیزم دفاعی جلوی این واقعیتند که من قدرتش رو ندارم یا نتونستم. واقعیت اینه که من نمی‌تونم نه این که من چه کار باید بکنم یا چه کار نباید بکنم. واقعیت کم زوری منه. وگرنه اگر قدرتش رو داشتم هیچ بحثی وجود نداشت. شما قدرتش رو داشته باشی دنیا یک دنیای دیگه‌ای می‌شه برات. شما قدرتش رو داشته باشی دنیا یک دنیای دیگه‌اب میشه برات.

#افکار_پریشان
اگر به یک آدم وسواسی برچسب وسواسی‌بودن زده بشه احتمال داره بدبخت روی وسواسی بودن خودش بیشتر وسواسی بشه. راهش به نظر این نیست خلاصه. کلا برچسب‌زدن حتی به درست، کار خوبی نیست.

#تجارب
This media is not supported in your browser
VIEW IN TELEGRAM
سر بازار دیدارت

ای داد و بی‌داد دل و دین دادم
هرکه غیر او رفت از یادم
سر بازار دیدارت
منم از جان خریدارت
چنت آرم به بازارت
کنم حیران زلیخارا
ای داد و بی‌داد دل و دین دادم
هرچه غیر او رفت از یادم
مرا باشد متاع جان
فدای عارض جانان
به جز سودای مهرویان
نخواهم هیچ سودا را
ای داد و بی‌داد دل و دین دادم
هرچه غیر او رفت از یادم
که مجنون پریشانم
سبب از عشق می‌خوانم
مگر پایان کنم آخر
کتاب عشق لیلا را
ای داد و بی‌داد دل و دین دادم
هرچه غیر او رفت از یادم
خداوندا تو درمان کن
تو این درد دل ما را
ز لطف خویش حل گردان
تمام مشکل ما را
گل رخسار یاران را
دمادم تازه‌تر گردان
به چهچه در گلستان کن
تو این دم بلبل ما را
ای داد و بی‌داد و بی‌داد دل و دین دادم
هرچه غیر او رفت از یادم
براه باطل افتادم
نوشتند خط ما باطل
ز رحمت شست‌وشویی ده
تو خط باطل ما را
ای داد و بی‌داد دل و دین دادم
هرچه غیر او رفت از یادم
هم‌نامی که هر ماه آبرو می‌خرد

امروز از روی خستگی در گنجور ول می‌چرخیدم که در صفحه donate‌اش یهو هنگ کردم. دیدم یک آقایی به نام مهدی سمیعی یک میلیون تومن در تاریخ ۴ شهریور به گنجور اهدا کرده. یک لحظه شک کردم نکنه منم تو احوالات خرابم رفتم به گنجور donate کردم یادم نمیاد که بعد پیامک‌هام رو چک کردم دیدم نه من نیستم. شروع کردم ببینم بقیه چه مبالغی اهدا کردند دیدم در ماه‌های قبل هم این مهدی سمیعی معمولا چهارم هر ماه مبلغ یک میلیون اهدا کرده. شما فکر کن دقیقا چهار تیر هم که جنگ تموم شده هم باز ایشون دست نکشیده و مبلغ یک میلیون رو اهدا کرده :)
گزارش جالبی راجع به دلایل شکست SEGA در بازار کنسول‌های بازی هست. سه دلیل اصلی که آورده:
- اول نداشتن استراتژی واحد و وسواسی شدن رو واکنش به رقباشون مثل سونی
- دوم بی‌توجهی به کاربران اصلیشون که نه گیمرها که بلکه طراحان بازی‌ها بودند، سگا بدون این که به راحت‌تر کردن کار توسعه‌دهندگان بازی فکر کنه شروع به بهبود سخت افزاریش کرد که عملا بی‌فایده شد
- سوم هم باختن توی مزیت‌های جانبی به سونی. مثلا پلی استیشن ۲ از دی وی دی رام پشتیبانی میکرد و خیلی‌ها پلی استیشن رو که می‌خریدن به خاطر همین قابلیتش می‌خریدند.

در کل داستان سقچط اسمهایی مثل سگا، نوکیا، یاهو و ... که زمانی آشناترین و روتین‌ترین چیزها تو زندگی ما بودند ولی الان نیستند داستانهای جالبی‌اند. البته اگر قد شما سنتون به اینها قد بده. چند وقت پیش با یکی از دانشجوهام که تو شرکت همکاریم و اتفاقا آدم خفنی هم هست صحبت میکردیم بزرگوار نمیدونست dial up چیه!

لینک:
https://www.zoomg.ir/game-articles/409645-why-sega-left-console-market/
معمولا از RL برای post-training مدل‌های زبانی استفاده می‌کنند و عملکردشون رو این شکلی align می‌کنند یا مثلا در سناریوهای reasoningای به کمک همین RL به مدل استدلال رو یاد می‌دن و به مدل هم امکان exploration می‌دن. در اینجا در واقع اصل کاری RL نیست، RL در واقع یک روش بهینه‌سازی هست برای وقتی که یک ریوارد فانکشنی وجود داره (که ممکنه گرادیان پذیر نباشه) و RL حالا میاد یک امکانی میده که اون مدل رو با اون ریوارد هر چند گرادیان‌ناپذیر آموزش بدیم. حالا یک پیپری اومده گفته اصلا چرا RL بزنیم بیایم از الگوریتم‌های بهینه‌سازی تکاملی رو فضای پارامتر‌ها استفاده کنیم و مدلمون رو با بهینه‌سازی تکاملی و استفاده از ریوارد فانکشن فاین تیونش کنیم. بر همین اساس یک الگوریتم بهینه‌سازی تکاملی ارائه داده و در ستینگ مدل‌های ریزنینگی کوچک نشون داده که با تنها سایز جمعیت ۳۰ جوابی بهتر و استیبل از روش‌های بهینه‌سازی RLای نظیر GRPO و PPO گرفته.

زیبایی کارشون در اینه که نشون داده زیاد مموری هم نمی‌خواد. می‌شه نمونه‌های جمعیت رو جداگونه موازی پردازششون کرد و از اونور هم حتی نیازی به نگهداری پارامترها نیست بلکه صرفا میان seed های رندومنس رو ذخیره می‌کنن!

لینک:
https://x.com/yule_gan/status/1975177775251087436
مثل ARC که مجموعه private ای جدا از publicهاش ارائه کرد تا مدل‌ها نتونن به واسطه آموزش‌دیدن روی مجموعه پابلیک عملکرد خودشون رو بالا ببرند، حالا روی تسک Retrieval هم مشابها یک بنچمارکی ارائه شده که مجموعه دیتاهای ارزیابی public و private داره و ارزیابی عادلانه‌تر و واقعی‌تری می‌شه روی مدل‌های امبدینگی داشت.

لینک:
https://huggingface.co/blog/rteb
2025/10/28 06:12:35
Back to Top
HTML Embed Code: