Telegram Web Link
چند روز پیش شخصی موفق شده Claude رو راضی کنه که system prompt خودشو لو بده!

برای خودم خیلی جالب بود این موضوع و در ادامه با توضیح نیازمندی ها در موردش میگم:


اگه نمی‌دونی system prompt چیه، به طور خلاصه یه جور prompt ثابته که به یه LLM می‌گه چطوری به پیام‌های کاربر جواب بده. یه جورایی مثل “تنظیمات” یا “preferences” مدل عمل می‌کنه. مثلا مشخص می‌کنه لحن جواب چطور باشه، چه ابزارهایی رو استفاده کنه، چه اطلاعات زمینه‌ای‌ای داشته باشه که توی داده‌های آموزشیش نیست.

نتیجه لو دادن Claude این بوده که مشخص شده System prompt مدل Claude خیلی طولانیه: (حدود ۱۶،۷۳۹ کلمه یا حدود ۱۱۰ کیلوبایت). برای مقایسه، system prompt مدل o4-mini از OpenAI فقط ۲،۲۱۸ کلمه‌ست، حدود ۱۵.۱ کیلوبایت — یعنی تقریباً ۱۳٪ اندازه Claude.

حالا بریم ببینیم توی prompt Claude چی هست:
همونطور که در تصویر مشخصه، بزرگ‌ترین بخشش، قسمت Tool Definitions هست که از سرورهای MCP میاد. سرورهای MCP با APIهای معمولی فرق دارن، چون به LLM دقیق می‌گن کی و چطوری از ابزارها استفاده کنه.

(ادامه در پست بعدی)

@silicon_brain | از هوش مصنوعی عقب نمانید
👍101👏1🤩1
(در ادامه پست قبلی)
یه نمونه از این MCP رو برای سرچ در وب در ادامه میبنید:
 json
{
"description": "Search the web",
"name": "web_search",
"parameters": {
"additionalProperties": false,
"properties": {
"query": {
"description": "Search query",
"title": "Query",
"type": "string"
}
},
"required": ["query"],
"title": "BraveSearchParams",
"type": "object"
}
}

این یکی ساده‌ست. مثلاً ابزار سرچ توی Google Drive یه description داره که بیشتر از ۱۷۰۰ کلمه‌ست! خلاصه که بعضی‌هاش واقعاً پیچیده‌ن.

غیر از Tool Definitions، کلی دستور دیگه هم هست که مربوط به استفاده از ابزارهاست: Citation Instructions، Artifacts Instructions، Search Instructions و Google Integration Watchouts. مثلاً چند بار تکرار شده که Claude نباید از ابزار جست‌وجو استفاده کنه اگه خودش جواب رو می‌دونه. (انگار حذف این رفتار کار راحتی نبوده!)

توی کل prompt، جاهایی هست که حس hotfix می‌ده — یعنی یه وصله‌ای سریع برای حل یه مشکل خاص. مثلاً قسمت Google Integration Watchouts فقط پنج خط بدون هیچ ساختاریه. یه نمونه:
(پرامپت ترجمه شده):
اگه داری از ابزارهای gmail استفاده می‌کنی و کاربر گفته دنبال ایمیل یه نفر خاص بگردی، فرض نکن آدرس ایمیل اون فرد رو می‌دونی. چون ممکنه چند نفر با اسم کوچیک مشابه توی سیستم باشن. به جای حدس زدن، بهتره با اسم کوچیک جست‌وجو کنی و از کاربر بخوای تأیید کنه که کدوم ایمیل مال همون فرد مورد نظرشه.

در مجموع، تقریباً ۸۰٪ این prompt مربوط به ابزارهاست ، چه زمانی و چطوری باید استفاده بشن.

آخر prompt، می‌رسیم به بخشی به نام Claude Behavior. اینجا مشخص می‌کنه Claude باید چطوری رفتار کنه، چطوری جواب بده و چه کارایی نباید بکنه.

اگه از Claude خواسته بشه کلمات، حروف یا کاراکترها رو بشمره، مرحله‌به‌مرحله فکر می‌کنه و دقیق می‌شمره و فقط وقتی شمارش تموم شد جواب می‌ده.

اگه Claude یه پازل کلاسیک ببینه، قبل از اینکه جواب بده، کل شرایط پازل رو کلمه‌به‌کلمه توی نقل‌قول می‌نویسه تا مطمئن بشه با یه نسخه تغییریافته طرف نیست.

اگه از Claude خواسته بشه شعر بگه، از استعاره‌های کلیشه‌ای، تصاویر تکراری یا قافیه‌های قابل‌پیش‌بینی استفاده نمی‌کنه.

در کل خوندن این prompt آدم رو به فکر می‌ندازه که Anthropic چجوری اینا رو مدیریت می‌کنه. پر از تکه‌های کوچیکه که اسکن‌کردن و درک کلی‌ش آسون نیست. از تگ‌های XML استفاده کردن که به نظر می‌رسه برای خود آدما (و نه LLM) مفیدتر باشه. استفاده‌شون از MCP هم یه برگ برنده‌ست.

ولی واقعاً چه نرم‌افزاری استفاده می‌کنن برای version control این promptها؟ این hotfixها یکی‌یکی اضافه می‌شن یا دسته‌جمعی بعد از ارزیابی‌ها؟ و آیا هیچ‌وقت کلاً از اول شروع می‌کنن؟ یا همیشه همین‌طوری تیکه‌تیکه اضافه می‌کنن؟ همه اینا مسائل مهمی هستن که باید بهشون توجه کنیم!

@silicon_brain | از هوش مصنوعی عقب نمانید
👍114🤩1
مدت ها پیش یه دیتاست فارسی درست کردم به نام
hystoclass (hybrid social text and tabular classification)
که یه دیتاست ترکیبی هستش که از استوری‌های اینستاگرام گردآوری شده (با در نظر گرفتن حریم خصوصی)

الان، تصمیم گرفتم این دیتاست رو به صورت عمومی منتشر کنم

این دیتاست علاوه بر متن‌های فارسی منتشرشده در استوری‌ها (ویژگی متنی content)، شامل ویژگی‌های گرافیکی مانند رنگ پس‌زمینه، رنگ متن و فونت نیز هستش. برای همین، hystoclass برای مدل‌سازی‌های چندوجهی (متنی-تصویری یا متنی-جدولی) بسیار مناسب است.

دسته‌بندی‌ها
این دیتاست با نظارت انسانی به ۱۸ دسته مختلف تقسیم شده.

گیت‌هاب | هاگینگ‌فیس
این دیتاست اطلاعات خوبی برای پژوهش در حوزه‌های پردازش زبان طبیعی (NLP)، تحلیل شبکه‌های اجتماعی و طبقه‌بندی ترکیبی متن و ویژگی‌های گرافیکی ارائه میده.

با لایک و استار ⭐️ در گیتهاب و هاگینگ‌فیس حمایت کنین❤️
👍207👏7🤩1
This media is not supported in your browser
VIEW IN TELEGRAM
تبدیل فایل به دیتاست!

مایکروسافت یه ابزار خفن و open-source به نام MarkItDown MCP معرفی کرده که هر فایل رو به یه دیتاست آماده برای مدل‌های زبانی تبدیل می‌کنه!

انواع مختلف ورودی میتونه بگیره از جمله فایل‌های PDF، ورد، پاورپوینت، صدا و تصویر. و خروجیش یه Markdown تمیز، Structurable و آماده برای LLMهاست که در ادامه میتونه کلی استفاده داشته باشه

اما فقط یه مبدل ساده نیست، این کارها رو هم انجام می‌ده:

- متن رو از عکس‌ها استخراج می‌کنه (OCR)
- برای تصاویر کپشن هوشمند می‌سازه
- متادیتا و EXIF رو درمیاره
- صدا رو به متن تبدیل می‌کنه (transcription)

خودم باهاش کار میکنم و جزئیات بیشتری ازش میگم
لینک
@silicon_brain | از هوش مصنوعی عقب نمانید
👍9👏54🤩1
همه این عناوین جذاب و مهم رو با این ریپو میتونید یاد بگیرید
لینک

@silicon_brain| از هوش مصنوعی عقب نمانید
6👍2🔥2🤩1
هوش مصنوعی شخصی‌سازی‌شده‌ برای پلی‌لیست اسپاتیفای

تو این ریپو هر بار که اسکریپتو اجرا کنید، پلی‌لیست اسپاتیفایت با ۲۰ تا آهنگ پیشنهادیِ جدید که قبلاً معرفی نشده بوده، آپدیت می‌شه.
هر چند بار در روز که بخوای هم میتونی اجراش کنی(لازم نیست یه هفته صبر کنه تا Discover Weekly آپدیت بشه )

وصل کردنش از طریق SPOTIPY_CLIENT_ID و SPOTIPY_CLIENT_SECRET هست.
لینک

@silicon_brain| از هوش مصنوعی عقب نمانید
👍4👎21🤩1
افت عملکرد مدل‌ها در مکالمات پیچیده!

در پژوهشی جدید که شامل بیش از ۲۰۰هزار مکالمه شبیه‌سازی‌شده بوده، مشخص شده که عملکرد LLmها در مکالمات چندمرحله‌ای، نسبت به مکالمات تک‌مرحله‌ای، به‌طور متوسط ۳۹٪ کاهش پیدا می‌کنه.

چرا این اتفاق می‌افته؟
برخلاف تصور رایج، چالش اصلی LLMها تو این موضوع فقط مربوط به درک زبان یا حجم داده نیست، بلکه به نحوه تصمیم‌گیری در جریان مکالمه مربوط می‌شه.

این مشکل دو تا ریشه‌ی اصلی داره:

1. فرضیه‌سازی زودهنگام
مدل‌ها معمولاً در مراحل ابتدایی مکالمه فرضیه‌هایی رو می‌سازن، حتی وقتی اطلاعات کافی ندارن خیلی زود سعی می‌کنند به یک پاسخ نهایی برسن.

2. اعتماد بیش از حد به پاسخ‌های قبلی
در ادامه‌ی مکالمه، مدل به پاسخ‌های قبلی خودش بیش از حد اعتماد می‌کنه و مسیر اشتباه رو ادامه می‌ده حتی اگه کاربر اطلاعات جدیدی ارائه بده. به زبان ساده، مدل گم می‌شه و دیگر راهش رو پیدا نمی‌کنه.

چکار میشع کرد که کمتر این اتفاق بیفته؟
پرامپت‌های ساختار یافته و مرحله‌ای
حفظ شفافیت در مراحل مکالمه
استفاده از مدل‌های مجهز به حافظه

@silicon_brain I از هوش مصنوعی عقب نمانید
👍97🤩1
نسل جدید مدیریت پکیج‌های پایتون - uv وارد میشود!
وقتشه که روش های مدیریت venv و پکیج ها رو تغییر بدیم.
دستور pip ابزار معروف و قدیمیه که باهاش توی پایتون پکیج نصب میکنیم. مثلاً اگه می‌خواستی FastAPI نصب کنی، می‌زدی:
pip install fastapi

این کارشو خوب انجام می‌ده، ولی یه سری ایرادای ریز داره، مثلاً توی مدیریت نسخه‌ها و سرعت بعضی وقتا اذیت می‌کنه. یا اگه بخوای یه پروژه رو دقیقاً با همون نسخه‌های پکیج‌هایی که یکی دیگه داشته اجرا کنی، ممکنه به مشکل بخوری چون pip به تنهایی تضمین نمی‌کنه که محیط دقیقاً همونه

حالا uv یه ابزار جدیده که هدفش اینه جای pip و virtualenv و pip-tools رو بگیره یعنی همه رو با هم ترکیب کنه تو یه ابزار سریع و بهینه.می‌تونی پکیج‌ها رو خیلی سریع‌تر نصب کنی (چون Rustی نوشته شده و کلی بهینه‌ست)

راحت‌تر محیط مجازی بسازی، فایل‌های قفل‌شده (مثل poetry.lock یا requirements.txt) رو دقیق و قابل اعتماد نگه‌داری کنی
دستور ساخت virtual environment، فعال سازیش و نصب requirements به این شکله:
uv venv
venv\scripts\activate
uv pip install -r requirements.txt

گیتهاب
@silicon_brain | از هوش مصنوعی عقب نمانید
14👍10🔥2👎1🤩1
متریک های ارزیابی LLM ها

اینا رایج‌ترین و مهم‌ترین متریک‌هایی هستن که معمولاً قبل از این که سیستم LLM رو ببری توی محیط واقعی بهشون نیاز پیدا می‌کنی:

Answer Relevancy:
بررسی می‌کنه که آیا جواب مدل با سؤال یا ورودی مربوطه یا نه؛ یعنی جواب درست و جمع‌وجوره یا نه.

Task Completion:

چک می‌کنه که آیا مدل تونسته اون کاری که براش تعریف شده رو تا آخر انجام بده یا نه.

Correctness:
مشخص می‌کنه که خروجی مدل از نظر اطلاعات واقعی درسته یا نه.

Hallucination:
بررسی می‌کنه که مدل اطلاعات ساختگی یا جعلی تولید کرده یا نه.

Tool Correctness:
اگه مدل از ابزارهایی استفاده می‌کنه، این متریک بررسی می‌کنه که آیا ابزار درست رو برای کار مورد نظر انتخاب کرده یا نه.

Contextual Relevancy:
اگه سیستم LLM‌ت بر پایه RAG (Retrieval-Augmented Generation) باشه، این بررسی می‌کنه که آیا اطلاعاتی که به عنوان context جمع‌آوری شده، واقعاً به درد مدل می‌خوره یا نه.

Responsible Metrics:
شامل متریک‌هایی مثل Bias و Toxicity (محتوای سمی یا آزاردهنده) هستن، که بررسی می‌کنن آیا خروجی مدل محتوای آسیب‌زا یا توهین‌آمیز داره یا نه.

Task-Specific Metrics:
اینا بستگی به کاربرد خاص مدل دارن، مثل وقتی که داری خلاصه‌سازی انجام می‌دی و یه سری معیار خاص خودت رو داری.

در کل، بیشتر متریک‌ها عمومی‌ان و برای همه‌ی مدل‌ها کاربرد دارن، ولی برای اینکه دقیق‌تر روی یه کاربرد خاص تمرکز کنی، کافی نیستن. واسه همین معمولاً باید یه متریک سفارشی Task-Specific داشته باشی تا سیستم ارزیابیت واقعاً به درد production بخوره.

مثلاً اگه اپلیکیشن LLM‌ت واسه خلاصه‌کردن خبرها طراحی شده، لازمه یه متریک ارزیابی خاص داشته باشی که این چیزا رو بررسی کنه:

- خلاصه، اطلاعات کافی از متن اصلی داره یا نه؟
- آیا توی خلاصه، تناقض یا تخیلات (hallucinations) نسبت به متن اصلی هست یا نه؟

اینجا یه داکیومنتی خوبی در موردش نوشتن

@silicon_brain | از هوش مصنوعی عقب نمانید
👍102🤩1
شرکت Anthropic از دو مدل هوش مصنوعی جدید با نام‌های Claude Opus 4 و Claude Sonnet 4 رونمایی کرده که به‌طور ویژه برای انجام وظایف کدنویسی و حل مسائل پیچیده بهینه‌سازی شدن.

آنتروپیک از Opus 4 به‌عنوان بهترین مدل کدنویسی دنیا یاد کرده و اعلام کرده تو بنچمارک‌های داخلی، این مدل تونسته عملکرد بهتری به‌ویژه در وظایف کدنویسی نسبت به مدل‌های Gemini 2.5 Pro ، GPT-4.1 و o3 شرکت OpenAI داشته باشه و می‌تونه پروژه‌های پیچیده نرم‌افزاری رو برای مدت طولانی مدیریت کنه.

همچنین هر دو مدل جدید به ویژگی جدیدی با نام «خلاصه‌سازی تفکر» (Thinking Summaries) مجهز شدن که فرایند استدلال مدل رو به شکل قابل درکی برای کاربر خلاصه می‌کنه.

از طریق Anthropic API ،Amazon Bedrock و Vertex AI گوگل در دسترس هستند.

@silicon_brain | از هوش مصنوعی عقب نمانید
👍62🔥1
حق با افلاطون بود!

یک پژوهش مهم از دانشگاه کرنل نشون میده که همه مدل‌های زبانی با وجود تفاوت در معماری و داده در نهایت مفاهیم رو به شکل مشابهی رمزگذاری می‌کنن.

تو این مقاله با استفاده از روش vec2vec، تونستن فقط از روی بردارهای عددی (embeddingها)، اطلاعات حساسی مثل بیماری‌های ثبت‌شده تو پرونده‌های پزشکی یا محتوای ایمیل‌های خصوصی رو بازیابی کنن (بدون دیدن متن اصلی!)

نشون میده که مدل‌های هوش مصنوعی همگی به نوعی به یک «زبان جهانی معنا» می‌رسن. ایده‌ای که افلاطون 2500 سال پیش مطرح کرده بود و حالا پرسش‌های تازه‌ای درباره امنیت داده‌ها و چیستی واقعی "معنا" در دنیای هوش مصنوعی پیش روی ما هست.

افلاطون می‌گفت:
پشت هر چیزی که در دنیا می‌بینیم، یک «حقیقت جهانی و ثابت» وجود دارد که همه‌ی چیزها فقط سایه‌هایی از آن هستند. یعنی معناها و مفاهیم واقعی، مستقل از ظاهر و زبان، در جایی عمیق‌تر و مشترک وجود دارند.

لینک مقاله

@silicon_brain | از هوش مصنوعی عقب نمانید
👍20🔥64🤣3🤩1
رقابت تنگاتنگ DeepSeek با OpenAI: نسخه جدید R1 با قدرت استدلال بالاتر

این مدل می‌تونه خروجی از قابلیت فراخوانی تابع (Function Calling) پشتیبانی می‌کنه و دیگه نیازی نیست توی دستورها از «توکن‌های مخصوص فکر کردن» استفاده کنیم؛ یعنی ساختار دستورها ساده‌تر شده.

از طرفی، میزان هذیان‌گویی (Hallucination) مدل هم کمتر شده، چه توی مسائل استدلالی و چه توی تولید کد.

جالبه بدونی عمق استدلال مدل هم بیشتر شده؛ به طور میانگین از ۱۲هزار توکن به ۲۳هزار توکن رسیده، یعنی حدود ۹۲ درصد رشد کرده! این اعداد مربوط به آزمون AIME 2025 هستن.

وزن‌های مدل رو Hugging Face منتشر شده.
همچنین یه رابط برنامه‌نویسی (API) فعال هم داره که هزینه‌اش برای هر یک میلیون توکن، ۰.۱۴ دلار برای ورودی و ۲.۱۹ دلار برای خروجی حساب می‌شه.

@silicon_brain | از هوش مصنوعی عقب نمانید
3👍3🤩1
گوگل، OpenAI و Anthropic یه حرکت خفن زدن: خیلی از محتواهای پولی هوش مصنوعی رو رایگان کردن!

منابع بسیار با ارزشی هستن، حتما استفاده کنین


لینک ها:

🔗Prompt Engineering
🔗 Google Prompting Guide
🔗 OpenAI Guide to Agents
🔗 OpenAI Enterprise Guide
🔗 Google Agent Whitepaper
🔗 Anthropic Agent Framework
🔗 Anthropic Coding Practices
🔗 AI & LLM Research Book
🔗 Scaling AI Use Cases
🔗 Prompting Masterclass

@silicon_brain | از هوش مصنوعی عقب نمانید
👍71🤩1
Umar Jamil از Mistral AI‏:
بازی واقعی RLهست، چیزای دیگه یه مأموریت فرعی هستن.

قطعا همینه! :)

@silicon_brain
👍12👎4👏21🤩1
در سه‌ماهه اول ۲۰۲۵، توی آزمایش‌های شبیه تورینگ، افراد در ۷۳٪ مواقع پاسخ چت‌بات‌های هوش مصنوعی رو با انسان اشتباه گرفتن!

۶ ماه پیش این عدد حدود ۵۰٪ بود!
پیشرفت هوش مصنوعی در تقلید گفت‌وگوی انسانی با سرعت خیره‌کننده‌ای داره جلو می‌ره...

@silicon_brain| از هوش مصنوعی عقب نمانید
👍12😱32🤩1
بنابه گزارش Zeki، پایگاه داده استعدادهای هوش مصنوعی جهان، تو ۵ سال گذشته ۱۲۰۰ استعداد ایرانی در حوزه هوش مصنوعی راهی آمریکا شدن.

از این نظر ایران تو جایگاه دوم بعد از هند قرار داره

@silicon_brain| از هوش مصنوعی عقب نمانید
😢22🕊83🍾3👎1🤩1
مفهوم Planner در LLM

برنامه‌ریز (Planner) ماژولیه که به Agent کمک می‌کنه تا وظیفه اصلی خودش رو به چند گام قابل انجام تقسیم کنه و مشخص کنه که در هر مرحله باید چه کاری انجام بشه، تا مسیر انجام کار را براساس ورودی بچینه.

این کارو معمولاً از طریق پرامپت‌گذاری هوشمند انجام میدن، یعنی مدل با دریافت دستور کلی، خودش برنامه‌ای مرحله‌به‌مرحله تولید می‌کنه.

برای مثال: ورودی: «یه خلاصه از این مقاله بنویس.»
خروجی Planner (با کمک LLM):
▪️متن مقاله رو بخون.
▪️موضوعات اصلی رو شناسایی کن.
▪️نکات کلیدی رو استخراج کن.
▪️متن رو به زبان ساده بازنویسی کن.


این ماژول در واقع نقشه‌راه ایجنت رو ترسیم می‌کنه. بدون اون، مدل فقط پاسخ می‌ده اما با برنامه‌ریزی مدل به یک ایجنت هدفمند تبدیل می‌شه که می‌فهمه، طراحی می‌کنه و بعد اقدام می‌کنه.

@silicon_brain | از هوش مصنوعی عقب نمانید
👍142👏1🤩1💯1
بررسی مرز بین حفظ کردن و فهمیدن در مدل ها

وقتی یه مدل زبانی مثل GPT رو آموزش می‌دیم، سؤال اصلی اینه که «این مدل دقیقاً چی رو تو خودش نگه داشته؟» یعنی آیا فقط داده‌ها رو حفظ کرده (memorization) یا واقعاً الگوها رو فهمیده و یاد گرفته (generalization)؟

تو این مقاله اومدن دقیقاً این موضوع رو بررسی کنن که موضوع خیلی جالبی هست و در ادامه خلاصه شو میگم


نویسنده‌ها حافظه‌ی مدل رو به دو بخش تقسیم کردن:

یکی unintended memorization، یعنی مدل بدون اینکه بخوایم، بعضی اطلاعات رو دقیقاً حفظ کرده. مثلاً یه ایمیل یا پسوردی که توی دیتاست بوده.

یکی دیگه generalization، یعنی مدل الگوها رو یاد گرفته، مثلاً فهمیده که ترتیب کلمات چطور باید باشه یا معنی یه جمله چیه.

برای اینکه فقط مقدار حافظه‌ی خام مدل رو اندازه بگیرن، اومدن مدل رو با داده‌هایی آموزش دادن که کاملاً تصادفی بودن (random bit strings). این کار باعث می‌شه که مدل هیچ الگویی برای یاد گرفتن نداشته باشه و فقط بتونه حفظ کنه. با این روش، فهمیدن که مثلاً مدل‌های GPT-مانند حدود ۳.۶ bits per parameter ظرفیت حافظه دارن.

وقتی تعداد داده‌هایی که به مدل می‌دی کمتر از ظرفیتشه، خب طبیعتاً بیشترشو حفظ می‌کنه. ولی وقتی داده‌ها از ظرفیت بیشتر بشه، مدل نمی‌تونه همه‌چیزو توی حافظه نگه داره، و شروع می‌کنه به یاد گرفتن الگوها. اینجاست که پدیده‌ای به اسم Grokking اتفاق می‌افته، یعنی مدل یهو از حالت حفظ کردن می‌ره سمت فهمیدن کلیات.

توی آزمایش‌هاشون صدها تا transformer model از اندازه‌ی ۵۰۰ هزار تا ۱.۵ میلیارد پارامتر رو بررسی کردن. نتیجه این شد که یه رابطه‌ی قابل پیش‌بینی بین اندازه‌ی مدل، حجم داده، و مقدار membership inference risk وجود داره. یعنی می‌شه فهمید که آیا مدل اطلاعات یه نمونه خاص رو تو خودش حفظ کرده یا نه.

این موضوع علاوه بر اینکه مارو از نحوه یاد گرفتن مدل ها آگاه میکنه، برای امنیت و حریم خصوصی هم خیلی مهمه، چون اگه بدونیم مدل دقیقاً چقدر حفظ کرده و چقدر رو از الگوها یاد گرفته، می‌تونیم بهتر تصمیم بگیریم چه داده‌هایی رو بهش بدیم یا ندیم.
لینک مقاله

@silicon_brain | از هوش مصنوعی عقب نمانید
👍95👏1🤩1
Silicon Brain | جامعه هوش مصنوعی
بررسی مرز بین حفظ کردن و فهمیدن در مدل ها وقتی یه مدل زبانی مثل GPT رو آموزش می‌دیم، سؤال اصلی اینه که «این مدل دقیقاً چی رو تو خودش نگه داشته؟» یعنی آیا فقط داده‌ها رو حفظ کرده (memorization) یا واقعاً الگوها رو فهمیده و یاد گرفته (generalization)؟ تو…
با خوندن مقاله بالا یادم اومد که زمانی که دانش آموز بودیم دو جور میشد درس ها رو یاد گرفت. یه وقت‌هایی سریع بشینی حفظش کنی مثلاً یه شعر، یه فرمول ریاضی، یا یه تعریف از علوم. و حتی میشد نمره‌ی خوبی هم گرفت.

اما بعضی وقتا یه مبحثی که سخت‌تر بود رو نمیشد با این روش جلو برد و باید میفهمیدیش، بعد از یکی دو روز یا بعد از تمرین، یهو یه لحظه می‌رسید که انگار یه لامپ توی ذهن آدم روشن می‌شد. اون لحظه بود که فهمیدن اتفاق میوفتاد. مثلاً چرا آب توی لوله بالا می‌ره! این فرق داشت با حفظ کردن. این همون چیزی بود که الان بهش می‌گن Grokking

مفهوم grokking یعنی اون لحظه‌ای که مغزت از حالت «فقط حفظ کردن» می‌ره به «واقعاً فهمیدن».
توی LLM هم دقیقاً همین اتفاق می‌افته. اولش فقط داده‌هایی که بهش می‌دی رو حفظ می‌کنه. ولی اگه آموزش درست و کافی ببینه، یهو یه لحظه هست که الگورو کشف می‌کنه، از اون‌جا به بعد، دیگه لازم نیست حفظ کنه، چون فهمیده.

البته من فکر میکنم توانایی حفظ کردن بدون یادگیری با گذشت زمان به شدت در انسان کاهش پیدا میکنه و به سمت یادگرفتن میل میکنه، اینکه آیا برای LLM ها هم همچین اتفاقی ممکنه بیوفته یا نه میتونه موضوع تحقیق خوبی باشه!

@silicon_brain | از هوش مصنوعی عقب نمانید
👍123👏1🤩1
2025/07/08 19:13:54
Back to Top
HTML Embed Code: