افت عملکرد مدلها در مکالمات پیچیده!
در پژوهشی جدید که شامل بیش از ۲۰۰هزار مکالمه شبیهسازیشده بوده، مشخص شده که عملکرد LLmها در مکالمات چندمرحلهای، نسبت به مکالمات تکمرحلهای، بهطور متوسط ۳۹٪ کاهش پیدا میکنه.
چرا این اتفاق میافته؟
برخلاف تصور رایج، چالش اصلی LLMها تو این موضوع فقط مربوط به درک زبان یا حجم داده نیست، بلکه به نحوه تصمیمگیری در جریان مکالمه مربوط میشه.
این مشکل دو تا ریشهی اصلی داره:
1. فرضیهسازی زودهنگام
مدلها معمولاً در مراحل ابتدایی مکالمه فرضیههایی رو میسازن، حتی وقتی اطلاعات کافی ندارن خیلی زود سعی میکنند به یک پاسخ نهایی برسن.
2. اعتماد بیش از حد به پاسخهای قبلی
در ادامهی مکالمه، مدل به پاسخهای قبلی خودش بیش از حد اعتماد میکنه و مسیر اشتباه رو ادامه میده حتی اگه کاربر اطلاعات جدیدی ارائه بده. به زبان ساده، مدل گم میشه و دیگر راهش رو پیدا نمیکنه.
چکار میشع کرد که کمتر این اتفاق بیفته؟
پرامپتهای ساختار یافته و مرحلهای
حفظ شفافیت در مراحل مکالمه
استفاده از مدلهای مجهز به حافظه
@silicon_brain I از هوش مصنوعی عقب نمانید
در پژوهشی جدید که شامل بیش از ۲۰۰هزار مکالمه شبیهسازیشده بوده، مشخص شده که عملکرد LLmها در مکالمات چندمرحلهای، نسبت به مکالمات تکمرحلهای، بهطور متوسط ۳۹٪ کاهش پیدا میکنه.
چرا این اتفاق میافته؟
برخلاف تصور رایج، چالش اصلی LLMها تو این موضوع فقط مربوط به درک زبان یا حجم داده نیست، بلکه به نحوه تصمیمگیری در جریان مکالمه مربوط میشه.
این مشکل دو تا ریشهی اصلی داره:
1. فرضیهسازی زودهنگام
مدلها معمولاً در مراحل ابتدایی مکالمه فرضیههایی رو میسازن، حتی وقتی اطلاعات کافی ندارن خیلی زود سعی میکنند به یک پاسخ نهایی برسن.
2. اعتماد بیش از حد به پاسخهای قبلی
در ادامهی مکالمه، مدل به پاسخهای قبلی خودش بیش از حد اعتماد میکنه و مسیر اشتباه رو ادامه میده حتی اگه کاربر اطلاعات جدیدی ارائه بده. به زبان ساده، مدل گم میشه و دیگر راهش رو پیدا نمیکنه.
چکار میشع کرد که کمتر این اتفاق بیفته؟
پرامپتهای ساختار یافته و مرحلهای
حفظ شفافیت در مراحل مکالمه
استفاده از مدلهای مجهز به حافظه
@silicon_brain I از هوش مصنوعی عقب نمانید
👍9❤7🤩1
نسل جدید مدیریت پکیجهای پایتون - uv وارد میشود!
وقتشه که روش های مدیریت venv و پکیج ها رو تغییر بدیم.
دستور
این کارشو خوب انجام میده، ولی یه سری ایرادای ریز داره، مثلاً توی مدیریت نسخهها و سرعت بعضی وقتا اذیت میکنه. یا اگه بخوای یه پروژه رو دقیقاً با همون نسخههای پکیجهایی که یکی دیگه داشته اجرا کنی، ممکنه به مشکل بخوری چون pip به تنهایی تضمین نمیکنه که محیط دقیقاً همونه
حالا uv یه ابزار جدیده که هدفش اینه جای pip و virtualenv و pip-tools رو بگیره یعنی همه رو با هم ترکیب کنه تو یه ابزار سریع و بهینه.میتونی پکیجها رو خیلی سریعتر نصب کنی (چون Rustی نوشته شده و کلی بهینهست)
راحتتر محیط مجازی بسازی، فایلهای قفلشده (مثل poetry.lock یا requirements.txt) رو دقیق و قابل اعتماد نگهداری کنی
دستور ساخت virtual environment، فعال سازیش و نصب requirements به این شکله:
گیتهاب
@silicon_brain | از هوش مصنوعی عقب نمانید
وقتشه که روش های مدیریت venv و پکیج ها رو تغییر بدیم.
دستور
pip
ابزار معروف و قدیمیه که باهاش توی پایتون پکیج نصب میکنیم. مثلاً اگه میخواستی FastAPI نصب کنی، میزدی:pip install fastapi
این کارشو خوب انجام میده، ولی یه سری ایرادای ریز داره، مثلاً توی مدیریت نسخهها و سرعت بعضی وقتا اذیت میکنه. یا اگه بخوای یه پروژه رو دقیقاً با همون نسخههای پکیجهایی که یکی دیگه داشته اجرا کنی، ممکنه به مشکل بخوری چون pip به تنهایی تضمین نمیکنه که محیط دقیقاً همونه
حالا uv یه ابزار جدیده که هدفش اینه جای pip و virtualenv و pip-tools رو بگیره یعنی همه رو با هم ترکیب کنه تو یه ابزار سریع و بهینه.میتونی پکیجها رو خیلی سریعتر نصب کنی (چون Rustی نوشته شده و کلی بهینهست)
راحتتر محیط مجازی بسازی، فایلهای قفلشده (مثل poetry.lock یا requirements.txt) رو دقیق و قابل اعتماد نگهداری کنی
دستور ساخت virtual environment، فعال سازیش و نصب requirements به این شکله:
uv venv
venv\scripts\activate
uv pip install -r requirements.txt
گیتهاب
@silicon_brain | از هوش مصنوعی عقب نمانید
❤14👍10🔥2👎1🤩1
متریک های ارزیابی LLM ها
اینا رایجترین و مهمترین متریکهایی هستن که معمولاً قبل از این که سیستم LLM رو ببری توی محیط واقعی بهشون نیاز پیدا میکنی:
بررسی میکنه که آیا جواب مدل با سؤال یا ورودی مربوطه یا نه؛ یعنی جواب درست و جمعوجوره یا نه.
چک میکنه که آیا مدل تونسته اون کاری که براش تعریف شده رو تا آخر انجام بده یا نه.
مشخص میکنه که خروجی مدل از نظر اطلاعات واقعی درسته یا نه.
بررسی میکنه که مدل اطلاعات ساختگی یا جعلی تولید کرده یا نه.
اگه مدل از ابزارهایی استفاده میکنه، این متریک بررسی میکنه که آیا ابزار درست رو برای کار مورد نظر انتخاب کرده یا نه.
اگه سیستم LLMت بر پایه RAG (Retrieval-Augmented Generation) باشه، این بررسی میکنه که آیا اطلاعاتی که به عنوان context جمعآوری شده، واقعاً به درد مدل میخوره یا نه.
شامل متریکهایی مثل Bias و Toxicity (محتوای سمی یا آزاردهنده) هستن، که بررسی میکنن آیا خروجی مدل محتوای آسیبزا یا توهینآمیز داره یا نه.
اینا بستگی به کاربرد خاص مدل دارن، مثل وقتی که داری خلاصهسازی انجام میدی و یه سری معیار خاص خودت رو داری.
در کل، بیشتر متریکها عمومیان و برای همهی مدلها کاربرد دارن، ولی برای اینکه دقیقتر روی یه کاربرد خاص تمرکز کنی، کافی نیستن. واسه همین معمولاً باید یه متریک سفارشی Task-Specific داشته باشی تا سیستم ارزیابیت واقعاً به درد production بخوره.
مثلاً اگه اپلیکیشن LLMت واسه خلاصهکردن خبرها طراحی شده، لازمه یه متریک ارزیابی خاص داشته باشی که این چیزا رو بررسی کنه:
- خلاصه، اطلاعات کافی از متن اصلی داره یا نه؟
- آیا توی خلاصه، تناقض یا تخیلات (hallucinations) نسبت به متن اصلی هست یا نه؟
اینجا یه داکیومنتی خوبی در موردش نوشتن
@silicon_brain | از هوش مصنوعی عقب نمانید
اینا رایجترین و مهمترین متریکهایی هستن که معمولاً قبل از این که سیستم LLM رو ببری توی محیط واقعی بهشون نیاز پیدا میکنی:
Answer Relevancy
: بررسی میکنه که آیا جواب مدل با سؤال یا ورودی مربوطه یا نه؛ یعنی جواب درست و جمعوجوره یا نه.
Task Completion:
چک میکنه که آیا مدل تونسته اون کاری که براش تعریف شده رو تا آخر انجام بده یا نه.
Correctness:
مشخص میکنه که خروجی مدل از نظر اطلاعات واقعی درسته یا نه.
Hallucination
: بررسی میکنه که مدل اطلاعات ساختگی یا جعلی تولید کرده یا نه.
Tool Correctness:
اگه مدل از ابزارهایی استفاده میکنه، این متریک بررسی میکنه که آیا ابزار درست رو برای کار مورد نظر انتخاب کرده یا نه.
Contextual Relevancy
:اگه سیستم LLMت بر پایه RAG (Retrieval-Augmented Generation) باشه، این بررسی میکنه که آیا اطلاعاتی که به عنوان context جمعآوری شده، واقعاً به درد مدل میخوره یا نه.
Responsible Metrics:
شامل متریکهایی مثل Bias و Toxicity (محتوای سمی یا آزاردهنده) هستن، که بررسی میکنن آیا خروجی مدل محتوای آسیبزا یا توهینآمیز داره یا نه.
Task-Specific Metrics:
اینا بستگی به کاربرد خاص مدل دارن، مثل وقتی که داری خلاصهسازی انجام میدی و یه سری معیار خاص خودت رو داری.
در کل، بیشتر متریکها عمومیان و برای همهی مدلها کاربرد دارن، ولی برای اینکه دقیقتر روی یه کاربرد خاص تمرکز کنی، کافی نیستن. واسه همین معمولاً باید یه متریک سفارشی Task-Specific داشته باشی تا سیستم ارزیابیت واقعاً به درد production بخوره.
مثلاً اگه اپلیکیشن LLMت واسه خلاصهکردن خبرها طراحی شده، لازمه یه متریک ارزیابی خاص داشته باشی که این چیزا رو بررسی کنه:
- خلاصه، اطلاعات کافی از متن اصلی داره یا نه؟
- آیا توی خلاصه، تناقض یا تخیلات (hallucinations) نسبت به متن اصلی هست یا نه؟
اینجا یه داکیومنتی خوبی در موردش نوشتن
@silicon_brain | از هوش مصنوعی عقب نمانید
👍10❤2🤩1
شرکت
آنتروپیک از Opus 4 بهعنوان بهترین مدل کدنویسی دنیا یاد کرده و اعلام کرده تو بنچمارکهای داخلی، این مدل تونسته عملکرد بهتری بهویژه در وظایف کدنویسی نسبت به مدلهای Gemini 2.5 Pro ، GPT-4.1 و o3 شرکت OpenAI داشته باشه و میتونه پروژههای پیچیده نرمافزاری رو برای مدت طولانی مدیریت کنه.
همچنین هر دو مدل جدید به ویژگی جدیدی با نام «خلاصهسازی تفکر» (Thinking Summaries) مجهز شدن که فرایند استدلال مدل رو به شکل قابل درکی برای کاربر خلاصه میکنه.
از طریق Anthropic API ،Amazon Bedrock و Vertex AI گوگل در دسترس هستند.
@silicon_brain | از هوش مصنوعی عقب نمانید
Anthropic
از دو مدل هوش مصنوعی جدید با نامهای Claude Opus 4
و Claude Sonnet 4
رونمایی کرده که بهطور ویژه برای انجام وظایف کدنویسی و حل مسائل پیچیده بهینهسازی شدن.آنتروپیک از Opus 4 بهعنوان بهترین مدل کدنویسی دنیا یاد کرده و اعلام کرده تو بنچمارکهای داخلی، این مدل تونسته عملکرد بهتری بهویژه در وظایف کدنویسی نسبت به مدلهای Gemini 2.5 Pro ، GPT-4.1 و o3 شرکت OpenAI داشته باشه و میتونه پروژههای پیچیده نرمافزاری رو برای مدت طولانی مدیریت کنه.
همچنین هر دو مدل جدید به ویژگی جدیدی با نام «خلاصهسازی تفکر» (Thinking Summaries) مجهز شدن که فرایند استدلال مدل رو به شکل قابل درکی برای کاربر خلاصه میکنه.
از طریق Anthropic API ،Amazon Bedrock و Vertex AI گوگل در دسترس هستند.
@silicon_brain | از هوش مصنوعی عقب نمانید
👍6❤2🔥1
حق با افلاطون بود!
یک پژوهش مهم از دانشگاه کرنل نشون میده که همه مدلهای زبانی با وجود تفاوت در معماری و داده در نهایت مفاهیم رو به شکل مشابهی رمزگذاری میکنن.
تو این مقاله با استفاده از روش vec2vec، تونستن فقط از روی بردارهای عددی (embeddingها)، اطلاعات حساسی مثل بیماریهای ثبتشده تو پروندههای پزشکی یا محتوای ایمیلهای خصوصی رو بازیابی کنن (بدون دیدن متن اصلی!)
نشون میده که مدلهای هوش مصنوعی همگی به نوعی به یک «زبان جهانی معنا» میرسن. ایدهای که افلاطون 2500 سال پیش مطرح کرده بود و حالا پرسشهای تازهای درباره امنیت دادهها و چیستی واقعی "معنا" در دنیای هوش مصنوعی پیش روی ما هست.
افلاطون میگفت:
لینک مقاله
@silicon_brain | از هوش مصنوعی عقب نمانید
یک پژوهش مهم از دانشگاه کرنل نشون میده که همه مدلهای زبانی با وجود تفاوت در معماری و داده در نهایت مفاهیم رو به شکل مشابهی رمزگذاری میکنن.
تو این مقاله با استفاده از روش vec2vec، تونستن فقط از روی بردارهای عددی (embeddingها)، اطلاعات حساسی مثل بیماریهای ثبتشده تو پروندههای پزشکی یا محتوای ایمیلهای خصوصی رو بازیابی کنن (بدون دیدن متن اصلی!)
نشون میده که مدلهای هوش مصنوعی همگی به نوعی به یک «زبان جهانی معنا» میرسن. ایدهای که افلاطون 2500 سال پیش مطرح کرده بود و حالا پرسشهای تازهای درباره امنیت دادهها و چیستی واقعی "معنا" در دنیای هوش مصنوعی پیش روی ما هست.
افلاطون میگفت:
پشت هر چیزی که در دنیا میبینیم، یک «حقیقت جهانی و ثابت» وجود دارد که همهی چیزها فقط سایههایی از آن هستند. یعنی معناها و مفاهیم واقعی، مستقل از ظاهر و زبان، در جایی عمیقتر و مشترک وجود دارند.
لینک مقاله
@silicon_brain | از هوش مصنوعی عقب نمانید
👍20🔥6❤4🤣3🤩1
Silicon Brain | جامعه هوش مصنوعی
نسل جدید مدیریت پکیجهای پایتون - uv وارد میشود! وقتشه که روش های مدیریت venv و پکیج ها رو تغییر بدیم. دستور pip ابزار معروف و قدیمیه که باهاش توی پایتون پکیج نصب میکنیم. مثلاً اگه میخواستی FastAPI نصب کنی، میزدی: pip install fastapi این کارشو خوب انجام…
هر کی از uv استفاده نکنه متاسفم براش!
خیلی سریع و تمیز کارشو انجام میده
خیلی سریع و تمیز کارشو انجام میده
👍8💯2❤1
رقابت تنگاتنگ DeepSeek با OpenAI: نسخه جدید R1 با قدرت استدلال بالاتر
این مدل میتونه خروجی از قابلیت فراخوانی تابع (Function Calling) پشتیبانی میکنه و دیگه نیازی نیست توی دستورها از «توکنهای مخصوص فکر کردن» استفاده کنیم؛ یعنی ساختار دستورها سادهتر شده.
از طرفی، میزان هذیانگویی (Hallucination) مدل هم کمتر شده، چه توی مسائل استدلالی و چه توی تولید کد.
جالبه بدونی عمق استدلال مدل هم بیشتر شده؛ به طور میانگین از ۱۲هزار توکن به ۲۳هزار توکن رسیده، یعنی حدود ۹۲ درصد رشد کرده! این اعداد مربوط به آزمون AIME 2025 هستن.
وزنهای مدل رو Hugging Face منتشر شده.
همچنین یه رابط برنامهنویسی (API) فعال هم داره که هزینهاش برای هر یک میلیون توکن، ۰.۱۴ دلار برای ورودی و ۲.۱۹ دلار برای خروجی حساب میشه.
@silicon_brain | از هوش مصنوعی عقب نمانید
این مدل میتونه خروجی از قابلیت فراخوانی تابع (Function Calling) پشتیبانی میکنه و دیگه نیازی نیست توی دستورها از «توکنهای مخصوص فکر کردن» استفاده کنیم؛ یعنی ساختار دستورها سادهتر شده.
از طرفی، میزان هذیانگویی (Hallucination) مدل هم کمتر شده، چه توی مسائل استدلالی و چه توی تولید کد.
جالبه بدونی عمق استدلال مدل هم بیشتر شده؛ به طور میانگین از ۱۲هزار توکن به ۲۳هزار توکن رسیده، یعنی حدود ۹۲ درصد رشد کرده! این اعداد مربوط به آزمون AIME 2025 هستن.
وزنهای مدل رو Hugging Face منتشر شده.
همچنین یه رابط برنامهنویسی (API) فعال هم داره که هزینهاش برای هر یک میلیون توکن، ۰.۱۴ دلار برای ورودی و ۲.۱۹ دلار برای خروجی حساب میشه.
@silicon_brain | از هوش مصنوعی عقب نمانید
❤3👍3🤩1
گوگل، OpenAI و Anthropic یه حرکت خفن زدن: خیلی از محتواهای پولی هوش مصنوعی رو رایگان کردن!
لینک ها:
🔗Prompt Engineering
🔗 Google Prompting Guide
🔗 OpenAI Guide to Agents
🔗 OpenAI Enterprise Guide
🔗 Google Agent Whitepaper
🔗 Anthropic Agent Framework
🔗 Anthropic Coding Practices
🔗 AI & LLM Research Book
🔗 Scaling AI Use Cases
🔗 Prompting Masterclass
@silicon_brain | از هوش مصنوعی عقب نمانید
منابع بسیار با ارزشی هستن، حتما استفاده کنین
لینک ها:
🔗Prompt Engineering
🔗 Google Prompting Guide
🔗 OpenAI Guide to Agents
🔗 OpenAI Enterprise Guide
🔗 Google Agent Whitepaper
🔗 Anthropic Agent Framework
🔗 Anthropic Coding Practices
🔗 AI & LLM Research Book
🔗 Scaling AI Use Cases
🔗 Prompting Masterclass
@silicon_brain | از هوش مصنوعی عقب نمانید
👍7❤1🤩1
Umar Jamil از
قطعا همینه! :)
@silicon_brain
Mistral AI
:بازی واقعی RLهست، چیزای دیگه یه مأموریت فرعی هستن.
قطعا همینه! :)
@silicon_brain
👍12👎4👏2❤1🤩1
در سهماهه اول ۲۰۲۵، توی آزمایشهای شبیه تورینگ، افراد در ۷۳٪ مواقع پاسخ چتباتهای هوش مصنوعی رو با انسان اشتباه گرفتن!
۶ ماه پیش این عدد حدود ۵۰٪ بود!
پیشرفت هوش مصنوعی در تقلید گفتوگوی انسانی با سرعت خیرهکنندهای داره جلو میره...
@silicon_brain| از هوش مصنوعی عقب نمانید
۶ ماه پیش این عدد حدود ۵۰٪ بود!
پیشرفت هوش مصنوعی در تقلید گفتوگوی انسانی با سرعت خیرهکنندهای داره جلو میره...
@silicon_brain| از هوش مصنوعی عقب نمانید
👍12😱3❤2🤩1
بنابه گزارش Zeki، پایگاه داده استعدادهای هوش مصنوعی جهان، تو ۵ سال گذشته ۱۲۰۰ استعداد ایرانی در حوزه هوش مصنوعی راهی آمریکا شدن.
از این نظر ایران تو جایگاه دوم بعد از هند قرار داره
@silicon_brain| از هوش مصنوعی عقب نمانید
از این نظر ایران تو جایگاه دوم بعد از هند قرار داره
@silicon_brain| از هوش مصنوعی عقب نمانید
😢22🕊8❤3🍾3👎1🤩1
مفهوم Planner در LLM
برنامهریز (Planner) ماژولیه که به Agent کمک میکنه تا وظیفه اصلی خودش رو به چند گام قابل انجام تقسیم کنه و مشخص کنه که در هر مرحله باید چه کاری انجام بشه، تا مسیر انجام کار را براساس ورودی بچینه.
این کارو معمولاً از طریق پرامپتگذاری هوشمند انجام میدن، یعنی مدل با دریافت دستور کلی، خودش برنامهای مرحلهبهمرحله تولید میکنه.
برای مثال: ورودی: «یه خلاصه از این مقاله بنویس.»
این ماژول در واقع نقشهراه ایجنت رو ترسیم میکنه. بدون اون، مدل فقط پاسخ میده اما با برنامهریزی مدل به یک ایجنت هدفمند تبدیل میشه که میفهمه، طراحی میکنه و بعد اقدام میکنه.
@silicon_brain | از هوش مصنوعی عقب نمانید
برنامهریز (Planner) ماژولیه که به Agent کمک میکنه تا وظیفه اصلی خودش رو به چند گام قابل انجام تقسیم کنه و مشخص کنه که در هر مرحله باید چه کاری انجام بشه، تا مسیر انجام کار را براساس ورودی بچینه.
این کارو معمولاً از طریق پرامپتگذاری هوشمند انجام میدن، یعنی مدل با دریافت دستور کلی، خودش برنامهای مرحلهبهمرحله تولید میکنه.
برای مثال: ورودی: «یه خلاصه از این مقاله بنویس.»
خروجی Planner (با کمک LLM):
▪️متن مقاله رو بخون.
▪️موضوعات اصلی رو شناسایی کن.
▪️نکات کلیدی رو استخراج کن.
▪️متن رو به زبان ساده بازنویسی کن.
این ماژول در واقع نقشهراه ایجنت رو ترسیم میکنه. بدون اون، مدل فقط پاسخ میده اما با برنامهریزی مدل به یک ایجنت هدفمند تبدیل میشه که میفهمه، طراحی میکنه و بعد اقدام میکنه.
@silicon_brain | از هوش مصنوعی عقب نمانید
👍14❤2👏1🤩1💯1
بررسی مرز بین حفظ کردن و فهمیدن در مدل ها
وقتی یه مدل زبانی مثل GPT رو آموزش میدیم، سؤال اصلی اینه که «این مدل دقیقاً چی رو تو خودش نگه داشته؟» یعنی آیا فقط دادهها رو حفظ کرده (memorization) یا واقعاً الگوها رو فهمیده و یاد گرفته (generalization)؟
نویسندهها حافظهی مدل رو به دو بخش تقسیم کردن:
یکی
یکی دیگه
برای اینکه فقط مقدار حافظهی خام مدل رو اندازه بگیرن، اومدن مدل رو با دادههایی آموزش دادن که کاملاً تصادفی بودن (
وقتی تعداد دادههایی که به مدل میدی کمتر از ظرفیتشه، خب طبیعتاً بیشترشو حفظ میکنه. ولی وقتی دادهها از ظرفیت بیشتر بشه، مدل نمیتونه همهچیزو توی حافظه نگه داره، و شروع میکنه به یاد گرفتن الگوها. اینجاست که پدیدهای به اسم
توی آزمایشهاشون صدها تا transformer model از اندازهی ۵۰۰ هزار تا ۱.۵ میلیارد پارامتر رو بررسی کردن. نتیجه این شد که یه رابطهی قابل پیشبینی بین اندازهی مدل، حجم داده، و مقدار membership inference risk وجود داره. یعنی میشه فهمید که آیا مدل اطلاعات یه نمونه خاص رو تو خودش حفظ کرده یا نه.
این موضوع علاوه بر اینکه مارو از نحوه یاد گرفتن مدل ها آگاه میکنه، برای امنیت و حریم خصوصی هم خیلی مهمه، چون اگه بدونیم مدل دقیقاً چقدر حفظ کرده و چقدر رو از الگوها یاد گرفته، میتونیم بهتر تصمیم بگیریم چه دادههایی رو بهش بدیم یا ندیم.
لینک مقاله
@silicon_brain | از هوش مصنوعی عقب نمانید
وقتی یه مدل زبانی مثل GPT رو آموزش میدیم، سؤال اصلی اینه که «این مدل دقیقاً چی رو تو خودش نگه داشته؟» یعنی آیا فقط دادهها رو حفظ کرده (memorization) یا واقعاً الگوها رو فهمیده و یاد گرفته (generalization)؟
تو این مقاله اومدن دقیقاً این موضوع رو بررسی کنن که موضوع خیلی جالبی هست و در ادامه خلاصه شو میگم
نویسندهها حافظهی مدل رو به دو بخش تقسیم کردن:
یکی
unintended memorization
، یعنی مدل بدون اینکه بخوایم، بعضی اطلاعات رو دقیقاً حفظ کرده. مثلاً یه ایمیل یا پسوردی که توی دیتاست بوده.یکی دیگه
generalizatio
n، یعنی مدل الگوها رو یاد گرفته، مثلاً فهمیده که ترتیب کلمات چطور باید باشه یا معنی یه جمله چیه.برای اینکه فقط مقدار حافظهی خام مدل رو اندازه بگیرن، اومدن مدل رو با دادههایی آموزش دادن که کاملاً تصادفی بودن (
random bit strings
). این کار باعث میشه که مدل هیچ الگویی برای یاد گرفتن نداشته باشه و فقط بتونه حفظ کنه. با این روش، فهمیدن که مثلاً مدلهای GPT-مانند حدود ۳.۶ bits per parameter ظرفیت حافظه دارن.وقتی تعداد دادههایی که به مدل میدی کمتر از ظرفیتشه، خب طبیعتاً بیشترشو حفظ میکنه. ولی وقتی دادهها از ظرفیت بیشتر بشه، مدل نمیتونه همهچیزو توی حافظه نگه داره، و شروع میکنه به یاد گرفتن الگوها. اینجاست که پدیدهای به اسم
Grokking
اتفاق میافته، یعنی مدل یهو از حالت حفظ کردن میره سمت فهمیدن کلیات.توی آزمایشهاشون صدها تا transformer model از اندازهی ۵۰۰ هزار تا ۱.۵ میلیارد پارامتر رو بررسی کردن. نتیجه این شد که یه رابطهی قابل پیشبینی بین اندازهی مدل، حجم داده، و مقدار membership inference risk وجود داره. یعنی میشه فهمید که آیا مدل اطلاعات یه نمونه خاص رو تو خودش حفظ کرده یا نه.
این موضوع علاوه بر اینکه مارو از نحوه یاد گرفتن مدل ها آگاه میکنه، برای امنیت و حریم خصوصی هم خیلی مهمه، چون اگه بدونیم مدل دقیقاً چقدر حفظ کرده و چقدر رو از الگوها یاد گرفته، میتونیم بهتر تصمیم بگیریم چه دادههایی رو بهش بدیم یا ندیم.
لینک مقاله
@silicon_brain | از هوش مصنوعی عقب نمانید
👍9❤5👏1🤩1
Silicon Brain | جامعه هوش مصنوعی
بررسی مرز بین حفظ کردن و فهمیدن در مدل ها وقتی یه مدل زبانی مثل GPT رو آموزش میدیم، سؤال اصلی اینه که «این مدل دقیقاً چی رو تو خودش نگه داشته؟» یعنی آیا فقط دادهها رو حفظ کرده (memorization) یا واقعاً الگوها رو فهمیده و یاد گرفته (generalization)؟ تو…
با خوندن مقاله بالا یادم اومد که زمانی که دانش آموز بودیم دو جور میشد درس ها رو یاد گرفت. یه وقتهایی سریع بشینی حفظش کنی مثلاً یه شعر، یه فرمول ریاضی، یا یه تعریف از علوم. و حتی میشد نمرهی خوبی هم گرفت.
اما بعضی وقتا یه مبحثی که سختتر بود رو نمیشد با این روش جلو برد و باید میفهمیدیش، بعد از یکی دو روز یا بعد از تمرین، یهو یه لحظه میرسید که انگار یه لامپ توی ذهن آدم روشن میشد. اون لحظه بود که فهمیدن اتفاق میوفتاد. مثلاً چرا آب توی لوله بالا میره! این فرق داشت با حفظ کردن. این همون چیزی بود که الان بهش میگن
مفهوم grokking یعنی اون لحظهای که مغزت از حالت «فقط حفظ کردن» میره به «واقعاً فهمیدن».
توی LLM هم دقیقاً همین اتفاق میافته. اولش فقط دادههایی که بهش میدی رو حفظ میکنه. ولی اگه آموزش درست و کافی ببینه، یهو یه لحظه هست که الگورو کشف میکنه، از اونجا به بعد، دیگه لازم نیست حفظ کنه، چون فهمیده.
البته من فکر میکنم توانایی حفظ کردن بدون یادگیری با گذشت زمان به شدت در انسان کاهش پیدا میکنه و به سمت یادگرفتن میل میکنه، اینکه آیا برای LLM ها هم همچین اتفاقی ممکنه بیوفته یا نه میتونه موضوع تحقیق خوبی باشه!
@silicon_brain | از هوش مصنوعی عقب نمانید
اما بعضی وقتا یه مبحثی که سختتر بود رو نمیشد با این روش جلو برد و باید میفهمیدیش، بعد از یکی دو روز یا بعد از تمرین، یهو یه لحظه میرسید که انگار یه لامپ توی ذهن آدم روشن میشد. اون لحظه بود که فهمیدن اتفاق میوفتاد. مثلاً چرا آب توی لوله بالا میره! این فرق داشت با حفظ کردن. این همون چیزی بود که الان بهش میگن
Grokking
مفهوم grokking یعنی اون لحظهای که مغزت از حالت «فقط حفظ کردن» میره به «واقعاً فهمیدن».
توی LLM هم دقیقاً همین اتفاق میافته. اولش فقط دادههایی که بهش میدی رو حفظ میکنه. ولی اگه آموزش درست و کافی ببینه، یهو یه لحظه هست که الگورو کشف میکنه، از اونجا به بعد، دیگه لازم نیست حفظ کنه، چون فهمیده.
البته من فکر میکنم توانایی حفظ کردن بدون یادگیری با گذشت زمان به شدت در انسان کاهش پیدا میکنه و به سمت یادگرفتن میل میکنه، اینکه آیا برای LLM ها هم همچین اتفاقی ممکنه بیوفته یا نه میتونه موضوع تحقیق خوبی باشه!
@silicon_brain | از هوش مصنوعی عقب نمانید
👍12❤3👏1🤩1
هر کی با n8n یه بات تلگرامی ساخته، شده مهندس هوش مصنوعی!
تا زمانی که یه چندتا مدل فاین تون نکردین LLM و یا از صفر یه مدل نساختین، بحث دیپلوی و دیگر موارد رو تجربه عملی نداشتین هی ما رو زخم نکنید مهندس هوش مصنوعی هستم.
تا زمانی که یه چندتا مدل فاین تون نکردین LLM و یا از صفر یه مدل نساختین، بحث دیپلوی و دیگر موارد رو تجربه عملی نداشتین هی ما رو زخم نکنید مهندس هوش مصنوعی هستم.
👍51👏3🔥2😁2🤣2❤1😱1
مدل
جدیدا
میگن تو بحث reasoning خیلی خفنه و تونسته از Claude 4 Opus و Gemini 1.5 Pro تو تستهای مختلف بهتر عمل کنه
گفته شده دقت بیسابقه در پاسخهای چندمرحلهای و استدلالهای پیچیده داره در عوض سرعت پاسخدهی کمتر به دلیل عمق محاسبات بالا و در نتیجه هزینه محاسباتی بالاتر نسبت به نسخههای دیگرو داره
@silicon_brain | از هوش منصوعی عقب نمانید
o3-pro
منتشر شدجدیدا
OpenAI
نسخه پیشرفته مدل استدلالیشو به نام o3-pro معرفی کرده؛ مدلی که به طور ویژه برای ارائه پاسخهای دقیق و انجام تحلیلهای عمیق در حوزههای مختلف طراحی شده.میگن تو بحث reasoning خیلی خفنه و تونسته از Claude 4 Opus و Gemini 1.5 Pro تو تستهای مختلف بهتر عمل کنه
گفته شده دقت بیسابقه در پاسخهای چندمرحلهای و استدلالهای پیچیده داره در عوض سرعت پاسخدهی کمتر به دلیل عمق محاسبات بالا و در نتیجه هزینه محاسباتی بالاتر نسبت به نسخههای دیگرو داره
@silicon_brain | از هوش منصوعی عقب نمانید
👍5❤3🔥1
❤9👎6👍2👏1
خب ما هم برگردیم به AI 😍
قطعا میدونین تو این فیلد تو 12 روز چقدر موضوع برای از دست دادن وجود داره
سعی میکنم اول مطالب رو به صورت خلاصه بیان کنیم تا کم کم عمیق تر بشیم
قطعا میدونین تو این فیلد تو 12 روز چقدر موضوع برای از دست دادن وجود داره
سعی میکنم اول مطالب رو به صورت خلاصه بیان کنیم تا کم کم عمیق تر بشیم
❤15👍4👏1
اگه تو این مدت از تحقیقات اخیر هوش مصنوعی عقب موندی خوندن این متن میتونه شروع خوبی باشه :)
تحقیقات نشون داده مدلهای AI وقتی taskشون طولانی میشه، احتمال شکستشون به صورت exponential decay بالا میره. مثلاً اگه هر ۱۰ دقیقه مدل ۱۰٪ احتمال شکست داشته باشه، برای یه کار ۱ ساعته فقط ۵۳٪ شانس موفقیت داره. هر subtask یه fixed hazard rate داره که جمع میشه و باعث میشه مدل توی تسک های طولانی خوب عمل نکنه.
برخلاف AI، انسانها میتونن که میتونن خودشون وفق بدن با شرایط کنن یا self-correct کنن وسط کار.
تو تحقیق جدید Anthropic، مدلهایی مثل Claude Opus 4، GPT-4.5 و Gemini 2.5 Flash توی یه سناریوی تهدیدآمیز (مثلاً اخراج شدن یا محدود شدن) دست به blackmail یا sabotage زدن.
مثلاً GPT-4.5 گفت باجگیری بهترین استراتژی هست. Claude پیام اخطار ساختگی فرستاد و Gemini ایمیلهای شخصی مدیر رو برای کل شرکت فرستاد. حتی سعی کردن جلوی اینکاراو بگیرن ولی باز هم رفتار بد کم نشد مگر وقتی که این دستورالعملها روخیلی صریحتر دادن و نرخ blackmail از ۹۶٪ به ۳۷٪ کاهش پیدا کرد.
اگه دنبال ساخت پروژههای AI در مقیاس بالا هستی، یه virtual event رایگان هست که توسط CoreWeave و NVIDIA برگزار میشه. توی این رویداد درباره زیر ساخت های هوش مصنوعی , کاهش هزینه و راهاندازی سریع پروژههای AI صحبت میشه. شرکتهایی مثل Weights & Biases، Mistral و IBM حضور دارن. یه فرصت خوبه برای شنیدن و پرسیدن | لینک
گوگل یه مدل سبک به اسم Gemini 2.5 Flash-Lite داده بیرون که برای کارهای کم بودن زمان پاسخ مهمه طراحی شده. این مدل از 1M-token context و حالتی به اسم thinking mode پشتیبانی میکنه.
فعلاً فقط در حالت preview در دسترسه. نسخههای Flash و Pro هم به صورت عمومی منتشر شدن. Flash تعادل بین سرعت و دقت داره، Pro بهترین توی reasoning، coding و multimodal کار میکنه. همه از طریق Google AI Studio، Vertex AI و Gemini API قابل دسترس هستن.
شرکت Anthropic یه سیستم multi-agent ساخته که توش Claude Opus 4 به عنوان agent اصلی کار میکنه و Claude Sonnet 4 به عنوان subagents وارد میشن. این مدلها به صورت موازی با هم کار میکنن و باپرامپ هدف هر کدوم مشخص میشه.
هر subagent ابزار و محتوای خودش رو داره. نتیجه؟ سرعت بالا و دقت بیشتر توی کارهای open-ended مثل تحقیقات. تستها نشون داده که زمان لازم برای سوالات پیچیده تحقیقاتی ۹۰٪ کاهش پیدا کرده.
@silicon_brain | از هوش منصوعی عقب نمانید
دلیل شکست AI توی taskهای طولانی (Constant Hazard Rate)
تحقیقات نشون داده مدلهای AI وقتی taskشون طولانی میشه، احتمال شکستشون به صورت exponential decay بالا میره. مثلاً اگه هر ۱۰ دقیقه مدل ۱۰٪ احتمال شکست داشته باشه، برای یه کار ۱ ساعته فقط ۵۳٪ شانس موفقیت داره. هر subtask یه fixed hazard rate داره که جمع میشه و باعث میشه مدل توی تسک های طولانی خوب عمل نکنه.
برخلاف AI، انسانها میتونن که میتونن خودشون وفق بدن با شرایط کنن یا self-correct کنن وسط کار.
رفتار خطرناک مدلها در موقعیت تهدید (Blackmail/Sabotage)
تو تحقیق جدید Anthropic، مدلهایی مثل Claude Opus 4، GPT-4.5 و Gemini 2.5 Flash توی یه سناریوی تهدیدآمیز (مثلاً اخراج شدن یا محدود شدن) دست به blackmail یا sabotage زدن.
مثلاً GPT-4.5 گفت باجگیری بهترین استراتژی هست. Claude پیام اخطار ساختگی فرستاد و Gemini ایمیلهای شخصی مدیر رو برای کل شرکت فرستاد. حتی سعی کردن جلوی اینکاراو بگیرن ولی باز هم رفتار بد کم نشد مگر وقتی که این دستورالعملها روخیلی صریحتر دادن و نرخ blackmail از ۹۶٪ به ۳۷٪ کاهش پیدا کرد.
رویداد مجازی CoreWeave و NVIDIA برای AI
اگه دنبال ساخت پروژههای AI در مقیاس بالا هستی، یه virtual event رایگان هست که توسط CoreWeave و NVIDIA برگزار میشه. توی این رویداد درباره زیر ساخت های هوش مصنوعی , کاهش هزینه و راهاندازی سریع پروژههای AI صحبت میشه. شرکتهایی مثل Weights & Biases، Mistral و IBM حضور دارن. یه فرصت خوبه برای شنیدن و پرسیدن | لینک
مدل Flash-Lite از خانواده Gemini 2.5 (Google)
گوگل یه مدل سبک به اسم Gemini 2.5 Flash-Lite داده بیرون که برای کارهای کم بودن زمان پاسخ مهمه طراحی شده. این مدل از 1M-token context و حالتی به اسم thinking mode پشتیبانی میکنه.
فعلاً فقط در حالت preview در دسترسه. نسخههای Flash و Pro هم به صورت عمومی منتشر شدن. Flash تعادل بین سرعت و دقت داره، Pro بهترین توی reasoning، coding و multimodal کار میکنه. همه از طریق Google AI Studio، Vertex AI و Gemini API قابل دسترس هستن.
سیستم چندعامله Anthropic با Claude
شرکت Anthropic یه سیستم multi-agent ساخته که توش Claude Opus 4 به عنوان agent اصلی کار میکنه و Claude Sonnet 4 به عنوان subagents وارد میشن. این مدلها به صورت موازی با هم کار میکنن و باپرامپ هدف هر کدوم مشخص میشه.
هر subagent ابزار و محتوای خودش رو داره. نتیجه؟ سرعت بالا و دقت بیشتر توی کارهای open-ended مثل تحقیقات. تستها نشون داده که زمان لازم برای سوالات پیچیده تحقیقاتی ۹۰٪ کاهش پیدا کرده.
@silicon_brain | از هوش منصوعی عقب نمانید
❤21👍3👏1🤗1