Telegram Web Link
افت عملکرد مدل‌ها در مکالمات پیچیده!

در پژوهشی جدید که شامل بیش از ۲۰۰هزار مکالمه شبیه‌سازی‌شده بوده، مشخص شده که عملکرد LLmها در مکالمات چندمرحله‌ای، نسبت به مکالمات تک‌مرحله‌ای، به‌طور متوسط ۳۹٪ کاهش پیدا می‌کنه.

چرا این اتفاق می‌افته؟
برخلاف تصور رایج، چالش اصلی LLMها تو این موضوع فقط مربوط به درک زبان یا حجم داده نیست، بلکه به نحوه تصمیم‌گیری در جریان مکالمه مربوط می‌شه.

این مشکل دو تا ریشه‌ی اصلی داره:

1. فرضیه‌سازی زودهنگام
مدل‌ها معمولاً در مراحل ابتدایی مکالمه فرضیه‌هایی رو می‌سازن، حتی وقتی اطلاعات کافی ندارن خیلی زود سعی می‌کنند به یک پاسخ نهایی برسن.

2. اعتماد بیش از حد به پاسخ‌های قبلی
در ادامه‌ی مکالمه، مدل به پاسخ‌های قبلی خودش بیش از حد اعتماد می‌کنه و مسیر اشتباه رو ادامه می‌ده حتی اگه کاربر اطلاعات جدیدی ارائه بده. به زبان ساده، مدل گم می‌شه و دیگر راهش رو پیدا نمی‌کنه.

چکار میشع کرد که کمتر این اتفاق بیفته؟
پرامپت‌های ساختار یافته و مرحله‌ای
حفظ شفافیت در مراحل مکالمه
استفاده از مدل‌های مجهز به حافظه

@silicon_brain I از هوش مصنوعی عقب نمانید
👍97🤩1
نسل جدید مدیریت پکیج‌های پایتون - uv وارد میشود!
وقتشه که روش های مدیریت venv و پکیج ها رو تغییر بدیم.
دستور pip ابزار معروف و قدیمیه که باهاش توی پایتون پکیج نصب میکنیم. مثلاً اگه می‌خواستی FastAPI نصب کنی، می‌زدی:
pip install fastapi

این کارشو خوب انجام می‌ده، ولی یه سری ایرادای ریز داره، مثلاً توی مدیریت نسخه‌ها و سرعت بعضی وقتا اذیت می‌کنه. یا اگه بخوای یه پروژه رو دقیقاً با همون نسخه‌های پکیج‌هایی که یکی دیگه داشته اجرا کنی، ممکنه به مشکل بخوری چون pip به تنهایی تضمین نمی‌کنه که محیط دقیقاً همونه

حالا uv یه ابزار جدیده که هدفش اینه جای pip و virtualenv و pip-tools رو بگیره یعنی همه رو با هم ترکیب کنه تو یه ابزار سریع و بهینه.می‌تونی پکیج‌ها رو خیلی سریع‌تر نصب کنی (چون Rustی نوشته شده و کلی بهینه‌ست)

راحت‌تر محیط مجازی بسازی، فایل‌های قفل‌شده (مثل poetry.lock یا requirements.txt) رو دقیق و قابل اعتماد نگه‌داری کنی
دستور ساخت virtual environment، فعال سازیش و نصب requirements به این شکله:
uv venv
venv\scripts\activate
uv pip install -r requirements.txt

گیتهاب
@silicon_brain | از هوش مصنوعی عقب نمانید
14👍10🔥2👎1🤩1
متریک های ارزیابی LLM ها

اینا رایج‌ترین و مهم‌ترین متریک‌هایی هستن که معمولاً قبل از این که سیستم LLM رو ببری توی محیط واقعی بهشون نیاز پیدا می‌کنی:

Answer Relevancy:
بررسی می‌کنه که آیا جواب مدل با سؤال یا ورودی مربوطه یا نه؛ یعنی جواب درست و جمع‌وجوره یا نه.

Task Completion:

چک می‌کنه که آیا مدل تونسته اون کاری که براش تعریف شده رو تا آخر انجام بده یا نه.

Correctness:
مشخص می‌کنه که خروجی مدل از نظر اطلاعات واقعی درسته یا نه.

Hallucination:
بررسی می‌کنه که مدل اطلاعات ساختگی یا جعلی تولید کرده یا نه.

Tool Correctness:
اگه مدل از ابزارهایی استفاده می‌کنه، این متریک بررسی می‌کنه که آیا ابزار درست رو برای کار مورد نظر انتخاب کرده یا نه.

Contextual Relevancy:
اگه سیستم LLM‌ت بر پایه RAG (Retrieval-Augmented Generation) باشه، این بررسی می‌کنه که آیا اطلاعاتی که به عنوان context جمع‌آوری شده، واقعاً به درد مدل می‌خوره یا نه.

Responsible Metrics:
شامل متریک‌هایی مثل Bias و Toxicity (محتوای سمی یا آزاردهنده) هستن، که بررسی می‌کنن آیا خروجی مدل محتوای آسیب‌زا یا توهین‌آمیز داره یا نه.

Task-Specific Metrics:
اینا بستگی به کاربرد خاص مدل دارن، مثل وقتی که داری خلاصه‌سازی انجام می‌دی و یه سری معیار خاص خودت رو داری.

در کل، بیشتر متریک‌ها عمومی‌ان و برای همه‌ی مدل‌ها کاربرد دارن، ولی برای اینکه دقیق‌تر روی یه کاربرد خاص تمرکز کنی، کافی نیستن. واسه همین معمولاً باید یه متریک سفارشی Task-Specific داشته باشی تا سیستم ارزیابیت واقعاً به درد production بخوره.

مثلاً اگه اپلیکیشن LLM‌ت واسه خلاصه‌کردن خبرها طراحی شده، لازمه یه متریک ارزیابی خاص داشته باشی که این چیزا رو بررسی کنه:

- خلاصه، اطلاعات کافی از متن اصلی داره یا نه؟
- آیا توی خلاصه، تناقض یا تخیلات (hallucinations) نسبت به متن اصلی هست یا نه؟

اینجا یه داکیومنتی خوبی در موردش نوشتن

@silicon_brain | از هوش مصنوعی عقب نمانید
👍102🤩1
شرکت Anthropic از دو مدل هوش مصنوعی جدید با نام‌های Claude Opus 4 و Claude Sonnet 4 رونمایی کرده که به‌طور ویژه برای انجام وظایف کدنویسی و حل مسائل پیچیده بهینه‌سازی شدن.

آنتروپیک از Opus 4 به‌عنوان بهترین مدل کدنویسی دنیا یاد کرده و اعلام کرده تو بنچمارک‌های داخلی، این مدل تونسته عملکرد بهتری به‌ویژه در وظایف کدنویسی نسبت به مدل‌های Gemini 2.5 Pro ، GPT-4.1 و o3 شرکت OpenAI داشته باشه و می‌تونه پروژه‌های پیچیده نرم‌افزاری رو برای مدت طولانی مدیریت کنه.

همچنین هر دو مدل جدید به ویژگی جدیدی با نام «خلاصه‌سازی تفکر» (Thinking Summaries) مجهز شدن که فرایند استدلال مدل رو به شکل قابل درکی برای کاربر خلاصه می‌کنه.

از طریق Anthropic API ،Amazon Bedrock و Vertex AI گوگل در دسترس هستند.

@silicon_brain | از هوش مصنوعی عقب نمانید
👍62🔥1
حق با افلاطون بود!

یک پژوهش مهم از دانشگاه کرنل نشون میده که همه مدل‌های زبانی با وجود تفاوت در معماری و داده در نهایت مفاهیم رو به شکل مشابهی رمزگذاری می‌کنن.

تو این مقاله با استفاده از روش vec2vec، تونستن فقط از روی بردارهای عددی (embeddingها)، اطلاعات حساسی مثل بیماری‌های ثبت‌شده تو پرونده‌های پزشکی یا محتوای ایمیل‌های خصوصی رو بازیابی کنن (بدون دیدن متن اصلی!)

نشون میده که مدل‌های هوش مصنوعی همگی به نوعی به یک «زبان جهانی معنا» می‌رسن. ایده‌ای که افلاطون 2500 سال پیش مطرح کرده بود و حالا پرسش‌های تازه‌ای درباره امنیت داده‌ها و چیستی واقعی "معنا" در دنیای هوش مصنوعی پیش روی ما هست.

افلاطون می‌گفت:
پشت هر چیزی که در دنیا می‌بینیم، یک «حقیقت جهانی و ثابت» وجود دارد که همه‌ی چیزها فقط سایه‌هایی از آن هستند. یعنی معناها و مفاهیم واقعی، مستقل از ظاهر و زبان، در جایی عمیق‌تر و مشترک وجود دارند.

لینک مقاله

@silicon_brain | از هوش مصنوعی عقب نمانید
👍20🔥64🤣3🤩1
رقابت تنگاتنگ DeepSeek با OpenAI: نسخه جدید R1 با قدرت استدلال بالاتر

این مدل می‌تونه خروجی از قابلیت فراخوانی تابع (Function Calling) پشتیبانی می‌کنه و دیگه نیازی نیست توی دستورها از «توکن‌های مخصوص فکر کردن» استفاده کنیم؛ یعنی ساختار دستورها ساده‌تر شده.

از طرفی، میزان هذیان‌گویی (Hallucination) مدل هم کمتر شده، چه توی مسائل استدلالی و چه توی تولید کد.

جالبه بدونی عمق استدلال مدل هم بیشتر شده؛ به طور میانگین از ۱۲هزار توکن به ۲۳هزار توکن رسیده، یعنی حدود ۹۲ درصد رشد کرده! این اعداد مربوط به آزمون AIME 2025 هستن.

وزن‌های مدل رو Hugging Face منتشر شده.
همچنین یه رابط برنامه‌نویسی (API) فعال هم داره که هزینه‌اش برای هر یک میلیون توکن، ۰.۱۴ دلار برای ورودی و ۲.۱۹ دلار برای خروجی حساب می‌شه.

@silicon_brain | از هوش مصنوعی عقب نمانید
3👍3🤩1
گوگل، OpenAI و Anthropic یه حرکت خفن زدن: خیلی از محتواهای پولی هوش مصنوعی رو رایگان کردن!

منابع بسیار با ارزشی هستن، حتما استفاده کنین


لینک ها:

🔗Prompt Engineering
🔗 Google Prompting Guide
🔗 OpenAI Guide to Agents
🔗 OpenAI Enterprise Guide
🔗 Google Agent Whitepaper
🔗 Anthropic Agent Framework
🔗 Anthropic Coding Practices
🔗 AI & LLM Research Book
🔗 Scaling AI Use Cases
🔗 Prompting Masterclass

@silicon_brain | از هوش مصنوعی عقب نمانید
👍71🤩1
Umar Jamil از Mistral AI‏:
بازی واقعی RLهست، چیزای دیگه یه مأموریت فرعی هستن.

قطعا همینه! :)

@silicon_brain
👍12👎4👏21🤩1
در سه‌ماهه اول ۲۰۲۵، توی آزمایش‌های شبیه تورینگ، افراد در ۷۳٪ مواقع پاسخ چت‌بات‌های هوش مصنوعی رو با انسان اشتباه گرفتن!

۶ ماه پیش این عدد حدود ۵۰٪ بود!
پیشرفت هوش مصنوعی در تقلید گفت‌وگوی انسانی با سرعت خیره‌کننده‌ای داره جلو می‌ره...

@silicon_brain| از هوش مصنوعی عقب نمانید
👍12😱32🤩1
بنابه گزارش Zeki، پایگاه داده استعدادهای هوش مصنوعی جهان، تو ۵ سال گذشته ۱۲۰۰ استعداد ایرانی در حوزه هوش مصنوعی راهی آمریکا شدن.

از این نظر ایران تو جایگاه دوم بعد از هند قرار داره

@silicon_brain| از هوش مصنوعی عقب نمانید
😢22🕊83🍾3👎1🤩1
مفهوم Planner در LLM

برنامه‌ریز (Planner) ماژولیه که به Agent کمک می‌کنه تا وظیفه اصلی خودش رو به چند گام قابل انجام تقسیم کنه و مشخص کنه که در هر مرحله باید چه کاری انجام بشه، تا مسیر انجام کار را براساس ورودی بچینه.

این کارو معمولاً از طریق پرامپت‌گذاری هوشمند انجام میدن، یعنی مدل با دریافت دستور کلی، خودش برنامه‌ای مرحله‌به‌مرحله تولید می‌کنه.

برای مثال: ورودی: «یه خلاصه از این مقاله بنویس.»
خروجی Planner (با کمک LLM):
▪️متن مقاله رو بخون.
▪️موضوعات اصلی رو شناسایی کن.
▪️نکات کلیدی رو استخراج کن.
▪️متن رو به زبان ساده بازنویسی کن.


این ماژول در واقع نقشه‌راه ایجنت رو ترسیم می‌کنه. بدون اون، مدل فقط پاسخ می‌ده اما با برنامه‌ریزی مدل به یک ایجنت هدفمند تبدیل می‌شه که می‌فهمه، طراحی می‌کنه و بعد اقدام می‌کنه.

@silicon_brain | از هوش مصنوعی عقب نمانید
👍142👏1🤩1💯1
بررسی مرز بین حفظ کردن و فهمیدن در مدل ها

وقتی یه مدل زبانی مثل GPT رو آموزش می‌دیم، سؤال اصلی اینه که «این مدل دقیقاً چی رو تو خودش نگه داشته؟» یعنی آیا فقط داده‌ها رو حفظ کرده (memorization) یا واقعاً الگوها رو فهمیده و یاد گرفته (generalization)؟

تو این مقاله اومدن دقیقاً این موضوع رو بررسی کنن که موضوع خیلی جالبی هست و در ادامه خلاصه شو میگم


نویسنده‌ها حافظه‌ی مدل رو به دو بخش تقسیم کردن:

یکی unintended memorization، یعنی مدل بدون اینکه بخوایم، بعضی اطلاعات رو دقیقاً حفظ کرده. مثلاً یه ایمیل یا پسوردی که توی دیتاست بوده.

یکی دیگه generalization، یعنی مدل الگوها رو یاد گرفته، مثلاً فهمیده که ترتیب کلمات چطور باید باشه یا معنی یه جمله چیه.

برای اینکه فقط مقدار حافظه‌ی خام مدل رو اندازه بگیرن، اومدن مدل رو با داده‌هایی آموزش دادن که کاملاً تصادفی بودن (random bit strings). این کار باعث می‌شه که مدل هیچ الگویی برای یاد گرفتن نداشته باشه و فقط بتونه حفظ کنه. با این روش، فهمیدن که مثلاً مدل‌های GPT-مانند حدود ۳.۶ bits per parameter ظرفیت حافظه دارن.

وقتی تعداد داده‌هایی که به مدل می‌دی کمتر از ظرفیتشه، خب طبیعتاً بیشترشو حفظ می‌کنه. ولی وقتی داده‌ها از ظرفیت بیشتر بشه، مدل نمی‌تونه همه‌چیزو توی حافظه نگه داره، و شروع می‌کنه به یاد گرفتن الگوها. اینجاست که پدیده‌ای به اسم Grokking اتفاق می‌افته، یعنی مدل یهو از حالت حفظ کردن می‌ره سمت فهمیدن کلیات.

توی آزمایش‌هاشون صدها تا transformer model از اندازه‌ی ۵۰۰ هزار تا ۱.۵ میلیارد پارامتر رو بررسی کردن. نتیجه این شد که یه رابطه‌ی قابل پیش‌بینی بین اندازه‌ی مدل، حجم داده، و مقدار membership inference risk وجود داره. یعنی می‌شه فهمید که آیا مدل اطلاعات یه نمونه خاص رو تو خودش حفظ کرده یا نه.

این موضوع علاوه بر اینکه مارو از نحوه یاد گرفتن مدل ها آگاه میکنه، برای امنیت و حریم خصوصی هم خیلی مهمه، چون اگه بدونیم مدل دقیقاً چقدر حفظ کرده و چقدر رو از الگوها یاد گرفته، می‌تونیم بهتر تصمیم بگیریم چه داده‌هایی رو بهش بدیم یا ندیم.
لینک مقاله

@silicon_brain | از هوش مصنوعی عقب نمانید
👍95👏1🤩1
Silicon Brain | جامعه هوش مصنوعی
بررسی مرز بین حفظ کردن و فهمیدن در مدل ها وقتی یه مدل زبانی مثل GPT رو آموزش می‌دیم، سؤال اصلی اینه که «این مدل دقیقاً چی رو تو خودش نگه داشته؟» یعنی آیا فقط داده‌ها رو حفظ کرده (memorization) یا واقعاً الگوها رو فهمیده و یاد گرفته (generalization)؟ تو…
با خوندن مقاله بالا یادم اومد که زمانی که دانش آموز بودیم دو جور میشد درس ها رو یاد گرفت. یه وقت‌هایی سریع بشینی حفظش کنی مثلاً یه شعر، یه فرمول ریاضی، یا یه تعریف از علوم. و حتی میشد نمره‌ی خوبی هم گرفت.

اما بعضی وقتا یه مبحثی که سخت‌تر بود رو نمیشد با این روش جلو برد و باید میفهمیدیش، بعد از یکی دو روز یا بعد از تمرین، یهو یه لحظه می‌رسید که انگار یه لامپ توی ذهن آدم روشن می‌شد. اون لحظه بود که فهمیدن اتفاق میوفتاد. مثلاً چرا آب توی لوله بالا می‌ره! این فرق داشت با حفظ کردن. این همون چیزی بود که الان بهش می‌گن Grokking

مفهوم grokking یعنی اون لحظه‌ای که مغزت از حالت «فقط حفظ کردن» می‌ره به «واقعاً فهمیدن».
توی LLM هم دقیقاً همین اتفاق می‌افته. اولش فقط داده‌هایی که بهش می‌دی رو حفظ می‌کنه. ولی اگه آموزش درست و کافی ببینه، یهو یه لحظه هست که الگورو کشف می‌کنه، از اون‌جا به بعد، دیگه لازم نیست حفظ کنه، چون فهمیده.

البته من فکر میکنم توانایی حفظ کردن بدون یادگیری با گذشت زمان به شدت در انسان کاهش پیدا میکنه و به سمت یادگرفتن میل میکنه، اینکه آیا برای LLM ها هم همچین اتفاقی ممکنه بیوفته یا نه میتونه موضوع تحقیق خوبی باشه!

@silicon_brain | از هوش مصنوعی عقب نمانید
👍123👏1🤩1
هر کی با n8n یه بات تلگرامی ساخته، شده مهندس هوش مصنوعی!
تا زمانی که یه چندتا مدل فاین تون نکردین LLM و یا از صفر یه مدل نساختین، بحث دیپلوی و دیگر موارد رو تجربه عملی نداشتین هی ما رو زخم نکنید مهندس هوش مصنوعی هستم.
👍51👏3🔥2😁2🤣21😱1
مدل o3-pro منتشر شد

جدیدا OpenAI نسخه پیشرفته مدل استدلالیشو به نام o3-pro معرفی کرده؛ مدلی که به طور ویژه برای ارائه پاسخ‌های دقیق و انجام تحلیل‌های عمیق در حوزه‌های مختلف طراحی شده.

میگن تو بحث reasoning خیلی خفنه و تونسته از Claude 4 Opus و Gemini 1.5 Pro تو تست‌های مختلف بهتر عمل کنه

گفته شده دقت بی‌سابقه در پاسخ‌های چندمرحله‌ای و استدلال‌های پیچیده داره در عوض سرعت پاسخ‌دهی کمتر به دلیل عمق محاسبات بالا و در نتیجه هزینه محاسباتی بالاتر نسبت به نسخه‌های دیگرو داره

@silicon_brain | از هوش منصوعی عقب نمانید
👍53🔥1
نقشه مهم مراکز تخلیه امن و پناهگاه‌های شهر تهران به تفکیک مناطق

لینک
9👎6👍2👏1
بایدها و نبایدها در زمان شنیدن صدای پدافند
👍82👎2👏2
خب ما هم برگردیم به AI 😍
قطعا میدونین تو این فیلد تو 12 روز چقدر موضوع برای از دست دادن وجود داره
سعی میکنم اول مطالب رو به صورت خلاصه بیان کنیم تا کم کم عمیق تر بشیم
15👍4👏1
اگه تو این مدت از تحقیقات اخیر هوش مصنوعی عقب موندی خوندن این متن میتونه شروع خوبی باشه :)

‏دلیل شکست AI توی taskهای طولانی (Constant Hazard Rate)

تحقیقات نشون داده مدل‌های AI وقتی taskشون طولانی می‌شه، احتمال شکستشون به صورت exponential decay بالا می‌ره. مثلاً اگه هر ۱۰ دقیقه مدل ۱۰٪ احتمال شکست داشته باشه، برای یه کار ۱ ساعته فقط ۵۳٪ شانس موفقیت داره. هر subtask یه fixed hazard rate داره که جمع می‌شه و باعث می‌شه مدل توی تسک های طولانی خوب عمل نکنه.
برخلاف AI، انسان‌ها می‌تونن که میتونن خودشون وفق بدن با شرایط کنن یا self-correct کنن وسط کار.

رفتار خطرناک مدل‌ها در موقعیت تهدید (Blackmail/Sabotage)

تو تحقیق جدید Anthropic، مدل‌هایی مثل Claude Opus 4، GPT-4.5 و Gemini 2.5 Flash توی یه سناریوی تهدیدآمیز (مثلاً اخراج شدن یا محدود شدن) دست به blackmail یا sabotage زدن.
مثلاً GPT-4.5 گفت باج‌گیری بهترین استراتژی هست. Claude پیام اخطار ساختگی فرستاد و Gemini ایمیل‌های شخصی مدیر رو برای کل شرکت فرستاد. حتی سعی کردن جلوی اینکاراو بگیرن ولی باز هم رفتار بد کم نشد مگر وقتی که این دستورالعمل‌ها روخیلی صریح‌تر دادن و نرخ blackmail از ۹۶٪ به ۳۷٪ کاهش پیدا کرد.

رویداد مجازی CoreWeave و NVIDIA برای AI

اگه دنبال ساخت پروژه‌های AI در مقیاس بالا هستی، یه virtual event رایگان هست که توسط CoreWeave و NVIDIA برگزار می‌شه. توی این رویداد درباره زیر ساخت های هوش مصنوعی , کاهش هزینه و راه‌اندازی سریع پروژه‌های AI صحبت می‌شه. شرکت‌هایی مثل Weights & Biases، Mistral و IBM حضور دارن. یه فرصت خوبه برای شنیدن و پرسیدن | لینک

مدل Flash-Lite از خانواده Gemini 2.5 (Google)

گوگل یه مدل سبک به اسم Gemini 2.5 Flash-Lite داده بیرون که برای کارهای کم بودن زمان پاسخ مهمه طراحی شده. این مدل از 1M-token context و حالتی به اسم thinking mode پشتیبانی می‌کنه.
فعلاً فقط در حالت preview در دسترسه. نسخه‌های Flash و Pro هم به صورت عمومی منتشر شدن. Flash تعادل بین سرعت و دقت داره، Pro بهترین توی reasoning، coding و multimodal کار می‌کنه. همه از طریق Google AI Studio، Vertex AI و Gemini API قابل دسترس هستن.

سیستم چندعامله Anthropic با Claude

شرکت Anthropic یه سیستم multi-agent ساخته که توش Claude Opus 4 به عنوان agent اصلی کار می‌کنه و Claude Sonnet 4 به عنوان subagents وارد می‌شن. این مدل‌ها به صورت موازی با هم کار می‌کنن و باپرامپ هدف هر کدوم مشخص می‌شه.
هر subagent ابزار و محتوای خودش رو داره. نتیجه؟ سرعت بالا و دقت بیشتر توی کارهای open-ended مثل تحقیقات. تست‌ها نشون داده که زمان لازم برای سوالات پیچیده تحقیقاتی ۹۰٪ کاهش پیدا کرده.



@silicon_brain | از هوش منصوعی عقب نمانید
21👍3👏1🤗1
2025/07/09 00:38:38
Back to Top
HTML Embed Code: