چند روز پیش شخصی موفق شده Claude رو راضی کنه که system prompt خودشو لو بده!
اگه نمیدونی
نتیجه لو دادن
حالا بریم ببینیم توی prompt Claude چی هست:
همونطور که در تصویر مشخصه، بزرگترین بخشش، قسمت Tool Definitions هست که از سرورهای MCP میاد. سرورهای MCP با APIهای معمولی فرق دارن، چون به LLM دقیق میگن کی و چطوری از ابزارها استفاده کنه.
(ادامه در پست بعدی)
@silicon_brain | از هوش مصنوعی عقب نمانید
برای خودم خیلی جالب بود این موضوع و در ادامه با توضیح نیازمندی ها در موردش میگم:
اگه نمیدونی
system prompt
چیه، به طور خلاصه یه جور prompt ثابته که به یه LLM
میگه چطوری به پیامهای کاربر جواب بده. یه جورایی مثل “تنظیمات” یا “preferences” مدل عمل میکنه. مثلا مشخص میکنه لحن جواب چطور باشه، چه ابزارهایی رو استفاده کنه، چه اطلاعات زمینهایای داشته باشه که توی دادههای آموزشیش نیست.نتیجه لو دادن
Claude
این بوده که مشخص شده System prompt مدل Claude خیلی طولانیه: (حدود ۱۶،۷۳۹ کلمه یا حدود ۱۱۰ کیلوبایت). برای مقایسه، system prompt مدل o4-mini
از OpenAI
فقط ۲،۲۱۸ کلمهست، حدود ۱۵.۱ کیلوبایت — یعنی تقریباً ۱۳٪ اندازه Claude.حالا بریم ببینیم توی prompt Claude چی هست:
همونطور که در تصویر مشخصه، بزرگترین بخشش، قسمت Tool Definitions هست که از سرورهای MCP میاد. سرورهای MCP با APIهای معمولی فرق دارن، چون به LLM دقیق میگن کی و چطوری از ابزارها استفاده کنه.
(ادامه در پست بعدی)
@silicon_brain | از هوش مصنوعی عقب نمانید
👍10❤1👏1🤩1
(در ادامه پست قبلی)
یه نمونه از این MCP رو برای سرچ در وب در ادامه میبنید:
این یکی سادهست. مثلاً ابزار سرچ توی Google Drive یه description داره که بیشتر از ۱۷۰۰ کلمهست! خلاصه که بعضیهاش واقعاً پیچیدهن.
غیر از Tool Definitions، کلی دستور دیگه هم هست که مربوط به استفاده از ابزارهاست: Citation Instructions، Artifacts Instructions، Search Instructions و Google Integration Watchouts. مثلاً چند بار تکرار شده که Claude نباید از ابزار جستوجو استفاده کنه اگه خودش جواب رو میدونه. (انگار حذف این رفتار کار راحتی نبوده!)
توی کل prompt، جاهایی هست که حس hotfix میده — یعنی یه وصلهای سریع برای حل یه مشکل خاص. مثلاً قسمت Google Integration Watchouts فقط پنج خط بدون هیچ ساختاریه. یه نمونه:
(پرامپت ترجمه شده):
در مجموع، تقریباً ۸۰٪ این prompt مربوط به ابزارهاست ، چه زمانی و چطوری باید استفاده بشن.
آخر prompt، میرسیم به بخشی به نام Claude Behavior. اینجا مشخص میکنه Claude باید چطوری رفتار کنه، چطوری جواب بده و چه کارایی نباید بکنه.
در کل خوندن این prompt آدم رو به فکر میندازه که
ولی واقعاً چه نرمافزاری استفاده میکنن برای version control این promptها؟ این hotfixها یکییکی اضافه میشن یا دستهجمعی بعد از ارزیابیها؟ و آیا هیچوقت کلاً از اول شروع میکنن؟ یا همیشه همینطوری تیکهتیکه اضافه میکنن؟ همه اینا مسائل مهمی هستن که باید بهشون توجه کنیم!
@silicon_brain | از هوش مصنوعی عقب نمانید
یه نمونه از این MCP رو برای سرچ در وب در ادامه میبنید:
json
{
"description": "Search the web",
"name": "web_search",
"parameters": {
"additionalProperties": false,
"properties": {
"query": {
"description": "Search query",
"title": "Query",
"type": "string"
}
},
"required": ["query"],
"title": "BraveSearchParams",
"type": "object"
}
}
این یکی سادهست. مثلاً ابزار سرچ توی Google Drive یه description داره که بیشتر از ۱۷۰۰ کلمهست! خلاصه که بعضیهاش واقعاً پیچیدهن.
غیر از Tool Definitions، کلی دستور دیگه هم هست که مربوط به استفاده از ابزارهاست: Citation Instructions، Artifacts Instructions، Search Instructions و Google Integration Watchouts. مثلاً چند بار تکرار شده که Claude نباید از ابزار جستوجو استفاده کنه اگه خودش جواب رو میدونه. (انگار حذف این رفتار کار راحتی نبوده!)
توی کل prompt، جاهایی هست که حس hotfix میده — یعنی یه وصلهای سریع برای حل یه مشکل خاص. مثلاً قسمت Google Integration Watchouts فقط پنج خط بدون هیچ ساختاریه. یه نمونه:
(پرامپت ترجمه شده):
اگه داری از ابزارهای gmail استفاده میکنی و کاربر گفته دنبال ایمیل یه نفر خاص بگردی، فرض نکن آدرس ایمیل اون فرد رو میدونی. چون ممکنه چند نفر با اسم کوچیک مشابه توی سیستم باشن. به جای حدس زدن، بهتره با اسم کوچیک جستوجو کنی و از کاربر بخوای تأیید کنه که کدوم ایمیل مال همون فرد مورد نظرشه.
در مجموع، تقریباً ۸۰٪ این prompt مربوط به ابزارهاست ، چه زمانی و چطوری باید استفاده بشن.
آخر prompt، میرسیم به بخشی به نام Claude Behavior. اینجا مشخص میکنه Claude باید چطوری رفتار کنه، چطوری جواب بده و چه کارایی نباید بکنه.
اگه از Claude خواسته بشه کلمات، حروف یا کاراکترها رو بشمره، مرحلهبهمرحله فکر میکنه و دقیق میشمره و فقط وقتی شمارش تموم شد جواب میده.
اگه Claude یه پازل کلاسیک ببینه، قبل از اینکه جواب بده، کل شرایط پازل رو کلمهبهکلمه توی نقلقول مینویسه تا مطمئن بشه با یه نسخه تغییریافته طرف نیست.
اگه از Claude خواسته بشه شعر بگه، از استعارههای کلیشهای، تصاویر تکراری یا قافیههای قابلپیشبینی استفاده نمیکنه.
در کل خوندن این prompt آدم رو به فکر میندازه که
Anthropic
چجوری اینا رو مدیریت میکنه. پر از تکههای کوچیکه که اسکنکردن و درک کلیش آسون نیست. از تگهای XML استفاده کردن که به نظر میرسه برای خود آدما (و نه LLM) مفیدتر باشه. استفادهشون از MCP هم یه برگ برندهست.ولی واقعاً چه نرمافزاری استفاده میکنن برای version control این promptها؟ این hotfixها یکییکی اضافه میشن یا دستهجمعی بعد از ارزیابیها؟ و آیا هیچوقت کلاً از اول شروع میکنن؟ یا همیشه همینطوری تیکهتیکه اضافه میکنن؟ همه اینا مسائل مهمی هستن که باید بهشون توجه کنیم!
@silicon_brain | از هوش مصنوعی عقب نمانید
👍11❤4🤩1
مدت ها پیش یه دیتاست فارسی درست کردم به نام
که یه دیتاست ترکیبی هستش که از استوریهای اینستاگرام گردآوری شده (با در نظر گرفتن حریم خصوصی)
الان، تصمیم گرفتم این دیتاست رو به صورت عمومی منتشر کنم
این دیتاست علاوه بر متنهای فارسی منتشرشده در استوریها (ویژگی متنی content)، شامل ویژگیهای گرافیکی مانند رنگ پسزمینه، رنگ متن و فونت نیز هستش. برای همین، hystoclass برای مدلسازیهای چندوجهی (متنی-تصویری یا متنی-جدولی) بسیار مناسب است.
دستهبندیها
این دیتاست با نظارت انسانی به ۱۸ دسته مختلف تقسیم شده.
گیتهاب | هاگینگفیس
این دیتاست اطلاعات خوبی برای پژوهش در حوزههای پردازش زبان طبیعی (NLP)، تحلیل شبکههای اجتماعی و طبقهبندی ترکیبی متن و ویژگیهای گرافیکی ارائه میده.
با لایک و استار ⭐️ در گیتهاب و هاگینگفیس حمایت کنین❤️
hystoclass
(hybrid social text and tabular classification) که یه دیتاست ترکیبی هستش که از استوریهای اینستاگرام گردآوری شده (با در نظر گرفتن حریم خصوصی)
الان، تصمیم گرفتم این دیتاست رو به صورت عمومی منتشر کنم
این دیتاست علاوه بر متنهای فارسی منتشرشده در استوریها (ویژگی متنی content)، شامل ویژگیهای گرافیکی مانند رنگ پسزمینه، رنگ متن و فونت نیز هستش. برای همین، hystoclass برای مدلسازیهای چندوجهی (متنی-تصویری یا متنی-جدولی) بسیار مناسب است.
دستهبندیها
این دیتاست با نظارت انسانی به ۱۸ دسته مختلف تقسیم شده.
گیتهاب | هاگینگفیس
این دیتاست اطلاعات خوبی برای پژوهش در حوزههای پردازش زبان طبیعی (NLP)، تحلیل شبکههای اجتماعی و طبقهبندی ترکیبی متن و ویژگیهای گرافیکی ارائه میده.
با لایک و استار ⭐️ در گیتهاب و هاگینگفیس حمایت کنین❤️
👍20❤7👏7🤩1
This media is not supported in your browser
VIEW IN TELEGRAM
تبدیل فایل به دیتاست!
مایکروسافت یه ابزار خفن و open-source به نام MarkItDown MCP معرفی کرده که هر فایل رو به یه دیتاست آماده برای مدلهای زبانی تبدیل میکنه!
انواع مختلف ورودی میتونه بگیره از جمله فایلهای PDF، ورد، پاورپوینت، صدا و تصویر. و خروجیش یه Markdown تمیز، Structurable و آماده برای LLMهاست که در ادامه میتونه کلی استفاده داشته باشه
اما فقط یه مبدل ساده نیست، این کارها رو هم انجام میده:
- متن رو از عکسها استخراج میکنه (OCR)
- برای تصاویر کپشن هوشمند میسازه
- متادیتا و EXIF رو درمیاره
- صدا رو به متن تبدیل میکنه (transcription)
خودم باهاش کار میکنم و جزئیات بیشتری ازش میگم
لینک
@silicon_brain | از هوش مصنوعی عقب نمانید
مایکروسافت یه ابزار خفن و open-source به نام MarkItDown MCP معرفی کرده که هر فایل رو به یه دیتاست آماده برای مدلهای زبانی تبدیل میکنه!
انواع مختلف ورودی میتونه بگیره از جمله فایلهای PDF، ورد، پاورپوینت، صدا و تصویر. و خروجیش یه Markdown تمیز، Structurable و آماده برای LLMهاست که در ادامه میتونه کلی استفاده داشته باشه
اما فقط یه مبدل ساده نیست، این کارها رو هم انجام میده:
- متن رو از عکسها استخراج میکنه (OCR)
- برای تصاویر کپشن هوشمند میسازه
- متادیتا و EXIF رو درمیاره
- صدا رو به متن تبدیل میکنه (transcription)
خودم باهاش کار میکنم و جزئیات بیشتری ازش میگم
لینک
@silicon_brain | از هوش مصنوعی عقب نمانید
👍9👏5❤4🤩1
همه این عناوین جذاب و مهم رو با این ریپو میتونید یاد بگیرید
لینک
@silicon_brain| از هوش مصنوعی عقب نمانید
لینک
@silicon_brain| از هوش مصنوعی عقب نمانید
❤6👍2🔥2🤩1
هوش مصنوعی شخصیسازیشده برای پلیلیست اسپاتیفای
تو این ریپو هر بار که اسکریپتو اجرا کنید، پلیلیست اسپاتیفایت با ۲۰ تا آهنگ پیشنهادیِ جدید که قبلاً معرفی نشده بوده، آپدیت میشه.
هر چند بار در روز که بخوای هم میتونی اجراش کنی(لازم نیست یه هفته صبر کنه تا Discover Weekly آپدیت بشه )
وصل کردنش از طریق
لینک
@silicon_brain| از هوش مصنوعی عقب نمانید
تو این ریپو هر بار که اسکریپتو اجرا کنید، پلیلیست اسپاتیفایت با ۲۰ تا آهنگ پیشنهادیِ جدید که قبلاً معرفی نشده بوده، آپدیت میشه.
هر چند بار در روز که بخوای هم میتونی اجراش کنی(لازم نیست یه هفته صبر کنه تا Discover Weekly آپدیت بشه )
وصل کردنش از طریق
SPOTIPY_CLIENT_ID
و SPOTIPY_CLIENT_SECRET
هست. لینک
@silicon_brain| از هوش مصنوعی عقب نمانید
👍4👎2❤1🤩1
افت عملکرد مدلها در مکالمات پیچیده!
در پژوهشی جدید که شامل بیش از ۲۰۰هزار مکالمه شبیهسازیشده بوده، مشخص شده که عملکرد LLmها در مکالمات چندمرحلهای، نسبت به مکالمات تکمرحلهای، بهطور متوسط ۳۹٪ کاهش پیدا میکنه.
چرا این اتفاق میافته؟
برخلاف تصور رایج، چالش اصلی LLMها تو این موضوع فقط مربوط به درک زبان یا حجم داده نیست، بلکه به نحوه تصمیمگیری در جریان مکالمه مربوط میشه.
این مشکل دو تا ریشهی اصلی داره:
1. فرضیهسازی زودهنگام
مدلها معمولاً در مراحل ابتدایی مکالمه فرضیههایی رو میسازن، حتی وقتی اطلاعات کافی ندارن خیلی زود سعی میکنند به یک پاسخ نهایی برسن.
2. اعتماد بیش از حد به پاسخهای قبلی
در ادامهی مکالمه، مدل به پاسخهای قبلی خودش بیش از حد اعتماد میکنه و مسیر اشتباه رو ادامه میده حتی اگه کاربر اطلاعات جدیدی ارائه بده. به زبان ساده، مدل گم میشه و دیگر راهش رو پیدا نمیکنه.
چکار میشع کرد که کمتر این اتفاق بیفته؟
پرامپتهای ساختار یافته و مرحلهای
حفظ شفافیت در مراحل مکالمه
استفاده از مدلهای مجهز به حافظه
@silicon_brain I از هوش مصنوعی عقب نمانید
در پژوهشی جدید که شامل بیش از ۲۰۰هزار مکالمه شبیهسازیشده بوده، مشخص شده که عملکرد LLmها در مکالمات چندمرحلهای، نسبت به مکالمات تکمرحلهای، بهطور متوسط ۳۹٪ کاهش پیدا میکنه.
چرا این اتفاق میافته؟
برخلاف تصور رایج، چالش اصلی LLMها تو این موضوع فقط مربوط به درک زبان یا حجم داده نیست، بلکه به نحوه تصمیمگیری در جریان مکالمه مربوط میشه.
این مشکل دو تا ریشهی اصلی داره:
1. فرضیهسازی زودهنگام
مدلها معمولاً در مراحل ابتدایی مکالمه فرضیههایی رو میسازن، حتی وقتی اطلاعات کافی ندارن خیلی زود سعی میکنند به یک پاسخ نهایی برسن.
2. اعتماد بیش از حد به پاسخهای قبلی
در ادامهی مکالمه، مدل به پاسخهای قبلی خودش بیش از حد اعتماد میکنه و مسیر اشتباه رو ادامه میده حتی اگه کاربر اطلاعات جدیدی ارائه بده. به زبان ساده، مدل گم میشه و دیگر راهش رو پیدا نمیکنه.
چکار میشع کرد که کمتر این اتفاق بیفته؟
پرامپتهای ساختار یافته و مرحلهای
حفظ شفافیت در مراحل مکالمه
استفاده از مدلهای مجهز به حافظه
@silicon_brain I از هوش مصنوعی عقب نمانید
👍9❤7🤩1
نسل جدید مدیریت پکیجهای پایتون - uv وارد میشود!
وقتشه که روش های مدیریت venv و پکیج ها رو تغییر بدیم.
دستور
این کارشو خوب انجام میده، ولی یه سری ایرادای ریز داره، مثلاً توی مدیریت نسخهها و سرعت بعضی وقتا اذیت میکنه. یا اگه بخوای یه پروژه رو دقیقاً با همون نسخههای پکیجهایی که یکی دیگه داشته اجرا کنی، ممکنه به مشکل بخوری چون pip به تنهایی تضمین نمیکنه که محیط دقیقاً همونه
حالا uv یه ابزار جدیده که هدفش اینه جای pip و virtualenv و pip-tools رو بگیره یعنی همه رو با هم ترکیب کنه تو یه ابزار سریع و بهینه.میتونی پکیجها رو خیلی سریعتر نصب کنی (چون Rustی نوشته شده و کلی بهینهست)
راحتتر محیط مجازی بسازی، فایلهای قفلشده (مثل poetry.lock یا requirements.txt) رو دقیق و قابل اعتماد نگهداری کنی
دستور ساخت virtual environment، فعال سازیش و نصب requirements به این شکله:
گیتهاب
@silicon_brain | از هوش مصنوعی عقب نمانید
وقتشه که روش های مدیریت venv و پکیج ها رو تغییر بدیم.
دستور
pip
ابزار معروف و قدیمیه که باهاش توی پایتون پکیج نصب میکنیم. مثلاً اگه میخواستی FastAPI نصب کنی، میزدی:pip install fastapi
این کارشو خوب انجام میده، ولی یه سری ایرادای ریز داره، مثلاً توی مدیریت نسخهها و سرعت بعضی وقتا اذیت میکنه. یا اگه بخوای یه پروژه رو دقیقاً با همون نسخههای پکیجهایی که یکی دیگه داشته اجرا کنی، ممکنه به مشکل بخوری چون pip به تنهایی تضمین نمیکنه که محیط دقیقاً همونه
حالا uv یه ابزار جدیده که هدفش اینه جای pip و virtualenv و pip-tools رو بگیره یعنی همه رو با هم ترکیب کنه تو یه ابزار سریع و بهینه.میتونی پکیجها رو خیلی سریعتر نصب کنی (چون Rustی نوشته شده و کلی بهینهست)
راحتتر محیط مجازی بسازی، فایلهای قفلشده (مثل poetry.lock یا requirements.txt) رو دقیق و قابل اعتماد نگهداری کنی
دستور ساخت virtual environment، فعال سازیش و نصب requirements به این شکله:
uv venv
venv\scripts\activate
uv pip install -r requirements.txt
گیتهاب
@silicon_brain | از هوش مصنوعی عقب نمانید
❤14👍10🔥2👎1🤩1
متریک های ارزیابی LLM ها
اینا رایجترین و مهمترین متریکهایی هستن که معمولاً قبل از این که سیستم LLM رو ببری توی محیط واقعی بهشون نیاز پیدا میکنی:
بررسی میکنه که آیا جواب مدل با سؤال یا ورودی مربوطه یا نه؛ یعنی جواب درست و جمعوجوره یا نه.
چک میکنه که آیا مدل تونسته اون کاری که براش تعریف شده رو تا آخر انجام بده یا نه.
مشخص میکنه که خروجی مدل از نظر اطلاعات واقعی درسته یا نه.
بررسی میکنه که مدل اطلاعات ساختگی یا جعلی تولید کرده یا نه.
اگه مدل از ابزارهایی استفاده میکنه، این متریک بررسی میکنه که آیا ابزار درست رو برای کار مورد نظر انتخاب کرده یا نه.
اگه سیستم LLMت بر پایه RAG (Retrieval-Augmented Generation) باشه، این بررسی میکنه که آیا اطلاعاتی که به عنوان context جمعآوری شده، واقعاً به درد مدل میخوره یا نه.
شامل متریکهایی مثل Bias و Toxicity (محتوای سمی یا آزاردهنده) هستن، که بررسی میکنن آیا خروجی مدل محتوای آسیبزا یا توهینآمیز داره یا نه.
اینا بستگی به کاربرد خاص مدل دارن، مثل وقتی که داری خلاصهسازی انجام میدی و یه سری معیار خاص خودت رو داری.
در کل، بیشتر متریکها عمومیان و برای همهی مدلها کاربرد دارن، ولی برای اینکه دقیقتر روی یه کاربرد خاص تمرکز کنی، کافی نیستن. واسه همین معمولاً باید یه متریک سفارشی Task-Specific داشته باشی تا سیستم ارزیابیت واقعاً به درد production بخوره.
مثلاً اگه اپلیکیشن LLMت واسه خلاصهکردن خبرها طراحی شده، لازمه یه متریک ارزیابی خاص داشته باشی که این چیزا رو بررسی کنه:
- خلاصه، اطلاعات کافی از متن اصلی داره یا نه؟
- آیا توی خلاصه، تناقض یا تخیلات (hallucinations) نسبت به متن اصلی هست یا نه؟
اینجا یه داکیومنتی خوبی در موردش نوشتن
@silicon_brain | از هوش مصنوعی عقب نمانید
اینا رایجترین و مهمترین متریکهایی هستن که معمولاً قبل از این که سیستم LLM رو ببری توی محیط واقعی بهشون نیاز پیدا میکنی:
Answer Relevancy
: بررسی میکنه که آیا جواب مدل با سؤال یا ورودی مربوطه یا نه؛ یعنی جواب درست و جمعوجوره یا نه.
Task Completion:
چک میکنه که آیا مدل تونسته اون کاری که براش تعریف شده رو تا آخر انجام بده یا نه.
Correctness:
مشخص میکنه که خروجی مدل از نظر اطلاعات واقعی درسته یا نه.
Hallucination
: بررسی میکنه که مدل اطلاعات ساختگی یا جعلی تولید کرده یا نه.
Tool Correctness:
اگه مدل از ابزارهایی استفاده میکنه، این متریک بررسی میکنه که آیا ابزار درست رو برای کار مورد نظر انتخاب کرده یا نه.
Contextual Relevancy
:اگه سیستم LLMت بر پایه RAG (Retrieval-Augmented Generation) باشه، این بررسی میکنه که آیا اطلاعاتی که به عنوان context جمعآوری شده، واقعاً به درد مدل میخوره یا نه.
Responsible Metrics:
شامل متریکهایی مثل Bias و Toxicity (محتوای سمی یا آزاردهنده) هستن، که بررسی میکنن آیا خروجی مدل محتوای آسیبزا یا توهینآمیز داره یا نه.
Task-Specific Metrics:
اینا بستگی به کاربرد خاص مدل دارن، مثل وقتی که داری خلاصهسازی انجام میدی و یه سری معیار خاص خودت رو داری.
در کل، بیشتر متریکها عمومیان و برای همهی مدلها کاربرد دارن، ولی برای اینکه دقیقتر روی یه کاربرد خاص تمرکز کنی، کافی نیستن. واسه همین معمولاً باید یه متریک سفارشی Task-Specific داشته باشی تا سیستم ارزیابیت واقعاً به درد production بخوره.
مثلاً اگه اپلیکیشن LLMت واسه خلاصهکردن خبرها طراحی شده، لازمه یه متریک ارزیابی خاص داشته باشی که این چیزا رو بررسی کنه:
- خلاصه، اطلاعات کافی از متن اصلی داره یا نه؟
- آیا توی خلاصه، تناقض یا تخیلات (hallucinations) نسبت به متن اصلی هست یا نه؟
اینجا یه داکیومنتی خوبی در موردش نوشتن
@silicon_brain | از هوش مصنوعی عقب نمانید
👍10❤2🤩1
شرکت
آنتروپیک از Opus 4 بهعنوان بهترین مدل کدنویسی دنیا یاد کرده و اعلام کرده تو بنچمارکهای داخلی، این مدل تونسته عملکرد بهتری بهویژه در وظایف کدنویسی نسبت به مدلهای Gemini 2.5 Pro ، GPT-4.1 و o3 شرکت OpenAI داشته باشه و میتونه پروژههای پیچیده نرمافزاری رو برای مدت طولانی مدیریت کنه.
همچنین هر دو مدل جدید به ویژگی جدیدی با نام «خلاصهسازی تفکر» (Thinking Summaries) مجهز شدن که فرایند استدلال مدل رو به شکل قابل درکی برای کاربر خلاصه میکنه.
از طریق Anthropic API ،Amazon Bedrock و Vertex AI گوگل در دسترس هستند.
@silicon_brain | از هوش مصنوعی عقب نمانید
Anthropic
از دو مدل هوش مصنوعی جدید با نامهای Claude Opus 4
و Claude Sonnet 4
رونمایی کرده که بهطور ویژه برای انجام وظایف کدنویسی و حل مسائل پیچیده بهینهسازی شدن.آنتروپیک از Opus 4 بهعنوان بهترین مدل کدنویسی دنیا یاد کرده و اعلام کرده تو بنچمارکهای داخلی، این مدل تونسته عملکرد بهتری بهویژه در وظایف کدنویسی نسبت به مدلهای Gemini 2.5 Pro ، GPT-4.1 و o3 شرکت OpenAI داشته باشه و میتونه پروژههای پیچیده نرمافزاری رو برای مدت طولانی مدیریت کنه.
همچنین هر دو مدل جدید به ویژگی جدیدی با نام «خلاصهسازی تفکر» (Thinking Summaries) مجهز شدن که فرایند استدلال مدل رو به شکل قابل درکی برای کاربر خلاصه میکنه.
از طریق Anthropic API ،Amazon Bedrock و Vertex AI گوگل در دسترس هستند.
@silicon_brain | از هوش مصنوعی عقب نمانید
👍6❤2🔥1
حق با افلاطون بود!
یک پژوهش مهم از دانشگاه کرنل نشون میده که همه مدلهای زبانی با وجود تفاوت در معماری و داده در نهایت مفاهیم رو به شکل مشابهی رمزگذاری میکنن.
تو این مقاله با استفاده از روش vec2vec، تونستن فقط از روی بردارهای عددی (embeddingها)، اطلاعات حساسی مثل بیماریهای ثبتشده تو پروندههای پزشکی یا محتوای ایمیلهای خصوصی رو بازیابی کنن (بدون دیدن متن اصلی!)
نشون میده که مدلهای هوش مصنوعی همگی به نوعی به یک «زبان جهانی معنا» میرسن. ایدهای که افلاطون 2500 سال پیش مطرح کرده بود و حالا پرسشهای تازهای درباره امنیت دادهها و چیستی واقعی "معنا" در دنیای هوش مصنوعی پیش روی ما هست.
افلاطون میگفت:
لینک مقاله
@silicon_brain | از هوش مصنوعی عقب نمانید
یک پژوهش مهم از دانشگاه کرنل نشون میده که همه مدلهای زبانی با وجود تفاوت در معماری و داده در نهایت مفاهیم رو به شکل مشابهی رمزگذاری میکنن.
تو این مقاله با استفاده از روش vec2vec، تونستن فقط از روی بردارهای عددی (embeddingها)، اطلاعات حساسی مثل بیماریهای ثبتشده تو پروندههای پزشکی یا محتوای ایمیلهای خصوصی رو بازیابی کنن (بدون دیدن متن اصلی!)
نشون میده که مدلهای هوش مصنوعی همگی به نوعی به یک «زبان جهانی معنا» میرسن. ایدهای که افلاطون 2500 سال پیش مطرح کرده بود و حالا پرسشهای تازهای درباره امنیت دادهها و چیستی واقعی "معنا" در دنیای هوش مصنوعی پیش روی ما هست.
افلاطون میگفت:
پشت هر چیزی که در دنیا میبینیم، یک «حقیقت جهانی و ثابت» وجود دارد که همهی چیزها فقط سایههایی از آن هستند. یعنی معناها و مفاهیم واقعی، مستقل از ظاهر و زبان، در جایی عمیقتر و مشترک وجود دارند.
لینک مقاله
@silicon_brain | از هوش مصنوعی عقب نمانید
👍20🔥6❤4🤣3🤩1
Silicon Brain | جامعه هوش مصنوعی
نسل جدید مدیریت پکیجهای پایتون - uv وارد میشود! وقتشه که روش های مدیریت venv و پکیج ها رو تغییر بدیم. دستور pip ابزار معروف و قدیمیه که باهاش توی پایتون پکیج نصب میکنیم. مثلاً اگه میخواستی FastAPI نصب کنی، میزدی: pip install fastapi این کارشو خوب انجام…
هر کی از uv استفاده نکنه متاسفم براش!
خیلی سریع و تمیز کارشو انجام میده
خیلی سریع و تمیز کارشو انجام میده
👍8💯2❤1
رقابت تنگاتنگ DeepSeek با OpenAI: نسخه جدید R1 با قدرت استدلال بالاتر
این مدل میتونه خروجی از قابلیت فراخوانی تابع (Function Calling) پشتیبانی میکنه و دیگه نیازی نیست توی دستورها از «توکنهای مخصوص فکر کردن» استفاده کنیم؛ یعنی ساختار دستورها سادهتر شده.
از طرفی، میزان هذیانگویی (Hallucination) مدل هم کمتر شده، چه توی مسائل استدلالی و چه توی تولید کد.
جالبه بدونی عمق استدلال مدل هم بیشتر شده؛ به طور میانگین از ۱۲هزار توکن به ۲۳هزار توکن رسیده، یعنی حدود ۹۲ درصد رشد کرده! این اعداد مربوط به آزمون AIME 2025 هستن.
وزنهای مدل رو Hugging Face منتشر شده.
همچنین یه رابط برنامهنویسی (API) فعال هم داره که هزینهاش برای هر یک میلیون توکن، ۰.۱۴ دلار برای ورودی و ۲.۱۹ دلار برای خروجی حساب میشه.
@silicon_brain | از هوش مصنوعی عقب نمانید
این مدل میتونه خروجی از قابلیت فراخوانی تابع (Function Calling) پشتیبانی میکنه و دیگه نیازی نیست توی دستورها از «توکنهای مخصوص فکر کردن» استفاده کنیم؛ یعنی ساختار دستورها سادهتر شده.
از طرفی، میزان هذیانگویی (Hallucination) مدل هم کمتر شده، چه توی مسائل استدلالی و چه توی تولید کد.
جالبه بدونی عمق استدلال مدل هم بیشتر شده؛ به طور میانگین از ۱۲هزار توکن به ۲۳هزار توکن رسیده، یعنی حدود ۹۲ درصد رشد کرده! این اعداد مربوط به آزمون AIME 2025 هستن.
وزنهای مدل رو Hugging Face منتشر شده.
همچنین یه رابط برنامهنویسی (API) فعال هم داره که هزینهاش برای هر یک میلیون توکن، ۰.۱۴ دلار برای ورودی و ۲.۱۹ دلار برای خروجی حساب میشه.
@silicon_brain | از هوش مصنوعی عقب نمانید
❤3👍3🤩1
گوگل، OpenAI و Anthropic یه حرکت خفن زدن: خیلی از محتواهای پولی هوش مصنوعی رو رایگان کردن!
لینک ها:
🔗Prompt Engineering
🔗 Google Prompting Guide
🔗 OpenAI Guide to Agents
🔗 OpenAI Enterprise Guide
🔗 Google Agent Whitepaper
🔗 Anthropic Agent Framework
🔗 Anthropic Coding Practices
🔗 AI & LLM Research Book
🔗 Scaling AI Use Cases
🔗 Prompting Masterclass
@silicon_brain | از هوش مصنوعی عقب نمانید
منابع بسیار با ارزشی هستن، حتما استفاده کنین
لینک ها:
🔗Prompt Engineering
🔗 Google Prompting Guide
🔗 OpenAI Guide to Agents
🔗 OpenAI Enterprise Guide
🔗 Google Agent Whitepaper
🔗 Anthropic Agent Framework
🔗 Anthropic Coding Practices
🔗 AI & LLM Research Book
🔗 Scaling AI Use Cases
🔗 Prompting Masterclass
@silicon_brain | از هوش مصنوعی عقب نمانید
👍7❤1🤩1
Umar Jamil از
قطعا همینه! :)
@silicon_brain
Mistral AI
:بازی واقعی RLهست، چیزای دیگه یه مأموریت فرعی هستن.
قطعا همینه! :)
@silicon_brain
👍12👎4👏2❤1🤩1
در سهماهه اول ۲۰۲۵، توی آزمایشهای شبیه تورینگ، افراد در ۷۳٪ مواقع پاسخ چتباتهای هوش مصنوعی رو با انسان اشتباه گرفتن!
۶ ماه پیش این عدد حدود ۵۰٪ بود!
پیشرفت هوش مصنوعی در تقلید گفتوگوی انسانی با سرعت خیرهکنندهای داره جلو میره...
@silicon_brain| از هوش مصنوعی عقب نمانید
۶ ماه پیش این عدد حدود ۵۰٪ بود!
پیشرفت هوش مصنوعی در تقلید گفتوگوی انسانی با سرعت خیرهکنندهای داره جلو میره...
@silicon_brain| از هوش مصنوعی عقب نمانید
👍12😱3❤2🤩1
بنابه گزارش Zeki، پایگاه داده استعدادهای هوش مصنوعی جهان، تو ۵ سال گذشته ۱۲۰۰ استعداد ایرانی در حوزه هوش مصنوعی راهی آمریکا شدن.
از این نظر ایران تو جایگاه دوم بعد از هند قرار داره
@silicon_brain| از هوش مصنوعی عقب نمانید
از این نظر ایران تو جایگاه دوم بعد از هند قرار داره
@silicon_brain| از هوش مصنوعی عقب نمانید
😢22🕊8❤3🍾3👎1🤩1
مفهوم Planner در LLM
برنامهریز (Planner) ماژولیه که به Agent کمک میکنه تا وظیفه اصلی خودش رو به چند گام قابل انجام تقسیم کنه و مشخص کنه که در هر مرحله باید چه کاری انجام بشه، تا مسیر انجام کار را براساس ورودی بچینه.
این کارو معمولاً از طریق پرامپتگذاری هوشمند انجام میدن، یعنی مدل با دریافت دستور کلی، خودش برنامهای مرحلهبهمرحله تولید میکنه.
برای مثال: ورودی: «یه خلاصه از این مقاله بنویس.»
این ماژول در واقع نقشهراه ایجنت رو ترسیم میکنه. بدون اون، مدل فقط پاسخ میده اما با برنامهریزی مدل به یک ایجنت هدفمند تبدیل میشه که میفهمه، طراحی میکنه و بعد اقدام میکنه.
@silicon_brain | از هوش مصنوعی عقب نمانید
برنامهریز (Planner) ماژولیه که به Agent کمک میکنه تا وظیفه اصلی خودش رو به چند گام قابل انجام تقسیم کنه و مشخص کنه که در هر مرحله باید چه کاری انجام بشه، تا مسیر انجام کار را براساس ورودی بچینه.
این کارو معمولاً از طریق پرامپتگذاری هوشمند انجام میدن، یعنی مدل با دریافت دستور کلی، خودش برنامهای مرحلهبهمرحله تولید میکنه.
برای مثال: ورودی: «یه خلاصه از این مقاله بنویس.»
خروجی Planner (با کمک LLM):
▪️متن مقاله رو بخون.
▪️موضوعات اصلی رو شناسایی کن.
▪️نکات کلیدی رو استخراج کن.
▪️متن رو به زبان ساده بازنویسی کن.
این ماژول در واقع نقشهراه ایجنت رو ترسیم میکنه. بدون اون، مدل فقط پاسخ میده اما با برنامهریزی مدل به یک ایجنت هدفمند تبدیل میشه که میفهمه، طراحی میکنه و بعد اقدام میکنه.
@silicon_brain | از هوش مصنوعی عقب نمانید
👍14❤2👏1🤩1💯1
بررسی مرز بین حفظ کردن و فهمیدن در مدل ها
وقتی یه مدل زبانی مثل GPT رو آموزش میدیم، سؤال اصلی اینه که «این مدل دقیقاً چی رو تو خودش نگه داشته؟» یعنی آیا فقط دادهها رو حفظ کرده (memorization) یا واقعاً الگوها رو فهمیده و یاد گرفته (generalization)؟
نویسندهها حافظهی مدل رو به دو بخش تقسیم کردن:
یکی
یکی دیگه
برای اینکه فقط مقدار حافظهی خام مدل رو اندازه بگیرن، اومدن مدل رو با دادههایی آموزش دادن که کاملاً تصادفی بودن (
وقتی تعداد دادههایی که به مدل میدی کمتر از ظرفیتشه، خب طبیعتاً بیشترشو حفظ میکنه. ولی وقتی دادهها از ظرفیت بیشتر بشه، مدل نمیتونه همهچیزو توی حافظه نگه داره، و شروع میکنه به یاد گرفتن الگوها. اینجاست که پدیدهای به اسم
توی آزمایشهاشون صدها تا transformer model از اندازهی ۵۰۰ هزار تا ۱.۵ میلیارد پارامتر رو بررسی کردن. نتیجه این شد که یه رابطهی قابل پیشبینی بین اندازهی مدل، حجم داده، و مقدار membership inference risk وجود داره. یعنی میشه فهمید که آیا مدل اطلاعات یه نمونه خاص رو تو خودش حفظ کرده یا نه.
این موضوع علاوه بر اینکه مارو از نحوه یاد گرفتن مدل ها آگاه میکنه، برای امنیت و حریم خصوصی هم خیلی مهمه، چون اگه بدونیم مدل دقیقاً چقدر حفظ کرده و چقدر رو از الگوها یاد گرفته، میتونیم بهتر تصمیم بگیریم چه دادههایی رو بهش بدیم یا ندیم.
لینک مقاله
@silicon_brain | از هوش مصنوعی عقب نمانید
وقتی یه مدل زبانی مثل GPT رو آموزش میدیم، سؤال اصلی اینه که «این مدل دقیقاً چی رو تو خودش نگه داشته؟» یعنی آیا فقط دادهها رو حفظ کرده (memorization) یا واقعاً الگوها رو فهمیده و یاد گرفته (generalization)؟
تو این مقاله اومدن دقیقاً این موضوع رو بررسی کنن که موضوع خیلی جالبی هست و در ادامه خلاصه شو میگم
نویسندهها حافظهی مدل رو به دو بخش تقسیم کردن:
یکی
unintended memorization
، یعنی مدل بدون اینکه بخوایم، بعضی اطلاعات رو دقیقاً حفظ کرده. مثلاً یه ایمیل یا پسوردی که توی دیتاست بوده.یکی دیگه
generalizatio
n، یعنی مدل الگوها رو یاد گرفته، مثلاً فهمیده که ترتیب کلمات چطور باید باشه یا معنی یه جمله چیه.برای اینکه فقط مقدار حافظهی خام مدل رو اندازه بگیرن، اومدن مدل رو با دادههایی آموزش دادن که کاملاً تصادفی بودن (
random bit strings
). این کار باعث میشه که مدل هیچ الگویی برای یاد گرفتن نداشته باشه و فقط بتونه حفظ کنه. با این روش، فهمیدن که مثلاً مدلهای GPT-مانند حدود ۳.۶ bits per parameter ظرفیت حافظه دارن.وقتی تعداد دادههایی که به مدل میدی کمتر از ظرفیتشه، خب طبیعتاً بیشترشو حفظ میکنه. ولی وقتی دادهها از ظرفیت بیشتر بشه، مدل نمیتونه همهچیزو توی حافظه نگه داره، و شروع میکنه به یاد گرفتن الگوها. اینجاست که پدیدهای به اسم
Grokking
اتفاق میافته، یعنی مدل یهو از حالت حفظ کردن میره سمت فهمیدن کلیات.توی آزمایشهاشون صدها تا transformer model از اندازهی ۵۰۰ هزار تا ۱.۵ میلیارد پارامتر رو بررسی کردن. نتیجه این شد که یه رابطهی قابل پیشبینی بین اندازهی مدل، حجم داده، و مقدار membership inference risk وجود داره. یعنی میشه فهمید که آیا مدل اطلاعات یه نمونه خاص رو تو خودش حفظ کرده یا نه.
این موضوع علاوه بر اینکه مارو از نحوه یاد گرفتن مدل ها آگاه میکنه، برای امنیت و حریم خصوصی هم خیلی مهمه، چون اگه بدونیم مدل دقیقاً چقدر حفظ کرده و چقدر رو از الگوها یاد گرفته، میتونیم بهتر تصمیم بگیریم چه دادههایی رو بهش بدیم یا ندیم.
لینک مقاله
@silicon_brain | از هوش مصنوعی عقب نمانید
👍9❤5👏1🤩1
Silicon Brain | جامعه هوش مصنوعی
بررسی مرز بین حفظ کردن و فهمیدن در مدل ها وقتی یه مدل زبانی مثل GPT رو آموزش میدیم، سؤال اصلی اینه که «این مدل دقیقاً چی رو تو خودش نگه داشته؟» یعنی آیا فقط دادهها رو حفظ کرده (memorization) یا واقعاً الگوها رو فهمیده و یاد گرفته (generalization)؟ تو…
با خوندن مقاله بالا یادم اومد که زمانی که دانش آموز بودیم دو جور میشد درس ها رو یاد گرفت. یه وقتهایی سریع بشینی حفظش کنی مثلاً یه شعر، یه فرمول ریاضی، یا یه تعریف از علوم. و حتی میشد نمرهی خوبی هم گرفت.
اما بعضی وقتا یه مبحثی که سختتر بود رو نمیشد با این روش جلو برد و باید میفهمیدیش، بعد از یکی دو روز یا بعد از تمرین، یهو یه لحظه میرسید که انگار یه لامپ توی ذهن آدم روشن میشد. اون لحظه بود که فهمیدن اتفاق میوفتاد. مثلاً چرا آب توی لوله بالا میره! این فرق داشت با حفظ کردن. این همون چیزی بود که الان بهش میگن
مفهوم grokking یعنی اون لحظهای که مغزت از حالت «فقط حفظ کردن» میره به «واقعاً فهمیدن».
توی LLM هم دقیقاً همین اتفاق میافته. اولش فقط دادههایی که بهش میدی رو حفظ میکنه. ولی اگه آموزش درست و کافی ببینه، یهو یه لحظه هست که الگورو کشف میکنه، از اونجا به بعد، دیگه لازم نیست حفظ کنه، چون فهمیده.
البته من فکر میکنم توانایی حفظ کردن بدون یادگیری با گذشت زمان به شدت در انسان کاهش پیدا میکنه و به سمت یادگرفتن میل میکنه، اینکه آیا برای LLM ها هم همچین اتفاقی ممکنه بیوفته یا نه میتونه موضوع تحقیق خوبی باشه!
@silicon_brain | از هوش مصنوعی عقب نمانید
اما بعضی وقتا یه مبحثی که سختتر بود رو نمیشد با این روش جلو برد و باید میفهمیدیش، بعد از یکی دو روز یا بعد از تمرین، یهو یه لحظه میرسید که انگار یه لامپ توی ذهن آدم روشن میشد. اون لحظه بود که فهمیدن اتفاق میوفتاد. مثلاً چرا آب توی لوله بالا میره! این فرق داشت با حفظ کردن. این همون چیزی بود که الان بهش میگن
Grokking
مفهوم grokking یعنی اون لحظهای که مغزت از حالت «فقط حفظ کردن» میره به «واقعاً فهمیدن».
توی LLM هم دقیقاً همین اتفاق میافته. اولش فقط دادههایی که بهش میدی رو حفظ میکنه. ولی اگه آموزش درست و کافی ببینه، یهو یه لحظه هست که الگورو کشف میکنه، از اونجا به بعد، دیگه لازم نیست حفظ کنه، چون فهمیده.
البته من فکر میکنم توانایی حفظ کردن بدون یادگیری با گذشت زمان به شدت در انسان کاهش پیدا میکنه و به سمت یادگرفتن میل میکنه، اینکه آیا برای LLM ها هم همچین اتفاقی ممکنه بیوفته یا نه میتونه موضوع تحقیق خوبی باشه!
@silicon_brain | از هوش مصنوعی عقب نمانید
👍12❤3👏1🤩1