متریک های ارزیابی LLM ها
اینا رایجترین و مهمترین متریکهایی هستن که معمولاً قبل از این که سیستم LLM رو ببری توی محیط واقعی بهشون نیاز پیدا میکنی:
بررسی میکنه که آیا جواب مدل با سؤال یا ورودی مربوطه یا نه؛ یعنی جواب درست و جمعوجوره یا نه.
چک میکنه که آیا مدل تونسته اون کاری که براش تعریف شده رو تا آخر انجام بده یا نه.
مشخص میکنه که خروجی مدل از نظر اطلاعات واقعی درسته یا نه.
بررسی میکنه که مدل اطلاعات ساختگی یا جعلی تولید کرده یا نه.
اگه مدل از ابزارهایی استفاده میکنه، این متریک بررسی میکنه که آیا ابزار درست رو برای کار مورد نظر انتخاب کرده یا نه.
اگه سیستم LLMت بر پایه RAG (Retrieval-Augmented Generation) باشه، این بررسی میکنه که آیا اطلاعاتی که به عنوان context جمعآوری شده، واقعاً به درد مدل میخوره یا نه.
شامل متریکهایی مثل Bias و Toxicity (محتوای سمی یا آزاردهنده) هستن، که بررسی میکنن آیا خروجی مدل محتوای آسیبزا یا توهینآمیز داره یا نه.
اینا بستگی به کاربرد خاص مدل دارن، مثل وقتی که داری خلاصهسازی انجام میدی و یه سری معیار خاص خودت رو داری.
در کل، بیشتر متریکها عمومیان و برای همهی مدلها کاربرد دارن، ولی برای اینکه دقیقتر روی یه کاربرد خاص تمرکز کنی، کافی نیستن. واسه همین معمولاً باید یه متریک سفارشی Task-Specific داشته باشی تا سیستم ارزیابیت واقعاً به درد production بخوره.
مثلاً اگه اپلیکیشن LLMت واسه خلاصهکردن خبرها طراحی شده، لازمه یه متریک ارزیابی خاص داشته باشی که این چیزا رو بررسی کنه:
- خلاصه، اطلاعات کافی از متن اصلی داره یا نه؟
- آیا توی خلاصه، تناقض یا تخیلات (hallucinations) نسبت به متن اصلی هست یا نه؟
اینجا یه داکیومنتی خوبی در موردش نوشتن
@silicon_brain | از هوش مصنوعی عقب نمانید
اینا رایجترین و مهمترین متریکهایی هستن که معمولاً قبل از این که سیستم LLM رو ببری توی محیط واقعی بهشون نیاز پیدا میکنی:
Answer Relevancy
: بررسی میکنه که آیا جواب مدل با سؤال یا ورودی مربوطه یا نه؛ یعنی جواب درست و جمعوجوره یا نه.
Task Completion:
چک میکنه که آیا مدل تونسته اون کاری که براش تعریف شده رو تا آخر انجام بده یا نه.
Correctness:
مشخص میکنه که خروجی مدل از نظر اطلاعات واقعی درسته یا نه.
Hallucination
: بررسی میکنه که مدل اطلاعات ساختگی یا جعلی تولید کرده یا نه.
Tool Correctness:
اگه مدل از ابزارهایی استفاده میکنه، این متریک بررسی میکنه که آیا ابزار درست رو برای کار مورد نظر انتخاب کرده یا نه.
Contextual Relevancy
:اگه سیستم LLMت بر پایه RAG (Retrieval-Augmented Generation) باشه، این بررسی میکنه که آیا اطلاعاتی که به عنوان context جمعآوری شده، واقعاً به درد مدل میخوره یا نه.
Responsible Metrics:
شامل متریکهایی مثل Bias و Toxicity (محتوای سمی یا آزاردهنده) هستن، که بررسی میکنن آیا خروجی مدل محتوای آسیبزا یا توهینآمیز داره یا نه.
Task-Specific Metrics:
اینا بستگی به کاربرد خاص مدل دارن، مثل وقتی که داری خلاصهسازی انجام میدی و یه سری معیار خاص خودت رو داری.
در کل، بیشتر متریکها عمومیان و برای همهی مدلها کاربرد دارن، ولی برای اینکه دقیقتر روی یه کاربرد خاص تمرکز کنی، کافی نیستن. واسه همین معمولاً باید یه متریک سفارشی Task-Specific داشته باشی تا سیستم ارزیابیت واقعاً به درد production بخوره.
مثلاً اگه اپلیکیشن LLMت واسه خلاصهکردن خبرها طراحی شده، لازمه یه متریک ارزیابی خاص داشته باشی که این چیزا رو بررسی کنه:
- خلاصه، اطلاعات کافی از متن اصلی داره یا نه؟
- آیا توی خلاصه، تناقض یا تخیلات (hallucinations) نسبت به متن اصلی هست یا نه؟
اینجا یه داکیومنتی خوبی در موردش نوشتن
@silicon_brain | از هوش مصنوعی عقب نمانید
شرکت
آنتروپیک از Opus 4 بهعنوان بهترین مدل کدنویسی دنیا یاد کرده و اعلام کرده تو بنچمارکهای داخلی، این مدل تونسته عملکرد بهتری بهویژه در وظایف کدنویسی نسبت به مدلهای Gemini 2.5 Pro ، GPT-4.1 و o3 شرکت OpenAI داشته باشه و میتونه پروژههای پیچیده نرمافزاری رو برای مدت طولانی مدیریت کنه.
همچنین هر دو مدل جدید به ویژگی جدیدی با نام «خلاصهسازی تفکر» (Thinking Summaries) مجهز شدن که فرایند استدلال مدل رو به شکل قابل درکی برای کاربر خلاصه میکنه.
از طریق Anthropic API ،Amazon Bedrock و Vertex AI گوگل در دسترس هستند.
@silicon_brain | از هوش مصنوعی عقب نمانید
Anthropic
از دو مدل هوش مصنوعی جدید با نامهای Claude Opus 4
و Claude Sonnet 4
رونمایی کرده که بهطور ویژه برای انجام وظایف کدنویسی و حل مسائل پیچیده بهینهسازی شدن.آنتروپیک از Opus 4 بهعنوان بهترین مدل کدنویسی دنیا یاد کرده و اعلام کرده تو بنچمارکهای داخلی، این مدل تونسته عملکرد بهتری بهویژه در وظایف کدنویسی نسبت به مدلهای Gemini 2.5 Pro ، GPT-4.1 و o3 شرکت OpenAI داشته باشه و میتونه پروژههای پیچیده نرمافزاری رو برای مدت طولانی مدیریت کنه.
همچنین هر دو مدل جدید به ویژگی جدیدی با نام «خلاصهسازی تفکر» (Thinking Summaries) مجهز شدن که فرایند استدلال مدل رو به شکل قابل درکی برای کاربر خلاصه میکنه.
از طریق Anthropic API ،Amazon Bedrock و Vertex AI گوگل در دسترس هستند.
@silicon_brain | از هوش مصنوعی عقب نمانید
Please open Telegram to view this post
VIEW IN TELEGRAM
Silicon Brain | جامعه هوش مصنوعی
هر کی از uv استفاده نکنه متاسفم براش!
خیلی سریع و تمیز کارشو انجام میده
خیلی سریع و تمیز کارشو انجام میده
رقابت تنگاتنگ DeepSeek با OpenAI: نسخه جدید R1 با قدرت استدلال بالاتر
این مدل میتونه خروجی از قابلیت فراخوانی تابع (Function Calling) پشتیبانی میکنه و دیگه نیازی نیست توی دستورها از «توکنهای مخصوص فکر کردن» استفاده کنیم؛ یعنی ساختار دستورها سادهتر شده.
از طرفی، میزان هذیانگویی (Hallucination) مدل هم کمتر شده، چه توی مسائل استدلالی و چه توی تولید کد.
جالبه بدونی عمق استدلال مدل هم بیشتر شده؛ به طور میانگین از ۱۲هزار توکن به ۲۳هزار توکن رسیده، یعنی حدود ۹۲ درصد رشد کرده! این اعداد مربوط به آزمون AIME 2025 هستن.
وزنهای مدل رو Hugging Face منتشر شده.
همچنین یه رابط برنامهنویسی (API) فعال هم داره که هزینهاش برای هر یک میلیون توکن، ۰.۱۴ دلار برای ورودی و ۲.۱۹ دلار برای خروجی حساب میشه.
@silicon_brain | از هوش مصنوعی عقب نمانید
این مدل میتونه خروجی از قابلیت فراخوانی تابع (Function Calling) پشتیبانی میکنه و دیگه نیازی نیست توی دستورها از «توکنهای مخصوص فکر کردن» استفاده کنیم؛ یعنی ساختار دستورها سادهتر شده.
از طرفی، میزان هذیانگویی (Hallucination) مدل هم کمتر شده، چه توی مسائل استدلالی و چه توی تولید کد.
جالبه بدونی عمق استدلال مدل هم بیشتر شده؛ به طور میانگین از ۱۲هزار توکن به ۲۳هزار توکن رسیده، یعنی حدود ۹۲ درصد رشد کرده! این اعداد مربوط به آزمون AIME 2025 هستن.
وزنهای مدل رو Hugging Face منتشر شده.
همچنین یه رابط برنامهنویسی (API) فعال هم داره که هزینهاش برای هر یک میلیون توکن، ۰.۱۴ دلار برای ورودی و ۲.۱۹ دلار برای خروجی حساب میشه.
@silicon_brain | از هوش مصنوعی عقب نمانید
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
در سهماهه اول ۲۰۲۵، توی آزمایشهای شبیه تورینگ، افراد در ۷۳٪ مواقع پاسخ چتباتهای هوش مصنوعی رو با انسان اشتباه گرفتن!
۶ ماه پیش این عدد حدود ۵۰٪ بود!
پیشرفت هوش مصنوعی در تقلید گفتوگوی انسانی با سرعت خیرهکنندهای داره جلو میره...
@silicon_brain| از هوش مصنوعی عقب نمانید
۶ ماه پیش این عدد حدود ۵۰٪ بود!
پیشرفت هوش مصنوعی در تقلید گفتوگوی انسانی با سرعت خیرهکنندهای داره جلو میره...
@silicon_brain| از هوش مصنوعی عقب نمانید
بنابه گزارش Zeki، پایگاه داده استعدادهای هوش مصنوعی جهان، تو ۵ سال گذشته ۱۲۰۰ استعداد ایرانی در حوزه هوش مصنوعی راهی آمریکا شدن.
از این نظر ایران تو جایگاه دوم بعد از هند قرار داره
@silicon_brain| از هوش مصنوعی عقب نمانید
از این نظر ایران تو جایگاه دوم بعد از هند قرار داره
@silicon_brain| از هوش مصنوعی عقب نمانید
Please open Telegram to view this post
VIEW IN TELEGRAM
Silicon Brain | جامعه هوش مصنوعی
با خوندن مقاله بالا یادم اومد که زمانی که دانش آموز بودیم دو جور میشد درس ها رو یاد گرفت. یه وقتهایی سریع بشینی حفظش کنی مثلاً یه شعر، یه فرمول ریاضی، یا یه تعریف از علوم. و حتی میشد نمرهی خوبی هم گرفت.
اما بعضی وقتا یه مبحثی که سختتر بود رو نمیشد با این روش جلو برد و باید میفهمیدیش، بعد از یکی دو روز یا بعد از تمرین، یهو یه لحظه میرسید که انگار یه لامپ توی ذهن آدم روشن میشد. اون لحظه بود که فهمیدن اتفاق میوفتاد. مثلاً چرا آب توی لوله بالا میره! این فرق داشت با حفظ کردن. این همون چیزی بود که الان بهش میگن
مفهوم grokking یعنی اون لحظهای که مغزت از حالت «فقط حفظ کردن» میره به «واقعاً فهمیدن».
توی LLM هم دقیقاً همین اتفاق میافته. اولش فقط دادههایی که بهش میدی رو حفظ میکنه. ولی اگه آموزش درست و کافی ببینه، یهو یه لحظه هست که الگورو کشف میکنه، از اونجا به بعد، دیگه لازم نیست حفظ کنه، چون فهمیده.
البته من فکر میکنم توانایی حفظ کردن بدون یادگیری با گذشت زمان به شدت در انسان کاهش پیدا میکنه و به سمت یادگرفتن میل میکنه، اینکه آیا برای LLM ها هم همچین اتفاقی ممکنه بیوفته یا نه میتونه موضوع تحقیق خوبی باشه!
@silicon_brain | از هوش مصنوعی عقب نمانید
اما بعضی وقتا یه مبحثی که سختتر بود رو نمیشد با این روش جلو برد و باید میفهمیدیش، بعد از یکی دو روز یا بعد از تمرین، یهو یه لحظه میرسید که انگار یه لامپ توی ذهن آدم روشن میشد. اون لحظه بود که فهمیدن اتفاق میوفتاد. مثلاً چرا آب توی لوله بالا میره! این فرق داشت با حفظ کردن. این همون چیزی بود که الان بهش میگن
Grokking
مفهوم grokking یعنی اون لحظهای که مغزت از حالت «فقط حفظ کردن» میره به «واقعاً فهمیدن».
توی LLM هم دقیقاً همین اتفاق میافته. اولش فقط دادههایی که بهش میدی رو حفظ میکنه. ولی اگه آموزش درست و کافی ببینه، یهو یه لحظه هست که الگورو کشف میکنه، از اونجا به بعد، دیگه لازم نیست حفظ کنه، چون فهمیده.
البته من فکر میکنم توانایی حفظ کردن بدون یادگیری با گذشت زمان به شدت در انسان کاهش پیدا میکنه و به سمت یادگرفتن میل میکنه، اینکه آیا برای LLM ها هم همچین اتفاقی ممکنه بیوفته یا نه میتونه موضوع تحقیق خوبی باشه!
@silicon_brain | از هوش مصنوعی عقب نمانید
هر کی با n8n یه بات تلگرامی ساخته، شده مهندس هوش مصنوعی!
تا زمانی که یه چندتا مدل فاین تون نکردین LLM و یا از صفر یه مدل نساختین، بحث دیپلوی و دیگر موارد رو تجربه عملی نداشتین هی ما رو زخم نکنید مهندس هوش مصنوعی هستم.
تا زمانی که یه چندتا مدل فاین تون نکردین LLM و یا از صفر یه مدل نساختین، بحث دیپلوی و دیگر موارد رو تجربه عملی نداشتین هی ما رو زخم نکنید مهندس هوش مصنوعی هستم.
مدل
جدیدا
میگن تو بحث reasoning خیلی خفنه و تونسته از Claude 4 Opus و Gemini 1.5 Pro تو تستهای مختلف بهتر عمل کنه
گفته شده دقت بیسابقه در پاسخهای چندمرحلهای و استدلالهای پیچیده داره در عوض سرعت پاسخدهی کمتر به دلیل عمق محاسبات بالا و در نتیجه هزینه محاسباتی بالاتر نسبت به نسخههای دیگرو داره
@silicon_brain | از هوش منصوعی عقب نمانید
o3-pro
منتشر شدجدیدا
OpenAI
نسخه پیشرفته مدل استدلالیشو به نام o3-pro معرفی کرده؛ مدلی که به طور ویژه برای ارائه پاسخهای دقیق و انجام تحلیلهای عمیق در حوزههای مختلف طراحی شده.میگن تو بحث reasoning خیلی خفنه و تونسته از Claude 4 Opus و Gemini 1.5 Pro تو تستهای مختلف بهتر عمل کنه
گفته شده دقت بیسابقه در پاسخهای چندمرحلهای و استدلالهای پیچیده داره در عوض سرعت پاسخدهی کمتر به دلیل عمق محاسبات بالا و در نتیجه هزینه محاسباتی بالاتر نسبت به نسخههای دیگرو داره
@silicon_brain | از هوش منصوعی عقب نمانید
خب ما هم برگردیم به AI 😍
قطعا میدونین تو این فیلد تو 12 روز چقدر موضوع برای از دست دادن وجود داره
سعی میکنم اول مطالب رو به صورت خلاصه بیان کنیم تا کم کم عمیق تر بشیم
قطعا میدونین تو این فیلد تو 12 روز چقدر موضوع برای از دست دادن وجود داره
سعی میکنم اول مطالب رو به صورت خلاصه بیان کنیم تا کم کم عمیق تر بشیم
Please open Telegram to view this post
VIEW IN TELEGRAM
گوگل از Gemini CLI، ابزار هوش مصنوعی open-source برای ترمینال
این ابزار AI متنباز تو در ترمینالها (Terminal) اجرا میشه و پلی بین توسعهدهنده و مدل Gemini ایجاد میکنه.
این ابزار رایگانه، مستقیم با مدل قدرتمند Gemini 2.5 Pro کار میکنه (با پشتیبانی از ۱ میلیون توکن context!) و روی ویندوز، مک و لینوکس بدون دردسر نصب میشه
برای استفادهش فقط یه حساب گوگل لازمه. روزانه تا ۱۰۰۰ درخواست و ۶۰ درخواست در دقیقه رایگانه .
لینک
@silicon_brain | از هوش مصنوعی عقب نمانید
این ابزار AI متنباز تو در ترمینالها (Terminal) اجرا میشه و پلی بین توسعهدهنده و مدل Gemini ایجاد میکنه.
این ابزار رایگانه، مستقیم با مدل قدرتمند Gemini 2.5 Pro کار میکنه (با پشتیبانی از ۱ میلیون توکن context!) و روی ویندوز، مک و لینوکس بدون دردسر نصب میشه
برای استفادهش فقط یه حساب گوگل لازمه. روزانه تا ۱۰۰۰ درخواست و ۶۰ درخواست در دقیقه رایگانه .
لینک
@silicon_brain | از هوش مصنوعی عقب نمانید
Forwarded from علمساز
چقد خوبه یک مشاور هوشمند کنار خودت داشته باشی؟!🧠
دوره مدیریت با هوش مصنوعی در 4 بعد:
🔖 مدیریت سرمایه انسانی به سبک Ai
🔖 مارکتینگ هوشمند
🔖 رشد فروش با ابزار Ai
🔖 هوش مصنوعی در حسابداری
✔️ برای دریافت مشاوره رایگان و ثبت نام با این آیدی در ارتباط باشید : @elmsazadminn
📌 از دنیای مدرن کسب و کار جا نمونی!!
🔹 با ما همراه باشید
📱 Instagram |📱 Telegram |
دوره مدیریت با هوش مصنوعی در 4 بعد:
🔹 با ما همراه باشید
Please open Telegram to view this post
VIEW IN TELEGRAM