Telegram Web Link
متریک های ارزیابی LLM ها

اینا رایج‌ترین و مهم‌ترین متریک‌هایی هستن که معمولاً قبل از این که سیستم LLM رو ببری توی محیط واقعی بهشون نیاز پیدا می‌کنی:

Answer Relevancy:
بررسی می‌کنه که آیا جواب مدل با سؤال یا ورودی مربوطه یا نه؛ یعنی جواب درست و جمع‌وجوره یا نه.

Task Completion:

چک می‌کنه که آیا مدل تونسته اون کاری که براش تعریف شده رو تا آخر انجام بده یا نه.

Correctness:
مشخص می‌کنه که خروجی مدل از نظر اطلاعات واقعی درسته یا نه.

Hallucination:
بررسی می‌کنه که مدل اطلاعات ساختگی یا جعلی تولید کرده یا نه.

Tool Correctness:
اگه مدل از ابزارهایی استفاده می‌کنه، این متریک بررسی می‌کنه که آیا ابزار درست رو برای کار مورد نظر انتخاب کرده یا نه.

Contextual Relevancy:
اگه سیستم LLM‌ت بر پایه RAG (Retrieval-Augmented Generation) باشه، این بررسی می‌کنه که آیا اطلاعاتی که به عنوان context جمع‌آوری شده، واقعاً به درد مدل می‌خوره یا نه.

Responsible Metrics:
شامل متریک‌هایی مثل Bias و Toxicity (محتوای سمی یا آزاردهنده) هستن، که بررسی می‌کنن آیا خروجی مدل محتوای آسیب‌زا یا توهین‌آمیز داره یا نه.

Task-Specific Metrics:
اینا بستگی به کاربرد خاص مدل دارن، مثل وقتی که داری خلاصه‌سازی انجام می‌دی و یه سری معیار خاص خودت رو داری.

در کل، بیشتر متریک‌ها عمومی‌ان و برای همه‌ی مدل‌ها کاربرد دارن، ولی برای اینکه دقیق‌تر روی یه کاربرد خاص تمرکز کنی، کافی نیستن. واسه همین معمولاً باید یه متریک سفارشی Task-Specific داشته باشی تا سیستم ارزیابیت واقعاً به درد production بخوره.

مثلاً اگه اپلیکیشن LLM‌ت واسه خلاصه‌کردن خبرها طراحی شده، لازمه یه متریک ارزیابی خاص داشته باشی که این چیزا رو بررسی کنه:

- خلاصه، اطلاعات کافی از متن اصلی داره یا نه؟
- آیا توی خلاصه، تناقض یا تخیلات (hallucinations) نسبت به متن اصلی هست یا نه؟

اینجا یه داکیومنتی خوبی در موردش نوشتن

@silicon_brain | از هوش مصنوعی عقب نمانید
شرکت Anthropic از دو مدل هوش مصنوعی جدید با نام‌های Claude Opus 4 و Claude Sonnet 4 رونمایی کرده که به‌طور ویژه برای انجام وظایف کدنویسی و حل مسائل پیچیده بهینه‌سازی شدن.

آنتروپیک از Opus 4 به‌عنوان بهترین مدل کدنویسی دنیا یاد کرده و اعلام کرده تو بنچمارک‌های داخلی، این مدل تونسته عملکرد بهتری به‌ویژه در وظایف کدنویسی نسبت به مدل‌های Gemini 2.5 Pro ، GPT-4.1 و o3 شرکت OpenAI داشته باشه و می‌تونه پروژه‌های پیچیده نرم‌افزاری رو برای مدت طولانی مدیریت کنه.

همچنین هر دو مدل جدید به ویژگی جدیدی با نام «خلاصه‌سازی تفکر» (Thinking Summaries) مجهز شدن که فرایند استدلال مدل رو به شکل قابل درکی برای کاربر خلاصه می‌کنه.

از طریق Anthropic API ،Amazon Bedrock و Vertex AI گوگل در دسترس هستند.

@silicon_brain | از هوش مصنوعی عقب نمانید
Please open Telegram to view this post
VIEW IN TELEGRAM
Silicon Brain | جامعه هوش مصنوعی
هر کی از uv استفاده نکنه متاسفم براش!
خیلی سریع و تمیز کارشو انجام میده
رقابت تنگاتنگ DeepSeek با OpenAI: نسخه جدید R1 با قدرت استدلال بالاتر

این مدل می‌تونه خروجی از قابلیت فراخوانی تابع (Function Calling) پشتیبانی می‌کنه و دیگه نیازی نیست توی دستورها از «توکن‌های مخصوص فکر کردن» استفاده کنیم؛ یعنی ساختار دستورها ساده‌تر شده.

از طرفی، میزان هذیان‌گویی (Hallucination) مدل هم کمتر شده، چه توی مسائل استدلالی و چه توی تولید کد.

جالبه بدونی عمق استدلال مدل هم بیشتر شده؛ به طور میانگین از ۱۲هزار توکن به ۲۳هزار توکن رسیده، یعنی حدود ۹۲ درصد رشد کرده! این اعداد مربوط به آزمون AIME 2025 هستن.

وزن‌های مدل رو Hugging Face منتشر شده.
همچنین یه رابط برنامه‌نویسی (API) فعال هم داره که هزینه‌اش برای هر یک میلیون توکن، ۰.۱۴ دلار برای ورودی و ۲.۱۹ دلار برای خروجی حساب می‌شه.

@silicon_brain | از هوش مصنوعی عقب نمانید
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
در سه‌ماهه اول ۲۰۲۵، توی آزمایش‌های شبیه تورینگ، افراد در ۷۳٪ مواقع پاسخ چت‌بات‌های هوش مصنوعی رو با انسان اشتباه گرفتن!

۶ ماه پیش این عدد حدود ۵۰٪ بود!
پیشرفت هوش مصنوعی در تقلید گفت‌وگوی انسانی با سرعت خیره‌کننده‌ای داره جلو می‌ره...

@silicon_brain| از هوش مصنوعی عقب نمانید
بنابه گزارش Zeki، پایگاه داده استعدادهای هوش مصنوعی جهان، تو ۵ سال گذشته ۱۲۰۰ استعداد ایرانی در حوزه هوش مصنوعی راهی آمریکا شدن.

از این نظر ایران تو جایگاه دوم بعد از هند قرار داره

@silicon_brain| از هوش مصنوعی عقب نمانید
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Silicon Brain | جامعه هوش مصنوعی
با خوندن مقاله بالا یادم اومد که زمانی که دانش آموز بودیم دو جور میشد درس ها رو یاد گرفت. یه وقت‌هایی سریع بشینی حفظش کنی مثلاً یه شعر، یه فرمول ریاضی، یا یه تعریف از علوم. و حتی میشد نمره‌ی خوبی هم گرفت.

اما بعضی وقتا یه مبحثی که سخت‌تر بود رو نمیشد با این روش جلو برد و باید میفهمیدیش، بعد از یکی دو روز یا بعد از تمرین، یهو یه لحظه می‌رسید که انگار یه لامپ توی ذهن آدم روشن می‌شد. اون لحظه بود که فهمیدن اتفاق میوفتاد. مثلاً چرا آب توی لوله بالا می‌ره! این فرق داشت با حفظ کردن. این همون چیزی بود که الان بهش می‌گن Grokking

مفهوم grokking یعنی اون لحظه‌ای که مغزت از حالت «فقط حفظ کردن» می‌ره به «واقعاً فهمیدن».
توی LLM هم دقیقاً همین اتفاق می‌افته. اولش فقط داده‌هایی که بهش می‌دی رو حفظ می‌کنه. ولی اگه آموزش درست و کافی ببینه، یهو یه لحظه هست که الگورو کشف می‌کنه، از اون‌جا به بعد، دیگه لازم نیست حفظ کنه، چون فهمیده.

البته من فکر میکنم توانایی حفظ کردن بدون یادگیری با گذشت زمان به شدت در انسان کاهش پیدا میکنه و به سمت یادگرفتن میل میکنه، اینکه آیا برای LLM ها هم همچین اتفاقی ممکنه بیوفته یا نه میتونه موضوع تحقیق خوبی باشه!

@silicon_brain | از هوش مصنوعی عقب نمانید
هر کی با n8n یه بات تلگرامی ساخته، شده مهندس هوش مصنوعی!
تا زمانی که یه چندتا مدل فاین تون نکردین LLM و یا از صفر یه مدل نساختین، بحث دیپلوی و دیگر موارد رو تجربه عملی نداشتین هی ما رو زخم نکنید مهندس هوش مصنوعی هستم.
مدل o3-pro منتشر شد

جدیدا OpenAI نسخه پیشرفته مدل استدلالیشو به نام o3-pro معرفی کرده؛ مدلی که به طور ویژه برای ارائه پاسخ‌های دقیق و انجام تحلیل‌های عمیق در حوزه‌های مختلف طراحی شده.

میگن تو بحث reasoning خیلی خفنه و تونسته از Claude 4 Opus و Gemini 1.5 Pro تو تست‌های مختلف بهتر عمل کنه

گفته شده دقت بی‌سابقه در پاسخ‌های چندمرحله‌ای و استدلال‌های پیچیده داره در عوض سرعت پاسخ‌دهی کمتر به دلیل عمق محاسبات بالا و در نتیجه هزینه محاسباتی بالاتر نسبت به نسخه‌های دیگرو داره

@silicon_brain | از هوش منصوعی عقب نمانید
نقشه مهم مراکز تخلیه امن و پناهگاه‌های شهر تهران به تفکیک مناطق

لینک
بایدها و نبایدها در زمان شنیدن صدای پدافند
خب ما هم برگردیم به AI 😍
قطعا میدونین تو این فیلد تو 12 روز چقدر موضوع برای از دست دادن وجود داره
سعی میکنم اول مطالب رو به صورت خلاصه بیان کنیم تا کم کم عمیق تر بشیم
Please open Telegram to view this post
VIEW IN TELEGRAM
گوگل از Gemini CLI، ابزار هوش مصنوعی open-source برای ترمینال‌

این ابزار AI متن‌باز تو در ترمینال‌ها (Terminal) اجرا میشه و پلی بین توسعه‌دهنده و مدل Gemini ایجاد می‌کنه.
این ابزار رایگانه، مستقیم با مدل قدرتمند Gemini 2.5 Pro کار می‌کنه (با پشتیبانی از ۱ میلیون توکن context!) و روی ویندوز، مک و لینوکس بدون دردسر نصب می‌شه

برای استفاده‌ش فقط یه حساب گوگل لازمه. روزانه تا ۱۰۰۰ درخواست و ۶۰ درخواست در دقیقه رایگانه .

لینک
@silicon_brain | از هوش مصنوعی عقب نمانید
Forwarded from علمساز
چقد خوبه یک مشاور هوشمند کنار خودت داشته باشی؟!🧠

دوره مدیریت با هوش مصنوعی در 4 بعد:
🔖مدیریت سرمایه انسانی به سبک Ai
🔖مارکتینگ هوشمند
🔖رشد فروش با ابزار Ai
🔖هوش مصنوعی در حسابداری

✔️ برای دریافت مشاوره رایگان و ثبت نام با این آیدی در ارتباط باشید : @elmsazadminn

📌از دنیای مدرن کسب و کار جا نمونی!!

🔹 با ما همراه باشید
📱 Instagram |📱 Telegram |
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/06/29 02:13:10
Back to Top
HTML Embed Code: