Telegram Web Link
Data Science roadmap.pdf
384 KB
نقشه راه Data Science ML Full Stack Roadmap

رودمپ باحالی هستش، واسه اینکه تو 8 ماه دیتاساینتیست بشین به تفکیک هر ماه و با جزئیات رودمپ ارائه کرده و تا حد خوبی تمامی عناوین مورد نیاز رو اورده.
#cheatsheet
@silicon_brain | از هوش مصنوعی عقب نمانید
‏Scaling Laws: سه قطعه اصلی از پازل عملکرد مدل

قانون مقیاس‌بندی (Scaling Laws) مشخص میکنه چطور عملکرد یک مدل به پارامترهای اندازه مدل، حجم داده و قدرت محاسباتی بستگی داره. این موضوع به طور کلی بصورت تجربی قابل فهم هستش اما تو شکل بالا این موضوع ثابت شده

اندازه مدل (Model Size):
تعداد پارامترهای مدل با عملکرد آن (مانند کاهش خطا یا افزایش دقت) ارتباط داره.

حجم داده (Dataset Size):

افزایش حجم داده منجر به بهبود عملکرد مدل میشه. اگه مدل بیش از حد بزرگ باشه و داده کافی در اختیار نداشته باشد، دچار overfitting میشه.

قدرت محاسباتی (Compute Power):
رابطه بین عملکرد مدل و قدرت محاسباتی اغلب به صورت لگاریتمی یا توانی است.

قبلا OpenAI تو تحقیقات خودش (مثل مقاله‌های GPT) اشاره کرده بود که خطای مدل به صورت توانی با اندازه مدل و داده کاهش پیدا میکنه. برای مدل‌های بزرگ (مانند GPT-x)، نرخ کاهش خطا ممکنه کاهش پیدا کنه مگه اینکه داده و قدرت محاسباتی هم به طور مشابه افزایش داشته باشه.
اینو داشته باشید فعلا. تو پست های بعدی در مورد شرایط فعلی Scaling Laws صحبت میکنیم.
مقاله

@silicon_brain | از هوش مصنوعی عقب نمانید
Please open Telegram to view this post
VIEW IN TELEGRAM
بعضی وقتا برای خودم یه مسئله تعریف میکنم و بدون هیچ AI و ابزار خاصی کدشو میزنم. قبلنا یکی از بهترین سرگرمی ها و تراپی های برنامه نویسا، هرز کد زدن بود :)

حواسمون باشه با ظهور AI لذت حس فوق العاده برنامه نویسی from scratch رو از دست ندیم. اگه نمیخوای خودت مسئله تعریف کنی هم از Codeforces استفاده کن (کلااااسیک باز باش 😍)
This media is not supported in your browser
VIEW IN TELEGRAM
شرکت Nvidia مدل جدید LLaMa-Mesh رو معرفی کرده که با استفاده از LLaMa میتونه مش‌های سه‌بعدی (3D Meshes) رو در قالب پرامپت بفهمه و تولید کنه

روش کارم این شکلیه که: مختصات رأس‌ها و تعاریف وجوه مش‌های سه‌بعدی رو به شکل یه متن معمولی (مثلاً فرمت فایل OBJ) درمیاره. مدل با استفاده از متن و داده های سه بعدی با آموزش ترکیبی، مدل یاد می‌گیره که هم متن تولید کنه و هم آبجکت های سه‌بعدی.
لینک

@silicon_brain | از هوش مصنوعی عقب نمانید ‌‏
مدل Gemini-Exp-1121، عملکرد برتر در coding, reasoning, vision tasks

این نسخه از Gemini تو خیلی از تسک ها به ChatGPT4o رسیده (تو Hard Prompts و Math بهترم هست) و به صورت کلی رنک اول AI Arena رو بدست اورده

این مدل تو پلتفرم AI Arena در رتبه بندی کلی اوله اما باید توجه داشت که تو بنچمارک های دیگه مثل Livebench از GPT-4o و Claude عقب مونده.

اگه میخوای تستش کنی از طریق Google AI Studio یا Gemini API میتونی دسترسی داشته باشی

@silicon_brain | از هوش مصنوعی عقب نمانید
میشه با استفاده از داده‌های باکیفیت از Scaling Laws عبور کرد؟

میخوام کامل در مورد رابطه دیتا و عمکرد مدل طبق آخرین تحقیقات صحبت کنیم. اگه با Scaling Laws آشنا نیستی این پستو بخون.
قوانین مقیاس‌پذیری (Scaling Laws) هوش مصنوعی می‌گن عملکرد مدل‌ها با اندازه دیتاست یه رابطه توان‌دار داره.
Performance ∝ dataset size ^ -a 


این فرمول نشون می‌ده خطای مدل وقتی که دیتای آموزشی بیشتری اضافه می‌کنی چقدر کاهش پیدا می‌کنه. عدد a (ضریب مقیاس) معمولاً حدود ۰.۵ هست.

تحقیقات توی عمل نشون میده که:
اگه یه دیتاست با ۱۰,۰۰۰ نمونه و ۲۰٪ خطا داشته باشی:
- برای رسیدن به ۱۰٪ خطا (نصف)، به ۴۰,۰۰۰ نمونه نیاز داری (۴ برابر).
- برای رسیدن به ۵٪ خطا (یک‌چهارم)، به ۱۶۰,۰۰۰ نمونه نیاز داری (۱۶ برابر).
- برای رسیدن به ۲٪ خطا (یک‌دهم)، به ۱,۰۰۰,۰۰۰ نمونه نیاز داری (۱۰۰ برابر).
این رشد نمایی تو حجم دیتاست برای یه بهبود خطی کوچیک نشون می‌ده چرا ساخت اپلیکیشن‌های AI در حد تولید انبوه این‌قدر چالش‌برانگیزه و چرا فقط شرکت های بزرگ هستن که میتونن به همچین حجم از دیتا و به دنبالش به مدل های خفن دسترسی داشته باشن.

یه حقیقت دیگه: تحقیقات نشون داده تیم‌های AI تقریباً ۸۰٪ از وقتشون رو صرف آماده‌سازی داده‌ها می‌کنن و فقط ۲۰٪ از وقتشون رو برای توسعه مدل و اجرا می‌ذارن. این عدم تعادل وقتی بیشتر می‌شه که حجم دیتا به میلیون‌ها فایل و فرمت‌های مختلف برسه.

یه نگاه جدید:
تحقیقات از مقاله "Beyond Neural Scaling Laws" می‌گه که آماده‌سازی استراتژیک یه دیتاست کوچیک، متنوع و متعادل از یه دیتای خام بزرگ می‌تونه بهبود نمایی ایجاد کنه:
Error ~ e ^ (-b * dataset size)

که b به استراتژی انتخاب داده‌ها بستگی داره.
یعنی چی؟ یه دیتاست ۱۰,۰۰۰ تایی که با دقت انتخاب شده باشه می‌تونه بهتر از یه دیتاست تصادفی ۱۰۰,۰۰۰تایی عمل کنه.

کلید ماجرا اینه که بفهمیم کدوم نمونه‌ها بیشترین اطلاعات رو ارائه می‌دن.
چطور با داده‌های باکیفیت قوانین مقیاس‌پذیری رو تغییر بدیم؟
وقتی داده‌هایی که برای آموزش و تنظیم مدل‌های هوش مصنوعی استفاده می‌شن دقیقاً پالایش بشن (مثل حذف داده‌های تکراری، کاهش نویز، و فیلتر کردن مرتبط با حوزه)، مدل‌ها می‌تونن سیگنال‌های یادگیری قوی‌تری از هر نمونه بگیرن.

این نسبت بهتر سیگنال به نویز باعث می‌شه منحنی یادگیری سریع‌تر رشد کنه و عملکرد مدل در نهایت بهتر بشه، در واقع کل منحنی مقیاس‌پذیری رو به بالا می‌بره.

تحقیقات نشون داده با دیتاست‌های باکیفیت، می‌شه با فقط ۲۰-۳۰٪ از حجم دیتای خام، همون نتایج رو گرفت. این "اثر ضریب کیفیت" باعث کاهش تداخل بین نمونه‌های داده هم می‌شه و مدل‌ها رو در ساختن بازنمایی‌های کلی‌تر قوی‌تر می‌کنه.

@silicon_brain | از هوش مصنوعی عقب نمانید
در حالی که کامیونیتی AI تلاش می‌کنه پردازش و ساخت مدل ها رو با رویکرد decentralized پیش ببره، تو ایران برعکسه و طرح‌هایی برای متمرکز کردن منابع سخت افزاری AI میدن. به نظر من برای جامعه ایران! رویکرد متمرکز مناسب نیست ولی بهتره مزایا و معایب هر کدومو بگیم:

مزایا متمرکز کردن منابع سخت افزاری AI :
- کنترل مرکزی
- مقیاس‌پذیری بهتر
- تمرکز دانش فنی و تخصصی

معایب:
- ریسک‌های متمرکز بودن
- هزینه‌های ابتدایی بالا
- محدودیت‌های جغرافیایی
- امنیت و حریم خصوصی
- انعطاف‌پذیری کمتر

اینم مطلبو هم بخون
@silicon_brain | از هوش مصنوعی عقب نمانید
علی‌بابا یه مدل متن‌باز جدید به اسم QwQ-32B-Preview معرفی کرده که می‌تونه مرحله‌به‌مرحله فکر کنه و تو کارای ریاضی و برنامه‌نویسی خیلی قویه.

این مدل رو تیم Qwen ساخته و با مدل‌های سری o1 از OpenAI رقابت می‌کنه. یه پنجره متنی 32 هزار کاراکتری داره که از مدل o1-mini جلوتره و تو معیارهای مختلف شونه‌به‌شونه o1-preview حرکت می‌کنه. تمرکز اصلیش اینه که مسائل پیچیده ریاضی و برنامه‌نویسی رو با یه روش استدلال عمیق حل کنه.

نوآوری اصلیش اینه که موقع حل مسائل، جواب‌هاش رو بازبینی می‌کنه و اگه لازم باشه، اصلاحشون می‌کنه. همین قابلیت باعث شده تو معیارهای ریاضی و برنامه‌نویسی از خیلی مدل‌های دیگه بهتر باشه. البته هنوز باید تو زمینه‌هایی مثل درک زبان پیچیده و منطق عمومی بهتر بشه.

مشکلش چیه؟
گاهی تو حلقه‌های استدلالی گیر می‌کنه (recursive reasoning loops)، بعضی وقتا زبان‌ها رو قاطی می‌کنه (language mixing)، و تو منطق عمومی (common sense reasoning)هم همیشه خوب نیست. اینا باعث میشه تو بعضی کارا زیاد دقیق نباشه، ولی تو مسائل فنی پیشرفته عالیه.

هاگینگ فیس
@silicon_brain |از هوش مصنوعی عقب نمانید
Silicon Brain | جامعه هوش مصنوعی
علی‌بابا یه مدل متن‌باز جدید به اسم QwQ-32B-Preview معرفی کرده که می‌تونه مرحله‌به‌مرحله فکر کنه و تو کارای ریاضی و برنامه‌نویسی خیلی قویه. این مدل رو تیم Qwen ساخته و با مدل‌های سری o1 از OpenAI رقابت می‌کنه. یه پنجره متنی 32 هزار کاراکتری داره که از مدل…
تو پست قبلی به Recursive Reasoning Loops اشاره شد. میخوام یکم بیشتر در موردش بگم.
احتمالا میدونین که تو برنامه نویسی مفهومی مثل Recursive Loop داریم، وقتی که برنامه رو بدون گذاشتن شرط توقف به امون خدا ولی کنی. مثال خیلی ساده اش محاسبه فاکتوریل هستش مثل این:
def factorial(n):
return n * factorial(n - 1) # بدون شرط توقف
factorial(5)

این تابع هیچ‌وقت متوقف نمیشه و در نهایت، به خطای RecursionError: maximum recursion depth exceeded میرسه. برای هندل کردنش باید شرط اضافه شه بهش:
def factorial(n):
if n == 0: # شرط توقف
return 1
return n * factorial(n - 1)


اما حلقه استدلالی (Recursive Reasoning Loop) که در بحث مدل‌های زبانی و هوش مصنوعی مطرحه کمی متفاوته و بیشتر به فرآیند استدلال و تحلیل مربوطه نه صرفاً اجرای کد یا حل معادلات.

مثال:
"آیا 23 عدد اول است؟"
مدل:
"برای بررسی اول بودن، باید بررسی کنیم که آیا عدد 23 بر هیچ عددی به جز 1 و خودش بخش‌پذیر نیست."
شروع به تحلیل میکنه:
"آیا 23 بر 2 بخش‌پذیر است؟ خیر."
"آیا 23 بر 3 بخش‌پذیر است؟ خیر."

اگه مدل فراموش کنه که چه مقادیری رو بررسی کرده یا دوباره بررسی‌های قبلی رو بدون پیشرفت واقعی انجام بده ممکنه اینجوری شه:
"آیا 23 بر 2 بخش‌پذیر است؟ خیر."
"آیا 23 بر 3 بخش‌پذیر است؟ خیر."


یه مثال ساده از زندگی واقعی:
فرض کن میخوای تصمیم بگیری مهمونی میخوای بری یا نه؟
میگی: "اگر دوستم برود، من هم می‌روم."
بعد فکر میکنی:
"آیا دوستم می‌رود؟" احتمالاً اونم همین فکرو میکنه
اگر من بروم، او هم می‌رود!"
این فرآیند میتونه به‌طور بی‌پایان ادامه پیدا کنه، چون هر دو طرف تصمیم خودشونو به تصمیم طرف مقابل وابسته کردن.
@silicon_brain |از هوش مصنوعی عقب نمانید
تصویر بالا، درخت تکامل مدل‌های زبانی بزرگ (LLM) رو از سال ۲۰۱۸ تا ۲۰۲۴ نشون میده.

نمودار سه شاخه اصلی داره:
- شاخه قرمز شامل مدل‌های Encoder-only مثل BERT هست.
- شاخه سبز شامل مدل‌های Encoder-Decoder مثل T5 هست.
- شاخه آبی شامل مدل‌های Decoder-only مثل GPT هست.

توی هر شاخه، برگ‌ها مسیر پیشرفت مدل‌ها رو نشون میدن. مثلا، در شاخه آبی، شروع‌کننده تقریبا GPT-2 بوده و جدیدترین‌ هم Llama 3.2 هست.

@silicon_brain |از هوش مصنوعی عقب نمانید
کلید رمزنگاری RSA برای اولین بار شکسته شد!

یه تیم تحقیقاتی چینی تونستن با کامپیوترای کوانتومی شرکت D-Wave روشای رمزنگاری‌ مثل RSA و AES رو که برای محافظت از اطلاعات حساس استفاده می‌کنیم رو بشکنن.
خبر خیلی مهمیه که باید همه توجه کنیم بهش

اینا با استفاده از تکنولوژی کوانتومی تونستن یه عدد 50 بیتی RSA رو رمزگشایی کنن یعنی این رمزنگاری ها دیگه اونقدرا امن نیستن. قبلاً می‌گفتن چند دهه طول می‌کشه تا این کامپیوترای کوانتومی قوی بشن، ولی حالا معلوم شده زودتر از اونی که فکر می‌کردیم ممکنه سیستمامونو به خطر بندازن.
نکته مهم اینه که هکرها حتی الان اگه نتونن اطلاعاتو رمزگشایی کنن، ممکنه الان اطلاعاتو بدزدن و بذارن برای آینده که کامپیوترای کوانتومی بتونن راحت رمزگشایی‌شون کنن.

به طور کلی دیگه زمان زیادی برای تعلل نیست و باید سریع‌تر روش های رمزگذاری جدیدی ابداع بشه تا اطلاعاتمون از دست نره!
حالا واسه اینکه بدونیم چقدر این دو روش رمزنگاری اهمیت داره کاربرداشو بدونیم:

کاربردهای RSA:
تو پیام‌رسان‌ها یا ارسال ایمیل‌های حساس. تأیید هویت کاربران یا سرویس‌ها.
مثلاً امضای دیجیتال که ثابت می‌کنه یک پیام یا سند از طرف فرستنده اصلی ارسال شده.


کاربردهای AES:
رمزنگاری فایل‌ها، تو پروتکل‌هایی مثل VPN، Wi-Fi WPA2/WPA3، و TLS که برای رمزنگاری داده‌های در حال انتقال استفاده میشه. محافظت از اطلاعات حساس دیتابیس ها، رمزنگاری پیام‌ها تو اپلیکیشن‌هایی مثل WhatsApp، پرداخت تراکنش‌های بانکی
بلاگ

@silicon_brain |از هوش مصنوعی عقب نمانید
Forwarded from Ai Events️ (حمید محمودآبادی)
یه ایده‌ی خلاقانه به نام GraphRAG برای تقویت توانایی‌ LLMها

یکی از چالش‌های کلیدی در مدل‌های زبانی بزرگ (LLM) استفاده از آن‌ها برای حل مسائل فراتر از داده‌های آموزش است. به‌منظور برآورده شدن این هدف، تیم تحقیقاتی مایکروسافت GraphRAG را معرفی کرده که به‌عنوان یک تکنیک پیشرفته
برای بهبود عملکرد Retrieval-Augmented Generation (RAG) استفاده می‌شود.

ویژگی‌های کلیدی GraphRAG:

ایجاد گراف دانش توسط LLM: این روش به‌صورت خودکار گرافی از موجودیت‌ها و روابط موجود در داده‌های خصوصی تولید می‌کند.

خوشه‌بندی معنایی: با ایجاد ساختارهای معنایی سلسله‌مراتبی، داده‌ها به خوشه‌هایی معنادار تقسیم‌بندی می‌شوند که امکان پیش‌خلاصه‌سازی اطلاعات را فراهم می‌کند.

افزایش دقت بازیابی: با استفاده از گراف تولید شده، GraphRAG محتوای مرتبط‌تری را برای ورود به پنجره زمینه LLM فراهم می‌آورد و پاسخ‌های دقیق‌تری تولید می‌کند.

پشتیبانی از پرسش‌های پیچیده: این تکنیک توانایی پردازش سوالاتی که نیاز به تجمیع
اطلاعات پراکنده یا تحلیل تم‌های کلان دارند را افزایش می‌دهد.

📊 عملکرد: در یک آزمایش با داده‌های خبری پیچیده، GraphRAG توانسته مفاهیم
کلیدی مانند فعالیت‌های سیاسی و نظامی مرتبط با "Novorossiya" را با دقت بالا شناسایی کند. این نتایج، بهبود چشمگیری را نسبت به روش‌های RAG پایه (که عملکرد آن‌ها صرفا با استفاده از فاصله وکتور سوال و جواب است) نشان داد که معمولاً در اتصال اطلاعات پراکنده ناکام بودند.

🔗 مزایای GraphRAG:

منبع‌نگاری دقیق: هر پاسخ به داده‌های اصلی مرتبط است و امکان تأیید صحت اطلاعات را فراهم می‌کند.

تحلیل کل‌نگر داده‌ها: خوشه‌بندی معنایی امکان شناسایی تم‌های اصلی و پاسخ‌دهی به سوالات کلی‌تر را بهبود می‌بخشد.

تطبیق با داده‌های خصوصی: این روش برای داده‌هایی که مدل‌های LLM به آن‌ها آموزش ندیده‌اند، مانند اسناد تجاری یا داده‌های اختصاصی سازمانی، ایده‌آل است.

مطالعه‌ی مقاله کامل

بخوانید: RAG چیست؟

بخوانید: LLM چیست؟


@Ai_Events
This media is not supported in your browser
VIEW IN TELEGRAM
یادگیری ماشین در یک نگاه

 رگرسیون خطی

رابطه بین متغیر وابسته و مستقل رو با یک معادله خطی مدل‌سازی می‌کنه.

 رگرسیون لجستیک

مناسب برای مسائل دسته‌بندی (binary classification)
احتمال اینکه یک نمونه به یک کلاس خاص تعلق داشته باشه رو تخمین می‌زنه.

درخت تصمیم

داده‌ها رو براساس مقادیر ویژگی‌های ورودی به زیرمجموعه‌ها تقسیم می‌کنه.
بصری‌سازی و تفسیرش راحته

Random Forest

از چندین درخت تصمیم استفاده می‌کنه.
با میانگین‌گیری از چند درخت، Overfitting رو کاهش میده

‏ SVM

بهترین ابرصفحه برای جدا کردن کلاس‌های مختلف رو پیدا می‌کنه.
در فضاهای با ابعاد بالا بسیار مؤثره.

 نزدیک‌ترین همسایه‌ (k-NN)

همسایه‌های نزدیک رو میذاره توی یک خوشه. ممکنه محاسبات زیادی نیاز داشته باشه.

 K-Means

داده‌ها رو براساس شباهت ویژگی‌ها به k خوشه تقسیم می‌کنه.

Naive Bayes

برای دسته‌بندی متن و فیلتر کردن اسپم خیلی کاربردیه.

 شبکه‌های عصبی

الگوها رو توی داده‌ها شناسایی می‌کنن.
پایه یادگیری عمیق و پردازش زبان طبیعی هست.

Gradient Boosting

چند مدل ضعیف رو ترکیب می‌کنه تا یک مدل پیش‌بینی قوی بسازه.

@silicon_brain|از هوش مصنوعی عقب نمانید
اوپن‌ای‌آی تو روز اول از رویداد "12 Days of OpenAI" نسخه کامل مدل o1 رو معرفی کرد. که جایگزین نسخه پیش‌نمایش (Preview ) قبلی تو ChatGPT شده.

یه اشتراک جدید به اسم ChatGPT Pro معرفی کرده. ماهی 200 دلار قیمت داره و بیشتر برای کاربرهایی طراحی شده که نیاز به قدرت پردازشی بالا یا موارد استفاده پیچیده دارن.

ویژگی‌های مدل o1
مدل o1 نسبت به نسخه پیش‌نمایش، خطاها رو 34 درصد کمتر کرده، مخصوصاً توی مسائل پیچیده دنیای واقعی. می‌تونه تصاویر رو پردازش کنه، مثل تحلیل نمودارها، دیاگرام‌ها، یا عکس‌های توضیحات‌دار

کاربرهای Pro می‌تونن بدون محدودیت از مدل‌های o1، GPT-4o، o1-mini، و ابزارهای پیشرفته صوتی استفاده کنن. این نسخه پیشرفته‌تر، یه کانتکست ویندوی 128k داره و توی مسائل سخت‌تر، پایداری بیشتری ارائه میده. توی بنچمارک‌های فنی، 80 درصد دقت تو ریاضیات (AIME)، رتبه 75 درصدی تو کدنویسی (Codeforces)، و 74 درصد دقت توی علم (GPQA Diamond) رو به دست آورده.

وقتی تو حالت o1 Pro کار می‌کنید، یه نوار پیشرفت نمایش داده میشه و اگر پردازش زمان‌بر باشه، نوتیفیکیشن دریافت می‌کنید.


@silicon_brain | از هوش مصنوعی عقب نمانید
مدل Llama3.3 هم منتشر شد

70B: Experience leading performance and quality at a fraction of the cost with our latest release.

متا | هاگینگ فیس | گیتهاب

@silicon_brain | از هوش مصنوعی عقب نمانید
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/07/03 09:02:22
Back to Top
HTML Embed Code: