Data Science roadmap.pdf
384 KB
نقشه راه Data Science ML Full Stack Roadmap
رودمپ باحالی هستش، واسه اینکه تو 8 ماه دیتاساینتیست بشین به تفکیک هر ماه و با جزئیات رودمپ ارائه کرده و تا حد خوبی تمامی عناوین مورد نیاز رو اورده.
#cheatsheet
@silicon_brain | از هوش مصنوعی عقب نمانید
رودمپ باحالی هستش، واسه اینکه تو 8 ماه دیتاساینتیست بشین به تفکیک هر ماه و با جزئیات رودمپ ارائه کرده و تا حد خوبی تمامی عناوین مورد نیاز رو اورده.
#cheatsheet
@silicon_brain | از هوش مصنوعی عقب نمانید
Scaling Laws: سه قطعه اصلی از پازل عملکرد مدل
قانون مقیاسبندی (Scaling Laws) مشخص میکنه چطور عملکرد یک مدل به پارامترهای اندازه مدل، حجم داده و قدرت محاسباتی بستگی داره. این موضوع به طور کلی بصورت تجربی قابل فهم هستش اما تو شکل بالا این موضوع ثابت شده
اندازه مدل (Model Size):
تعداد پارامترهای مدل با عملکرد آن (مانند کاهش خطا یا افزایش دقت) ارتباط داره.
حجم داده (Dataset Size):
افزایش حجم داده منجر به بهبود عملکرد مدل میشه. اگه مدل بیش از حد بزرگ باشه و داده کافی در اختیار نداشته باشد، دچار overfitting میشه.
قدرت محاسباتی (Compute Power):
رابطه بین عملکرد مدل و قدرت محاسباتی اغلب به صورت لگاریتمی یا توانی است.
قبلا OpenAI تو تحقیقات خودش (مثل مقالههای GPT) اشاره کرده بود که خطای مدل به صورت توانی با اندازه مدل و داده کاهش پیدا میکنه. برای مدلهای بزرگ (مانند GPT-x)، نرخ کاهش خطا ممکنه کاهش پیدا کنه مگه اینکه داده و قدرت محاسباتی هم به طور مشابه افزایش داشته باشه.
اینو داشته باشید فعلا. تو پست های بعدی در مورد شرایط فعلی
مقاله
@silicon_brain | از هوش مصنوعی عقب نمانید
قانون مقیاسبندی (Scaling Laws) مشخص میکنه چطور عملکرد یک مدل به پارامترهای اندازه مدل، حجم داده و قدرت محاسباتی بستگی داره. این موضوع به طور کلی بصورت تجربی قابل فهم هستش اما تو شکل بالا این موضوع ثابت شده
اندازه مدل (Model Size):
تعداد پارامترهای مدل با عملکرد آن (مانند کاهش خطا یا افزایش دقت) ارتباط داره.
حجم داده (Dataset Size):
افزایش حجم داده منجر به بهبود عملکرد مدل میشه. اگه مدل بیش از حد بزرگ باشه و داده کافی در اختیار نداشته باشد، دچار overfitting میشه.
قدرت محاسباتی (Compute Power):
رابطه بین عملکرد مدل و قدرت محاسباتی اغلب به صورت لگاریتمی یا توانی است.
قبلا OpenAI تو تحقیقات خودش (مثل مقالههای GPT) اشاره کرده بود که خطای مدل به صورت توانی با اندازه مدل و داده کاهش پیدا میکنه. برای مدلهای بزرگ (مانند GPT-x)، نرخ کاهش خطا ممکنه کاهش پیدا کنه مگه اینکه داده و قدرت محاسباتی هم به طور مشابه افزایش داشته باشه.
اینو داشته باشید فعلا. تو پست های بعدی در مورد شرایط فعلی
Scaling Laws
صحبت میکنیم.مقاله
@silicon_brain | از هوش مصنوعی عقب نمانید
Please open Telegram to view this post
VIEW IN TELEGRAM
بعضی وقتا برای خودم یه مسئله تعریف میکنم و بدون هیچ AI و ابزار خاصی کدشو میزنم. قبلنا یکی از بهترین سرگرمی ها و تراپی های برنامه نویسا، هرز کد زدن بود :)
حواسمون باشه با ظهور AI لذت حس فوق العاده برنامه نویسی from scratch رو از دست ندیم. اگه نمیخوای خودت مسئله تعریف کنی هم از Codeforces استفاده کن (کلااااسیک باز باش 😍)
حواسمون باشه با ظهور AI لذت حس فوق العاده برنامه نویسی from scratch رو از دست ندیم. اگه نمیخوای خودت مسئله تعریف کنی هم از Codeforces استفاده کن (کلااااسیک باز باش 😍)
This media is not supported in your browser
VIEW IN TELEGRAM
شرکت Nvidia مدل جدید LLaMa-Mesh رو معرفی کرده که با استفاده از LLaMa میتونه مشهای سهبعدی (3D Meshes) رو در قالب پرامپت بفهمه و تولید کنه
روش کارم این شکلیه که: مختصات رأسها و تعاریف وجوه مشهای سهبعدی رو به شکل یه متن معمولی (مثلاً فرمت فایل OBJ) درمیاره. مدل با استفاده از متن و داده های سه بعدی با آموزش ترکیبی، مدل یاد میگیره که هم متن تولید کنه و هم آبجکت های سهبعدی.
لینک
@silicon_brain | از هوش مصنوعی عقب نمانید
روش کارم این شکلیه که: مختصات رأسها و تعاریف وجوه مشهای سهبعدی رو به شکل یه متن معمولی (مثلاً فرمت فایل OBJ) درمیاره. مدل با استفاده از متن و داده های سه بعدی با آموزش ترکیبی، مدل یاد میگیره که هم متن تولید کنه و هم آبجکت های سهبعدی.
لینک
@silicon_brain | از هوش مصنوعی عقب نمانید
مدل Gemini-Exp-1121، عملکرد برتر در coding, reasoning, vision tasks
این نسخه از Gemini تو خیلی از تسک ها به ChatGPT4o رسیده (تو Hard Prompts و Math بهترم هست) و به صورت کلی رنک اول AI Arena رو بدست اورده
این مدل تو پلتفرم AI Arena در رتبه بندی کلی اوله اما باید توجه داشت که تو بنچمارک های دیگه مثل Livebench از GPT-4o و Claude عقب مونده.
اگه میخوای تستش کنی از طریق Google AI Studio یا Gemini API میتونی دسترسی داشته باشی
@silicon_brain | از هوش مصنوعی عقب نمانید
این نسخه از Gemini تو خیلی از تسک ها به ChatGPT4o رسیده (تو Hard Prompts و Math بهترم هست) و به صورت کلی رنک اول AI Arena رو بدست اورده
این مدل تو پلتفرم AI Arena در رتبه بندی کلی اوله اما باید توجه داشت که تو بنچمارک های دیگه مثل Livebench از GPT-4o و Claude عقب مونده.
اگه میخوای تستش کنی از طریق Google AI Studio یا Gemini API میتونی دسترسی داشته باشی
@silicon_brain | از هوش مصنوعی عقب نمانید
میشه با استفاده از دادههای باکیفیت از Scaling Laws عبور کرد؟
میخوام کامل در مورد رابطه دیتا و عمکرد مدل طبق آخرین تحقیقات صحبت کنیم. اگه با Scaling Laws آشنا نیستی این پستو بخون.
قوانین مقیاسپذیری (Scaling Laws) هوش مصنوعی میگن عملکرد مدلها با اندازه دیتاست یه رابطه تواندار داره.
این فرمول نشون میده خطای مدل وقتی که دیتای آموزشی بیشتری اضافه میکنی چقدر کاهش پیدا میکنه. عدد a (ضریب مقیاس) معمولاً حدود ۰.۵ هست.
تحقیقات توی عمل نشون میده که:
اگه یه دیتاست با ۱۰,۰۰۰ نمونه و ۲۰٪ خطا داشته باشی:
- برای رسیدن به ۱۰٪ خطا (نصف)، به ۴۰,۰۰۰ نمونه نیاز داری (۴ برابر).
- برای رسیدن به ۵٪ خطا (یکچهارم)، به ۱۶۰,۰۰۰ نمونه نیاز داری (۱۶ برابر).
- برای رسیدن به ۲٪ خطا (یکدهم)، به ۱,۰۰۰,۰۰۰ نمونه نیاز داری (۱۰۰ برابر).
این رشد نمایی تو حجم دیتاست برای یه بهبود خطی کوچیک نشون میده چرا ساخت اپلیکیشنهای AI در حد تولید انبوه اینقدر چالشبرانگیزه و چرا فقط شرکت های بزرگ هستن که میتونن به همچین حجم از دیتا و به دنبالش به مدل های خفن دسترسی داشته باشن.
یه حقیقت دیگه: تحقیقات نشون داده تیمهای AI تقریباً ۸۰٪ از وقتشون رو صرف آمادهسازی دادهها میکنن و فقط ۲۰٪ از وقتشون رو برای توسعه مدل و اجرا میذارن. این عدم تعادل وقتی بیشتر میشه که حجم دیتا به میلیونها فایل و فرمتهای مختلف برسه.
یه نگاه جدید:
تحقیقات از مقاله "Beyond Neural Scaling Laws" میگه که آمادهسازی استراتژیک یه دیتاست کوچیک، متنوع و متعادل از یه دیتای خام بزرگ میتونه بهبود نمایی ایجاد کنه:
که b به استراتژی انتخاب دادهها بستگی داره.
یعنی چی؟ یه دیتاست ۱۰,۰۰۰ تایی که با دقت انتخاب شده باشه میتونه بهتر از یه دیتاست تصادفی ۱۰۰,۰۰۰تایی عمل کنه.
کلید ماجرا اینه که بفهمیم کدوم نمونهها بیشترین اطلاعات رو ارائه میدن.
چطور با دادههای باکیفیت قوانین مقیاسپذیری رو تغییر بدیم؟
وقتی دادههایی که برای آموزش و تنظیم مدلهای هوش مصنوعی استفاده میشن دقیقاً پالایش بشن (مثل حذف دادههای تکراری، کاهش نویز، و فیلتر کردن مرتبط با حوزه)، مدلها میتونن سیگنالهای یادگیری قویتری از هر نمونه بگیرن.
این نسبت بهتر سیگنال به نویز باعث میشه منحنی یادگیری سریعتر رشد کنه و عملکرد مدل در نهایت بهتر بشه، در واقع کل منحنی مقیاسپذیری رو به بالا میبره.
تحقیقات نشون داده با دیتاستهای باکیفیت، میشه با فقط ۲۰-۳۰٪ از حجم دیتای خام، همون نتایج رو گرفت. این "اثر ضریب کیفیت" باعث کاهش تداخل بین نمونههای داده هم میشه و مدلها رو در ساختن بازنماییهای کلیتر قویتر میکنه.
@silicon_brain | از هوش مصنوعی عقب نمانید
میخوام کامل در مورد رابطه دیتا و عمکرد مدل طبق آخرین تحقیقات صحبت کنیم. اگه با Scaling Laws آشنا نیستی این پستو بخون.
قوانین مقیاسپذیری (Scaling Laws) هوش مصنوعی میگن عملکرد مدلها با اندازه دیتاست یه رابطه تواندار داره.
Performance ∝ dataset size ^ -a
این فرمول نشون میده خطای مدل وقتی که دیتای آموزشی بیشتری اضافه میکنی چقدر کاهش پیدا میکنه. عدد a (ضریب مقیاس) معمولاً حدود ۰.۵ هست.
تحقیقات توی عمل نشون میده که:
اگه یه دیتاست با ۱۰,۰۰۰ نمونه و ۲۰٪ خطا داشته باشی:
- برای رسیدن به ۱۰٪ خطا (نصف)، به ۴۰,۰۰۰ نمونه نیاز داری (۴ برابر).
- برای رسیدن به ۵٪ خطا (یکچهارم)، به ۱۶۰,۰۰۰ نمونه نیاز داری (۱۶ برابر).
- برای رسیدن به ۲٪ خطا (یکدهم)، به ۱,۰۰۰,۰۰۰ نمونه نیاز داری (۱۰۰ برابر).
این رشد نمایی تو حجم دیتاست برای یه بهبود خطی کوچیک نشون میده چرا ساخت اپلیکیشنهای AI در حد تولید انبوه اینقدر چالشبرانگیزه و چرا فقط شرکت های بزرگ هستن که میتونن به همچین حجم از دیتا و به دنبالش به مدل های خفن دسترسی داشته باشن.
یه حقیقت دیگه: تحقیقات نشون داده تیمهای AI تقریباً ۸۰٪ از وقتشون رو صرف آمادهسازی دادهها میکنن و فقط ۲۰٪ از وقتشون رو برای توسعه مدل و اجرا میذارن. این عدم تعادل وقتی بیشتر میشه که حجم دیتا به میلیونها فایل و فرمتهای مختلف برسه.
یه نگاه جدید:
تحقیقات از مقاله "Beyond Neural Scaling Laws" میگه که آمادهسازی استراتژیک یه دیتاست کوچیک، متنوع و متعادل از یه دیتای خام بزرگ میتونه بهبود نمایی ایجاد کنه:
Error ~ e ^ (-b * dataset size)
که b به استراتژی انتخاب دادهها بستگی داره.
یعنی چی؟ یه دیتاست ۱۰,۰۰۰ تایی که با دقت انتخاب شده باشه میتونه بهتر از یه دیتاست تصادفی ۱۰۰,۰۰۰تایی عمل کنه.
کلید ماجرا اینه که بفهمیم کدوم نمونهها بیشترین اطلاعات رو ارائه میدن.
چطور با دادههای باکیفیت قوانین مقیاسپذیری رو تغییر بدیم؟
وقتی دادههایی که برای آموزش و تنظیم مدلهای هوش مصنوعی استفاده میشن دقیقاً پالایش بشن (مثل حذف دادههای تکراری، کاهش نویز، و فیلتر کردن مرتبط با حوزه)، مدلها میتونن سیگنالهای یادگیری قویتری از هر نمونه بگیرن.
این نسبت بهتر سیگنال به نویز باعث میشه منحنی یادگیری سریعتر رشد کنه و عملکرد مدل در نهایت بهتر بشه، در واقع کل منحنی مقیاسپذیری رو به بالا میبره.
تحقیقات نشون داده با دیتاستهای باکیفیت، میشه با فقط ۲۰-۳۰٪ از حجم دیتای خام، همون نتایج رو گرفت. این "اثر ضریب کیفیت" باعث کاهش تداخل بین نمونههای داده هم میشه و مدلها رو در ساختن بازنماییهای کلیتر قویتر میکنه.
@silicon_brain | از هوش مصنوعی عقب نمانید
در حالی که کامیونیتی AI تلاش میکنه پردازش و ساخت مدل ها رو با رویکرد decentralized پیش ببره، تو ایران برعکسه و طرحهایی برای متمرکز کردن منابع سخت افزاری AI میدن. به نظر من برای جامعه ایران! رویکرد متمرکز مناسب نیست ولی بهتره مزایا و معایب هر کدومو بگیم:
مزایا متمرکز کردن منابع سخت افزاری AI :
- کنترل مرکزی
- مقیاسپذیری بهتر
- تمرکز دانش فنی و تخصصی
معایب:
- ریسکهای متمرکز بودن
- هزینههای ابتدایی بالا
- محدودیتهای جغرافیایی
- امنیت و حریم خصوصی
- انعطافپذیری کمتر
اینم مطلبو هم بخون
@silicon_brain | از هوش مصنوعی عقب نمانید
مزایا متمرکز کردن منابع سخت افزاری AI :
- کنترل مرکزی
- مقیاسپذیری بهتر
- تمرکز دانش فنی و تخصصی
معایب:
- ریسکهای متمرکز بودن
- هزینههای ابتدایی بالا
- محدودیتهای جغرافیایی
- امنیت و حریم خصوصی
- انعطافپذیری کمتر
اینم مطلبو هم بخون
@silicon_brain | از هوش مصنوعی عقب نمانید
علیبابا یه مدل متنباز جدید به اسم QwQ-32B-Preview معرفی کرده که میتونه مرحلهبهمرحله فکر کنه و تو کارای ریاضی و برنامهنویسی خیلی قویه.
این مدل رو تیم
نوآوری اصلیش اینه که موقع حل مسائل، جوابهاش رو بازبینی میکنه و اگه لازم باشه، اصلاحشون میکنه. همین قابلیت باعث شده تو معیارهای ریاضی و برنامهنویسی از خیلی مدلهای دیگه بهتر باشه. البته هنوز باید تو زمینههایی مثل درک زبان پیچیده و منطق عمومی بهتر بشه.
مشکلش چیه؟
گاهی تو حلقههای استدلالی گیر میکنه (recursive reasoning loops)، بعضی وقتا زبانها رو قاطی میکنه (language mixing)، و تو منطق عمومی (common sense reasoning)هم همیشه خوب نیست. اینا باعث میشه تو بعضی کارا زیاد دقیق نباشه، ولی تو مسائل فنی پیشرفته عالیه.
هاگینگ فیس
@silicon_brain |از هوش مصنوعی عقب نمانید
این مدل رو تیم
Qwen
ساخته و با مدلهای سری o1 از OpenAI رقابت میکنه. یه پنجره متنی 32 هزار کاراکتری داره که از مدل o1-mini جلوتره و تو معیارهای مختلف شونهبهشونه o1-preview حرکت میکنه. تمرکز اصلیش اینه که مسائل پیچیده ریاضی و برنامهنویسی رو با یه روش استدلال عمیق حل کنه.نوآوری اصلیش اینه که موقع حل مسائل، جوابهاش رو بازبینی میکنه و اگه لازم باشه، اصلاحشون میکنه. همین قابلیت باعث شده تو معیارهای ریاضی و برنامهنویسی از خیلی مدلهای دیگه بهتر باشه. البته هنوز باید تو زمینههایی مثل درک زبان پیچیده و منطق عمومی بهتر بشه.
مشکلش چیه؟
گاهی تو حلقههای استدلالی گیر میکنه (recursive reasoning loops)، بعضی وقتا زبانها رو قاطی میکنه (language mixing)، و تو منطق عمومی (common sense reasoning)هم همیشه خوب نیست. اینا باعث میشه تو بعضی کارا زیاد دقیق نباشه، ولی تو مسائل فنی پیشرفته عالیه.
هاگینگ فیس
@silicon_brain |از هوش مصنوعی عقب نمانید
Silicon Brain | جامعه هوش مصنوعی
علیبابا یه مدل متنباز جدید به اسم QwQ-32B-Preview معرفی کرده که میتونه مرحلهبهمرحله فکر کنه و تو کارای ریاضی و برنامهنویسی خیلی قویه. این مدل رو تیم Qwen ساخته و با مدلهای سری o1 از OpenAI رقابت میکنه. یه پنجره متنی 32 هزار کاراکتری داره که از مدل…
تو پست قبلی به
احتمالا میدونین که تو برنامه نویسی مفهومی مثل Recursive Loop داریم، وقتی که برنامه رو بدون گذاشتن شرط توقف به امون خدا ولی کنی. مثال خیلی ساده اش محاسبه فاکتوریل هستش مثل این:
این تابع هیچوقت متوقف نمیشه و در نهایت، به خطای RecursionError: maximum recursion depth exceeded میرسه. برای هندل کردنش باید شرط اضافه شه بهش:
اما حلقه استدلالی (Recursive Reasoning Loop) که در بحث مدلهای زبانی و هوش مصنوعی مطرحه کمی متفاوته و بیشتر به فرآیند استدلال و تحلیل مربوطه نه صرفاً اجرای کد یا حل معادلات.
مثال:
"آیا 23 عدد اول است؟"
مدل:
"برای بررسی اول بودن، باید بررسی کنیم که آیا عدد 23 بر هیچ عددی به جز 1 و خودش بخشپذیر نیست."
شروع به تحلیل میکنه:
"آیا 23 بر 2 بخشپذیر است؟ خیر."
"آیا 23 بر 3 بخشپذیر است؟ خیر."
اگه مدل فراموش کنه که چه مقادیری رو بررسی کرده یا دوباره بررسیهای قبلی رو بدون پیشرفت واقعی انجام بده ممکنه اینجوری شه:
"آیا 23 بر 2 بخشپذیر است؟ خیر."
"آیا 23 بر 3 بخشپذیر است؟ خیر."
یه مثال ساده از زندگی واقعی:
فرض کن میخوای تصمیم بگیری مهمونی میخوای بری یا نه؟
میگی: "اگر دوستم برود، من هم میروم."
بعد فکر میکنی:
"آیا دوستم میرود؟" احتمالاً اونم همین فکرو میکنه
اگر من بروم، او هم میرود!"
این فرآیند میتونه بهطور بیپایان ادامه پیدا کنه، چون هر دو طرف تصمیم خودشونو به تصمیم طرف مقابل وابسته کردن.
@silicon_brain |از هوش مصنوعی عقب نمانید
Recursive Reasoning Loops
اشاره شد. میخوام یکم بیشتر در موردش بگم. احتمالا میدونین که تو برنامه نویسی مفهومی مثل Recursive Loop داریم، وقتی که برنامه رو بدون گذاشتن شرط توقف به امون خدا ولی کنی. مثال خیلی ساده اش محاسبه فاکتوریل هستش مثل این:
def factorial(n):
return n * factorial(n - 1) # بدون شرط توقف
factorial(5)
این تابع هیچوقت متوقف نمیشه و در نهایت، به خطای RecursionError: maximum recursion depth exceeded میرسه. برای هندل کردنش باید شرط اضافه شه بهش:
def factorial(n):
if n == 0: # شرط توقف
return 1
return n * factorial(n - 1)
اما حلقه استدلالی (Recursive Reasoning Loop) که در بحث مدلهای زبانی و هوش مصنوعی مطرحه کمی متفاوته و بیشتر به فرآیند استدلال و تحلیل مربوطه نه صرفاً اجرای کد یا حل معادلات.
مثال:
"آیا 23 عدد اول است؟"
مدل:
"برای بررسی اول بودن، باید بررسی کنیم که آیا عدد 23 بر هیچ عددی به جز 1 و خودش بخشپذیر نیست."
شروع به تحلیل میکنه:
"آیا 23 بر 2 بخشپذیر است؟ خیر."
"آیا 23 بر 3 بخشپذیر است؟ خیر."
اگه مدل فراموش کنه که چه مقادیری رو بررسی کرده یا دوباره بررسیهای قبلی رو بدون پیشرفت واقعی انجام بده ممکنه اینجوری شه:
"آیا 23 بر 2 بخشپذیر است؟ خیر."
"آیا 23 بر 3 بخشپذیر است؟ خیر."
یه مثال ساده از زندگی واقعی:
فرض کن میخوای تصمیم بگیری مهمونی میخوای بری یا نه؟
میگی: "اگر دوستم برود، من هم میروم."
بعد فکر میکنی:
"آیا دوستم میرود؟" احتمالاً اونم همین فکرو میکنه
اگر من بروم، او هم میرود!"
این فرآیند میتونه بهطور بیپایان ادامه پیدا کنه، چون هر دو طرف تصمیم خودشونو به تصمیم طرف مقابل وابسته کردن.
@silicon_brain |از هوش مصنوعی عقب نمانید
Silicon Brain | جامعه هوش مصنوعی
علیبابا یه مدل متنباز جدید به اسم QwQ-32B-Preview معرفی کرده که میتونه مرحلهبهمرحله فکر کنه و تو کارای ریاضی و برنامهنویسی خیلی قویه. این مدل رو تیم Qwen ساخته و با مدلهای سری o1 از OpenAI رقابت میکنه. یه پنجره متنی 32 هزار کاراکتری داره که از مدل…
به نظرم ریلیز جدید Qwen اتفاق بزرگیه. این مدل تونست مقام اول LLM های اوپن سورس که قبل از این متعلق Llama بودو بدست بیاره و حتی با سری o1 رقابت کنه
از این نظر اسم Qwen رو قراره زیاد بشنویم و استفاده کنیم.
گیتهابشم ببین
از این نظر اسم Qwen رو قراره زیاد بشنویم و استفاده کنیم.
گیتهابشم ببین
تصویر بالا، درخت تکامل مدلهای زبانی بزرگ (LLM) رو از سال ۲۰۱۸ تا ۲۰۲۴ نشون میده.
نمودار سه شاخه اصلی داره:
- شاخه قرمز شامل مدلهای
- شاخه سبز شامل مدلهای
- شاخه آبی شامل مدلهای
توی هر شاخه، برگها مسیر پیشرفت مدلها رو نشون میدن. مثلا، در شاخه آبی، شروعکننده تقریبا GPT-2 بوده و جدیدترین هم Llama 3.2 هست.
@silicon_brain |از هوش مصنوعی عقب نمانید
نمودار سه شاخه اصلی داره:
- شاخه قرمز شامل مدلهای
Encoder-only
مثل BERT
هست.- شاخه سبز شامل مدلهای
Encoder-Decoder
مثل T5
هست. - شاخه آبی شامل مدلهای
Decoder-onl
y مثل GPT
هست.توی هر شاخه، برگها مسیر پیشرفت مدلها رو نشون میدن. مثلا، در شاخه آبی، شروعکننده تقریبا GPT-2 بوده و جدیدترین هم Llama 3.2 هست.
@silicon_brain |از هوش مصنوعی عقب نمانید
کلید رمزنگاری RSA برای اولین بار شکسته شد!
یه تیم تحقیقاتی چینی تونستن با کامپیوترای کوانتومی شرکت D-Wave روشای رمزنگاری مثل
خبر خیلی مهمیه که باید همه توجه کنیم بهش
اینا با استفاده از تکنولوژی کوانتومی تونستن یه عدد 50 بیتی RSA رو رمزگشایی کنن یعنی این رمزنگاری ها دیگه اونقدرا امن نیستن. قبلاً میگفتن چند دهه طول میکشه تا این کامپیوترای کوانتومی قوی بشن، ولی حالا معلوم شده زودتر از اونی که فکر میکردیم ممکنه سیستمامونو به خطر بندازن.
نکته مهم اینه که هکرها حتی الان اگه نتونن اطلاعاتو رمزگشایی کنن، ممکنه الان اطلاعاتو بدزدن و بذارن برای آینده که کامپیوترای کوانتومی بتونن راحت رمزگشاییشون کنن.
به طور کلی دیگه زمان زیادی برای تعلل نیست و باید سریعتر روش های رمزگذاری جدیدی ابداع بشه تا اطلاعاتمون از دست نره!
حالا واسه اینکه بدونیم چقدر این دو روش رمزنگاری اهمیت داره کاربرداشو بدونیم:
کاربردهای RSA:
تو پیامرسانها یا ارسال ایمیلهای حساس. تأیید هویت کاربران یا سرویسها.
مثلاً امضای دیجیتال که ثابت میکنه یک پیام یا سند از طرف فرستنده اصلی ارسال شده.
کاربردهای AES:
رمزنگاری فایلها، تو پروتکلهایی مثل VPN، Wi-Fi WPA2/WPA3، و TLS که برای رمزنگاری دادههای در حال انتقال استفاده میشه. محافظت از اطلاعات حساس دیتابیس ها، رمزنگاری پیامها تو اپلیکیشنهایی مثل WhatsApp، پرداخت تراکنشهای بانکی
بلاگ
@silicon_brain |از هوش مصنوعی عقب نمانید
یه تیم تحقیقاتی چینی تونستن با کامپیوترای کوانتومی شرکت D-Wave روشای رمزنگاری مثل
RSA
و AES
رو که برای محافظت از اطلاعات حساس استفاده میکنیم رو بشکنن.خبر خیلی مهمیه که باید همه توجه کنیم بهش
اینا با استفاده از تکنولوژی کوانتومی تونستن یه عدد 50 بیتی RSA رو رمزگشایی کنن یعنی این رمزنگاری ها دیگه اونقدرا امن نیستن. قبلاً میگفتن چند دهه طول میکشه تا این کامپیوترای کوانتومی قوی بشن، ولی حالا معلوم شده زودتر از اونی که فکر میکردیم ممکنه سیستمامونو به خطر بندازن.
نکته مهم اینه که هکرها حتی الان اگه نتونن اطلاعاتو رمزگشایی کنن، ممکنه الان اطلاعاتو بدزدن و بذارن برای آینده که کامپیوترای کوانتومی بتونن راحت رمزگشاییشون کنن.
به طور کلی دیگه زمان زیادی برای تعلل نیست و باید سریعتر روش های رمزگذاری جدیدی ابداع بشه تا اطلاعاتمون از دست نره!
حالا واسه اینکه بدونیم چقدر این دو روش رمزنگاری اهمیت داره کاربرداشو بدونیم:
کاربردهای RSA:
تو پیامرسانها یا ارسال ایمیلهای حساس. تأیید هویت کاربران یا سرویسها.
مثلاً امضای دیجیتال که ثابت میکنه یک پیام یا سند از طرف فرستنده اصلی ارسال شده.
کاربردهای AES:
رمزنگاری فایلها، تو پروتکلهایی مثل VPN، Wi-Fi WPA2/WPA3، و TLS که برای رمزنگاری دادههای در حال انتقال استفاده میشه. محافظت از اطلاعات حساس دیتابیس ها، رمزنگاری پیامها تو اپلیکیشنهایی مثل WhatsApp، پرداخت تراکنشهای بانکی
بلاگ
@silicon_brain |از هوش مصنوعی عقب نمانید
Forwarded from Ai Events️ (حمید محمودآبادی)
یه ایدهی خلاقانه به نام GraphRAG برای تقویت توانایی LLMها
یکی از چالشهای کلیدی در مدلهای زبانی بزرگ (LLM) استفاده از آنها برای حل مسائل فراتر از دادههای آموزش است. بهمنظور برآورده شدن این هدف، تیم تحقیقاتی مایکروسافت GraphRAG را معرفی کرده که بهعنوان یک تکنیک پیشرفته
برای بهبود عملکرد Retrieval-Augmented Generation (RAG) استفاده میشود.
ویژگیهای کلیدی GraphRAG:
ایجاد گراف دانش توسط LLM: این روش بهصورت خودکار گرافی از موجودیتها و روابط موجود در دادههای خصوصی تولید میکند.
خوشهبندی معنایی: با ایجاد ساختارهای معنایی سلسلهمراتبی، دادهها به خوشههایی معنادار تقسیمبندی میشوند که امکان پیشخلاصهسازی اطلاعات را فراهم میکند.
افزایش دقت بازیابی: با استفاده از گراف تولید شده، GraphRAG محتوای مرتبطتری را برای ورود به پنجره زمینه LLM فراهم میآورد و پاسخهای دقیقتری تولید میکند.
پشتیبانی از پرسشهای پیچیده: این تکنیک توانایی پردازش سوالاتی که نیاز به تجمیع
اطلاعات پراکنده یا تحلیل تمهای کلان دارند را افزایش میدهد.
📊 عملکرد: در یک آزمایش با دادههای خبری پیچیده، GraphRAG توانسته مفاهیم
کلیدی مانند فعالیتهای سیاسی و نظامی مرتبط با "Novorossiya" را با دقت بالا شناسایی کند. این نتایج، بهبود چشمگیری را نسبت به روشهای RAG پایه (که عملکرد آنها صرفا با استفاده از فاصله وکتور سوال و جواب است) نشان داد که معمولاً در اتصال اطلاعات پراکنده ناکام بودند.
🔗 مزایای GraphRAG:
منبعنگاری دقیق: هر پاسخ به دادههای اصلی مرتبط است و امکان تأیید صحت اطلاعات را فراهم میکند.
تحلیل کلنگر دادهها: خوشهبندی معنایی امکان شناسایی تمهای اصلی و پاسخدهی به سوالات کلیتر را بهبود میبخشد.
تطبیق با دادههای خصوصی: این روش برای دادههایی که مدلهای LLM به آنها آموزش ندیدهاند، مانند اسناد تجاری یا دادههای اختصاصی سازمانی، ایدهآل است.
مطالعهی مقاله کامل
بخوانید: RAG چیست؟
بخوانید: LLM چیست؟
@Ai_Events
یکی از چالشهای کلیدی در مدلهای زبانی بزرگ (LLM) استفاده از آنها برای حل مسائل فراتر از دادههای آموزش است. بهمنظور برآورده شدن این هدف، تیم تحقیقاتی مایکروسافت GraphRAG را معرفی کرده که بهعنوان یک تکنیک پیشرفته
برای بهبود عملکرد Retrieval-Augmented Generation (RAG) استفاده میشود.
ویژگیهای کلیدی GraphRAG:
ایجاد گراف دانش توسط LLM: این روش بهصورت خودکار گرافی از موجودیتها و روابط موجود در دادههای خصوصی تولید میکند.
خوشهبندی معنایی: با ایجاد ساختارهای معنایی سلسلهمراتبی، دادهها به خوشههایی معنادار تقسیمبندی میشوند که امکان پیشخلاصهسازی اطلاعات را فراهم میکند.
افزایش دقت بازیابی: با استفاده از گراف تولید شده، GraphRAG محتوای مرتبطتری را برای ورود به پنجره زمینه LLM فراهم میآورد و پاسخهای دقیقتری تولید میکند.
پشتیبانی از پرسشهای پیچیده: این تکنیک توانایی پردازش سوالاتی که نیاز به تجمیع
اطلاعات پراکنده یا تحلیل تمهای کلان دارند را افزایش میدهد.
📊 عملکرد: در یک آزمایش با دادههای خبری پیچیده، GraphRAG توانسته مفاهیم
کلیدی مانند فعالیتهای سیاسی و نظامی مرتبط با "Novorossiya" را با دقت بالا شناسایی کند. این نتایج، بهبود چشمگیری را نسبت به روشهای RAG پایه (که عملکرد آنها صرفا با استفاده از فاصله وکتور سوال و جواب است) نشان داد که معمولاً در اتصال اطلاعات پراکنده ناکام بودند.
🔗 مزایای GraphRAG:
منبعنگاری دقیق: هر پاسخ به دادههای اصلی مرتبط است و امکان تأیید صحت اطلاعات را فراهم میکند.
تحلیل کلنگر دادهها: خوشهبندی معنایی امکان شناسایی تمهای اصلی و پاسخدهی به سوالات کلیتر را بهبود میبخشد.
تطبیق با دادههای خصوصی: این روش برای دادههایی که مدلهای LLM به آنها آموزش ندیدهاند، مانند اسناد تجاری یا دادههای اختصاصی سازمانی، ایدهآل است.
مطالعهی مقاله کامل
بخوانید: RAG چیست؟
بخوانید: LLM چیست؟
@Ai_Events
This media is not supported in your browser
VIEW IN TELEGRAM
یادگیری ماشین در یک نگاه
رابطه بین متغیر وابسته و مستقل رو با یک معادله خطی مدلسازی میکنه.
مناسب برای مسائل دستهبندی (binary classification)
احتمال اینکه یک نمونه به یک کلاس خاص تعلق داشته باشه رو تخمین میزنه.
دادهها رو براساس مقادیر ویژگیهای ورودی به زیرمجموعهها تقسیم میکنه.
بصریسازی و تفسیرش راحته
از چندین درخت تصمیم استفاده میکنه.
با میانگینگیری از چند درخت، Overfitting رو کاهش میده
بهترین ابرصفحه برای جدا کردن کلاسهای مختلف رو پیدا میکنه.
در فضاهای با ابعاد بالا بسیار مؤثره.
همسایههای نزدیک رو میذاره توی یک خوشه. ممکنه محاسبات زیادی نیاز داشته باشه.
دادهها رو براساس شباهت ویژگیها به k خوشه تقسیم میکنه.
برای دستهبندی متن و فیلتر کردن اسپم خیلی کاربردیه.
الگوها رو توی دادهها شناسایی میکنن.
پایه یادگیری عمیق و پردازش زبان طبیعی هست.
چند مدل ضعیف رو ترکیب میکنه تا یک مدل پیشبینی قوی بسازه.
@silicon_brain|از هوش مصنوعی عقب نمانید
رگرسیون خطی
رابطه بین متغیر وابسته و مستقل رو با یک معادله خطی مدلسازی میکنه.
رگرسیون لجستیک
مناسب برای مسائل دستهبندی (binary classification)
احتمال اینکه یک نمونه به یک کلاس خاص تعلق داشته باشه رو تخمین میزنه.
درخت تصمیم
دادهها رو براساس مقادیر ویژگیهای ورودی به زیرمجموعهها تقسیم میکنه.
بصریسازی و تفسیرش راحته
Random Forest
از چندین درخت تصمیم استفاده میکنه.
با میانگینگیری از چند درخت، Overfitting رو کاهش میده
SVM
بهترین ابرصفحه برای جدا کردن کلاسهای مختلف رو پیدا میکنه.
در فضاهای با ابعاد بالا بسیار مؤثره.
نزدیکترین همسایه (k-NN)
همسایههای نزدیک رو میذاره توی یک خوشه. ممکنه محاسبات زیادی نیاز داشته باشه.
K-Means
دادهها رو براساس شباهت ویژگیها به k خوشه تقسیم میکنه.
Naive Bayes
برای دستهبندی متن و فیلتر کردن اسپم خیلی کاربردیه.
شبکههای عصبی
الگوها رو توی دادهها شناسایی میکنن.
پایه یادگیری عمیق و پردازش زبان طبیعی هست.
Gradient Boosting
چند مدل ضعیف رو ترکیب میکنه تا یک مدل پیشبینی قوی بسازه.
@silicon_brain|از هوش مصنوعی عقب نمانید
اوپنایآی تو روز اول از رویداد "12 Days of OpenAI" نسخه کامل مدل o1 رو معرفی کرد. که جایگزین نسخه پیشنمایش (Preview ) قبلی تو ChatGPT شده.
یه اشتراک جدید به اسم ChatGPT Pro معرفی کرده. ماهی 200 دلار قیمت داره و بیشتر برای کاربرهایی طراحی شده که نیاز به قدرت پردازشی بالا یا موارد استفاده پیچیده دارن.
ویژگیهای مدل o1
مدل o1 نسبت به نسخه پیشنمایش، خطاها رو 34 درصد کمتر کرده، مخصوصاً توی مسائل پیچیده دنیای واقعی. میتونه تصاویر رو پردازش کنه، مثل تحلیل نمودارها، دیاگرامها، یا عکسهای توضیحاتدار
کاربرهای Pro میتونن بدون محدودیت از مدلهای o1، GPT-4o، o1-mini، و ابزارهای پیشرفته صوتی استفاده کنن. این نسخه پیشرفتهتر، یه کانتکست ویندوی 128k داره و توی مسائل سختتر، پایداری بیشتری ارائه میده. توی بنچمارکهای فنی، 80 درصد دقت تو ریاضیات (AIME)، رتبه 75 درصدی تو کدنویسی (Codeforces)، و 74 درصد دقت توی علم (GPQA Diamond) رو به دست آورده.
وقتی تو حالت o1 Pro کار میکنید، یه نوار پیشرفت نمایش داده میشه و اگر پردازش زمانبر باشه، نوتیفیکیشن دریافت میکنید.
@silicon_brain | از هوش مصنوعی عقب نمانید
یه اشتراک جدید به اسم ChatGPT Pro معرفی کرده. ماهی 200 دلار قیمت داره و بیشتر برای کاربرهایی طراحی شده که نیاز به قدرت پردازشی بالا یا موارد استفاده پیچیده دارن.
ویژگیهای مدل o1
مدل o1 نسبت به نسخه پیشنمایش، خطاها رو 34 درصد کمتر کرده، مخصوصاً توی مسائل پیچیده دنیای واقعی. میتونه تصاویر رو پردازش کنه، مثل تحلیل نمودارها، دیاگرامها، یا عکسهای توضیحاتدار
کاربرهای Pro میتونن بدون محدودیت از مدلهای o1، GPT-4o، o1-mini، و ابزارهای پیشرفته صوتی استفاده کنن. این نسخه پیشرفتهتر، یه کانتکست ویندوی 128k داره و توی مسائل سختتر، پایداری بیشتری ارائه میده. توی بنچمارکهای فنی، 80 درصد دقت تو ریاضیات (AIME)، رتبه 75 درصدی تو کدنویسی (Codeforces)، و 74 درصد دقت توی علم (GPQA Diamond) رو به دست آورده.
وقتی تو حالت o1 Pro کار میکنید، یه نوار پیشرفت نمایش داده میشه و اگر پردازش زمانبر باشه، نوتیفیکیشن دریافت میکنید.
@silicon_brain | از هوش مصنوعی عقب نمانید
مدل Llama3.3 هم منتشر شد
70B: Experience leading performance and quality at a fraction of the cost with our latest release.
متا | هاگینگ فیس | گیتهاب
@silicon_brain | از هوش مصنوعی عقب نمانید
70B: Experience leading performance and quality at a fraction of the cost with our latest release.
متا | هاگینگ فیس | گیتهاب
@silicon_brain | از هوش مصنوعی عقب نمانید
Please open Telegram to view this post
VIEW IN TELEGRAM