Telegram Web Link
یازدهمین جشنواره فناوری اطلاعات کشور- ITWEEKEND 2025

🗓30 دی ماه 1403 ساعت 9:00 الی 17:30

📍دانشگاه صنعتی شریف ( دانشکده مهندسی کامپیوتر، سالن استاد ربیعی)
https://itweekend.sharif.ir
〰️〰️〰️〰️〰️

این کانال با هدف آگاه سازی از رویدادهای مرتبط با هوش مصنوعی نظیر همایش، کنفرانس، ورک‌شاپ و کلاس تشکیل شده است.

@eventai
3🔥2👏2👍1
Tensorflow(@CVision)
final-exam-1403-mvije3.pdf
برای این امتحان دوستان ویدیوها یا منبع دوره را خواسته بودند.
پیش نیاز این دوره مباحث ویژه 1 و 2 است که در مکتب خونه با این نامها قرار گرفته:

آموزش رایگان مقدمات هوش مصنوعی و یادگیری عمیق و آموزش رایگان هوش مصنوعی و یادگیری عمیق پیشرفته

و بخش سوم این درس هنوز تو مکتب خونه قرار نگرفته اما در آپاراتم هست:

https://www.aparat.com/v/vqc793d/


این سه درس برای مقطع کارشناسی در دانشگاه شهید رجایی ارائه شده بوده است.
11👍2🙏1
🟥 معرفی پنل های تخصصی یازدهمین جشنواره فناوری اطلاعات کشور

🟧 پنل سوم: هوش مصنوعی در کسب و کار ها

🗓 30 دی ماه 1403 ساعت 15:00 الی 16:00

📍دانشگاه صنعتی شریف ( دانشکده مهندسی کامپیوتر، سالن استاد ربیعی)

1️⃣ علیرضا اخوان‌پور، مدرس دانشگاه، مشاور هوش‌مصنوعی

2️⃣ سمیه چشمی، مدیر ارشد محصول پروژه خودرو هوشمند فناپ

3️⃣ محمد اتابکی، هم‌بنیانگذار و مدیرعامل آپتایم

4️⃣ علی نادری، بنیانگذار چت‌بات فلوچت

5️⃣ پرهام کاظمی، هم‌بنیانگذار گنجه

6️⃣ آرش سروری ( راهبر و تسهیلگر پنل)

🌐 https://itweekend.sharif.ir

🚀 @sharifit | 📷 @sharif_ict
👍4👀1
🔻OWASP Top 10 for LLM Applications 2025

مخاطرات بکارگیری AI در برنامه‌ها

genai.owasp.org/download/43299/?tmstv=1731900559

genai.owasp.org/resource/owasp-top-10-for-llm-applications-2025
👍7
مدل‌های DeepSeek-R1-Zero و DeepSeek-R1 اولین نسل از مدل‌های استدلالی هستند که برای بهبود قابلیت‌های reasoning طراحی شده‌اند. DeepSeek-R1-Zero به کمک یادگیری تقویتی در مقیاس بزرگ (RL) و بدون تنظیم دقیق نظارت‌شده (SFT) آموزش دیده است. این مدل توانسته رفتارهای جالبی مثل زنجیره تفکر (Chain-of-Thought)، خودبازبینی (Self-Verification)، و بازتاب (Reflection) را به‌صورت طبیعی یاد بگیرد. نکته مهم این است که این مدل اولین نمونه تحقیقاتی است که نشان داده فقط با استفاده از RL و بدون نیاز به SFT می‌توان قابلیت‌های reasoning مدل‌های زبانی را بهبود داد. با این حال، DeepSeek-R1-Zero مشکلاتی مثل تکرار بی‌پایان، خوانایی پایین و ترکیب غیرمنطقی زبان‌ها دارد.

برای رفع این مشکلات و ارتقای عملکرد، مدل DeepSeek-R1 توسعه داده شد. این مدل از یک فرایند آموزشی پیچیده استفاده می‌کند که شامل دو مرحله RL برای کشف الگوهای بهتر استدلال و هماهنگی با ترجیحات انسانی، و همچنین دو مرحله SFT برای بهبود قابلیت‌های مدل در استدلال و وظایف عمومی است. نتیجه این فرآیند، مدلی است که در وظایف ریاضی، کدنویسی، و استدلال عملکردی مشابه OpenAI-o1 دارد.

از طرف دیگر، تیم تحقیقاتی نشان داده که می‌توان الگوهای استدلال مدل‌های بزرگ‌تر را به مدل‌های کوچک‌تر انتقال داد (distillation) و همچنان عملکرد بالایی به دست آورد. با استفاده از داده‌های تولیدشده توسط DeepSeek-R1، چندین مدل کوچک‌تر بهینه‌سازی شده‌اند که در ارزیابی‌ها نتایج فوق‌العاده‌ای داشته‌اند. این مدل‌های کوچک‌تر، با اندازه‌های مختلف (مثل 1.5 میلیارد تا 70 میلیارد پارامتر)، به‌صورت متن‌باز در دسترس جامعه تحقیقاتی قرار گرفته‌اند. به‌طور خاص، مدل DeepSeek-R1-Distill-Qwen-32B در مقایسه با OpenAI-o1-mini در آزمون‌های مختلف عملکرد بهتری داشته و استانداردهای جدیدی برای مدل‌های dense ایجاد کرده است.


کد:
https://github.com/deepseek-ai/DeepSeek-R1

مقاله:

https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
👍203
🔥 مدل DeepSeek چالش جدید چینی برای غول‌های هوش مصنوعی 🔥
👍17
Tensorflow(@CVision)
🔥 مدل DeepSeek چالش جدید چینی برای غول‌های هوش مصنوعی 🔥
🔹 استارتاپ چینی DeepSeek با معرفی مدل هوش مصنوعی جدید خود، R1، تحولی در بازار هوش مصنوعی ایجاد کرده است. این مدل با عملکردی مشابه مدل‌های پیشرفته غربی، اما با هزینه‌ای به‌مراتب کمتر توسعه یافته است. این دستاورد باعث کاهش ۱۲ درصدی ارزش سهام انویدیا و افت ۳۸۴ میلیارد دلاری ارزش بازار آن شده است.

🔸 مدل DeepSeek-R1 با ۶۷۱ میلیارد پارامتر، از معماری «ترکیب متخصصان» (Mixture of Experts) بهره می‌برد که در آن تنها ۳۷ میلیارد پارامتر در هر پردازش فعال می‌شوند. این رویکرد منجر به کاهش قابل‌توجهی در مصرف منابع محاسباتی و افزایش کارایی مدل شده است.
این مدل با استفاده از تنها ۲,۰۰۰ واحد پردازش گرافیکی (GPU) انویدیا، مدل خود را آموزش داده است؛ در حالی که مدل‌های مشابه به حدود ۱۶,۰۰۰ GPU نیاز دارند. این کارایی بالا و هزینه پایین، نگرانی‌هایی را در مورد آینده سرمایه‌گذاری‌های شرکت‌هایی مانند مایکروسافت و گوگل در حوزه هوش مصنوعی برانگیخته است.

🔹 مدل DeepSeek-R1 با استفاده از یادگیری تقویتی (Reinforcement Learning) و بدون نیاز به تنظیمات نظارت‌شده (Supervised Fine-Tuning)، توانسته است در بنچمارک‌های مختلفی مانند AIME و MATH-500 عملکردی بهتر یا مشابه با مدل o1 از OpenAI ارائه دهد. این مدل در تست‌های ریاضی AIME امتیاز ۷۹.۸ درصد و در MATH-500 امتیاز ۹۷.۳ درصد را کسب کرده است.

GIT
Source: barrons - theverge - wikipedia
39👍111
سری Janus از تیم DeepSeek نسل جدیدی از مدل‌های هوش مصنوعی هست که برای کار با داده‌های متنوع مثل متن، تصویر و حتی ترکیب این دو طراحی شده. این مدل‌ها می‌تونن هر نوع ورودی رو بگیرن (متن، تصویر) و هر نوع خروجی تولید کنن (متن، تصویر). به خاطر همین، بهشون می‌گن مدل‌های “any-to-any” که یعنی هر چیزی رو به هر چیزی تبدیل می‌کنن!

نسخه پیشرفته‌ی این سری (Janus-Pro) که با سه تا بهبود اصلی ارائه شده:
1. استراتژی آموزشی بهینه‌شده که یادگیری مدل رو دقیق‌تر کرده.
2. اضافه شدن داده‌های بیشتر به فرایند آموزش که مدل رو باهوش‌تر کرده.
3. بزرگ‌تر شدن ابعاد مدل که باعث شده عملکردش توی درک و تولید تصویر از متن خیلی قوی‌تر بشه.

نتیجه این شده که Janus-Pro توی درک و تولید Multimodal پیشرفت‌های فوق‌العاده‌ای داشته و حتی توی تولید تصویر از متن، پایداری خیلی بالایی نشون داده.

نسخه اصلی، یعنی Janus، یه معماری جالب و هوشمندانه داره. این مدل پردازش تصویر رو از بقیه وظایف جدا کرده ولی همچنان با یه معماری یکپارچه‌ی ترانسفورمر همه چیز رو مدیریت می‌کنه. این طراحی باعث شده مدل توی هر دو بخش درک و تولید خیلی منعطف و کارآمد باشه و حتی از مدل‌های تخصصی توی این زمینه جلو بزنه.

یه مدل دیگه توی این سری JanusFlow هست که یه ایده جدید رو اجرا کرده: ترکیب ‌مدل‌های اتورگرسیو با روش پیشرفته‌ای به اسم Rectified Flow. این ترکیب، ساده و موثر انجام شده و نیاز به پیچیدگی خاصی نداره. نتیجه؟ یه مدل که هم می‌تونه تصویر تولید کنه و هم توی کارهای Multimodal عملکردش خیلی بهتر از بقیه مدل‌های موجوده.
👍42👏1
گروهی از محققان هوش مصنوعی دانشگاه کالیفرنیا، برکلی،ادعا می کنند که فناوری اصلی DeepSeek R1-Zero را با تنها 30 دلار بازسازی کردن و نشون دادن که چگونه میشه مدل های پیشرفته را با هزینه ای مقرون به صرفه پیاده سازی کرد.

 تیم DeepSeek این کارو با چندین نوآوری واقعی و چشمگیر انجام داد، که بیشترشون مربوط به افزایش کارایی مهندسی بودن. پیشرفت های خیلی خلاقانه ای توی مدیریت در بخش"Key-Value cache" و فعال کردن "MOEs" به وجود اومد که تا قبل از این توجه چندانی بهش نشده بود، هر چند که ایده mixture of experts به ۱۹۹۱ بر میگرده 
https://www.tomshardware.com/tech-industry/artificial-intelligence/ai-research-team-claims-to-reproduce-deepseek-core-technologies-for-usd30-relatively-small-r1-zero-model-has-remarkable-problem-solving-abilities

https://github.com/Jiayi-Pan/TinyZero
👍258👀21
DeepSeek

اخیرا نسخه سوم مدل خودش بنام  DeepSeek V3رو منتشر کرد  که در حال حاضر بهترین عملکرد در بین مدل ‌های متن باز در بنچ مارک های مختلف داره. به همراه این مدل، یک گزارش فنی هم منتشر شد که جزئیات آموزش مدل رو شرح میده.

نکته جالب اینجاست که این عملکرد عالی با استفاده از فقط ۲.۸ میلیون ساعت سخت ‌افزار آموزشی H800 بدست اومده که این مقدار تقریبا ده برابر کمتر از محاسبات آموزشی مدل Llama3.1 405B با عملکرد مشابه ست.

امشب در این مورد بحث خواهیم کرد و  به برخی از بهبودهای معماری مهمی که DeepSeek در گزارش خود به اونها اشاره کرده می پردازیم و اینکه چطور این بهبودها منجر به عملکرد بهتر در مقایسه با یک مدل ترانسفورمر معمولی شد.

مهم ترین نوآوری های این معماری به ترتیب:

Multi-head latent attention 

Mixture-of-experts

Auxiliary-loss-free load balancing

Multi-token prediction
 

هستند که به مرور بحث خواهیم کرد.
 
🔅Multi-head latent attention 

 مهم‌ ترین نوآوری معماری در DeepSeek برای استنتاج متن‌ های طولانی هست. این تکنیک برای اولین بار در DeepSeek نسخه ۲ معرفی شد و روشی بهتر برای کاهش اندازه KV cache در مقایسه با روش‌های معرفی شده grouped-query attention و multi-query attention هست.

ادامه دارد...
👍1771
Tensorflow(@CVision)
DeepSeek اخیرا نسخه سوم مدل خودش بنام  DeepSeek V3رو منتشر کرد  که در حال حاضر بهترین عملکرد در بین مدل ‌های متن باز در بنچ مارک های مختلف داره. به همراه این مدل، یک گزارش فنی هم منتشر شد که جزئیات آموزش مدل رو شرح میده. نکته جالب اینجاست که این عملکرد عالی…
ابتدا با یه توضیح مختصر در مورد اینکه KV cache چیه، شروع کنیم.

هنگامی که یه مدل زبانی برای تولید متوالی توکن‌ ها در زمان استنتاج استفاده میشه، باید متن(context) همه توکن‌ های قبلی رو هنگام تصمیم‌ گیری در مورد اینکه کدوم توکن رو بعدا در خروجی تولید کنه، ببینه.

راه ساده اینه هر بار که میخوایم یه توکن جدید تولید کنیم، یک محاسبات رو به جلو شامل همه توکن ‌های گذشته رو انجام بدیم، اما این کار بسیار ناکارامده چون توکن‌ های گذشته قبلا توسط مدل زبانی پردازش شدن و با اینکار فقط داریم نتایج از قبل به ‌دست‌آمده رو مجددا محاسبه میکنیم.

برای جلوگیری از این محاسبه مجدد، ذخیره حالت داخلی مرتبط برای همه توکن‌های گذشته و سپس بازیابی نتایج از یک حافظه در صورت نیاز برای توکن‌ های آینده پیشنهاد میشه.

از اونجایی که تنها راه تاثیر توکن‌ های قبلی بر توکن‌ های آینده از طریق بردارهای Key و Value آنها در مکانیسم توجه هست، ذخیره این بردارها کافی به نظر میرسه که نام Key-Value cache یا به اختصار cache KV از اینجا میاد.

ادامه دارد ...
6👍5
Tensorflow(@CVision)
ابتدا با یه توضیح مختصر در مورد اینکه KV cache چیه، شروع کنیم. هنگامی که یه مدل زبانی برای تولید متوالی توکن‌ ها در زمان استنتاج استفاده میشه، باید متن(context) همه توکن‌ های قبلی رو هنگام تصمیم‌ گیری در مورد اینکه کدوم توکن رو بعدا در خروجی تولید کنه، ببینه.…
این روش برای طول متن‌های کوتاه خوبه، اما برای متون بلند میتونه پرهزینه باشه، چون خوندن کش هزینه داره و بایستی همه بردارها رو در حافظه با پهنای باند بالا GPU ذخیره تا هنگام نیاز به هسته ‌های تنسور بارگذاری کنیم.

اگر هر توکن نیاز داشته باشه که کل متن گذشته خودش رو بدونه، به این معناست که برای هر توکنی که تولید می‌کنیم، باید کل کش KV گذشته را ازکارت گرافیک بخونیم.

این کار به ویژه در متن‌های بالای چند هزار توکن میتونه مشکل‌ ساز شه و نیاز به روش‌هایی برای کاهش اندازه کش KV را ضروری میسازه.  

محاسبه مقدار حافظه مورد نیاز برای کش KV از طریق ضرب مقادیر زیر بدست میاد:

number of layers*batch size*number of attention heads*attention head size*sequence length

به عنوان مثال در GPT3 با 175 میلیارد پارامتر اندازه کش KV با batch size 1 و sequence length
10,000 توکن حافظه مورد نیاز برابر با 43GB هست!

توضیحات بیشتر در ویدیو زیر:

https://www.youtube.com/watch?v=80bIUggRJf4

ادامه دارد...
7👍3
Tensorflow(@CVision)
این روش برای طول متن‌های کوتاه خوبه، اما برای متون بلند میتونه پرهزینه باشه، چون خوندن کش هزینه داره و بایستی همه بردارها رو در حافظه با پهنای باند بالا GPU ذخیره تا هنگام نیاز به هسته ‌های تنسور بارگذاری کنیم. اگر هر توکن نیاز داشته باشه که کل متن گذشته…
یکی از روش ‌های رایج که مدل های متن باز ازش استفاده میکنند Grouped-Query Attention و Multi-Query Attention هست که اندازه کش KV رو به طور قابل توجهی کاهش میدن.

مدل های متن باز مثل Llama 3.3 70B و Mistral Large 2 از این روش استفاده کردن و اندازه کش KV رو به شکل چشمگیری کاهش دادن.

https://arxiv.org/pdf/1911.02150

در معماری Multi-Head Attention، هر head مجموعه منحصر به فردی از بردارهای Q، K و V رو محاسبه میکنه اما در معماری Multi-Query Attention، فقط بردارهای Q برای هر head منحصر به فرده، در حالی که بردارهای Key و Value بین همه head ها به اشتراک گذاشته میشه. 

در این حالت با توجه به فرمول قبل اندازه حافظه مورد نیاز به 468MB کاهش پیدا میکنه! اما مقاله زیر نشون میده که این روش مشکلاتی رو در وظایفی مثل خلاصه سازی متون رو میتونه به همراه داشته باشه و معماری Multi-Head Attention در این وظایف بهتر عمل میکنه.

https://arxiv.org/abs/2305.13245

همونطور که میدونید مدل هایی که از معماری transformer استفاده میکنن اغلب به حافظه بیشتری نسبت به مقدار حافظه ای که در یک GPU قرار داره، نیاز دارن بنابراین به نوعی از موازی ‌سازی برای آموزش و استنتاج نیاز داریم! موازی‌ سازی تنسور(Tensor Parallelism) روشی برای موازی ‌سازی مدل‌ های بزرگ تولید متن هست.

به طور خلاصه، موازی ‌سازی تنسور با اختصاص attention head مختلف به GPUهای مختلف کار میکنه.

برای مثال، مدل ۱۷۵ میلیارد پارامتری GPT-3 دارای ۹۶ head هست. میتونیم این مدل رو روی ۸ GPU با اختصاص ۱۲ head به هر کدام موازی کنیم.

هر GPU کل محاسبات attention رو برای head اختصاص داده شده خودش انجام میده، در نهایت همه GPUها نتایج محاسبات خودشون رو مبادله میکنن.

اما در معماری Multi-Query Attention، هر attention head روی مجموعه یکسانی از بردارهای K و V عمل میکنه و این یعنی ما مجموعه یکسانی از بردارهای K و V را روی هر GPU محاسبه و کش می‌کنیم.

https://arxiv.org/abs/1910.10683

ادامه دارد...
7👍5
Tensorflow(@CVision)
یکی از روش ‌های رایج که مدل های متن باز ازش استفاده میکنند Grouped-Query Attention و Multi-Query Attention هست که اندازه کش KV رو به طور قابل توجهی کاهش میدن. مدل های متن باز مثل Llama 3.3 70B و Mistral Large 2 از این روش استفاده کردن و اندازه کش KV رو به…
روش دومی که قبلا در موردش صحبت کردیم Grouped-Query Attention هست.

در معماری Multi-Head Attention، تعداد بردارهای K و V منحصر به فرد برابر با تعداد head بود و در معماری  Multi-Query Attention، تعداد بردارهای K و V منحصر به فرد برابر با ۱ بود.

در معماری GQA، تعداد بردارهای K و V منحصر به فرد برابر با یک ابرپارامتر G است که تعداد گروه‌ها ست.

به عنوان مثال، اگر تعداد  head ۴ باشه و Gیا گروه ها برابر با 2 باشه، دو مجموعه منحصر به فرد از بردارهای K و V وجود خواهد داشت که هر کدام توسط دو head استفاده میشن.

https://arxiv.org/abs/2305.13245

این روش در مقایسه با روش قبلی، بهبود جزئی در عملکرد ارائه میده اما در واقع، هنگام کار در یک محیط چند GPU با موازی‌ سازی تنسور، میتونیم اساسا دستاورد عملکردی رو به صورت رایگان با تنظیم G برابر با تعداد GPUها به دست بیاریم همچنین مشکل کارایی پایین MQA در خلاصه سازی متون رو برطرف میکنه.

در این روش با توجه به مقدار قبل و فرض داشتن 8 گروه مقدار حافظه مورد نیاز در GPT3 برابر با 3.6GB میشه.

ادامه دارد....
9👍6👏1
Tensorflow(@CVision)
روش دومی که قبلا در موردش صحبت کردیم Grouped-Query Attention هست. در معماری Multi-Head Attention، تعداد بردارهای K و V منحصر به فرد برابر با تعداد head بود و در معماری  Multi-Query Attention، تعداد بردارهای K و V منحصر به فرد برابر با ۱ بود. در معماری GQA،…
مشکل اصلی روش‌هایی قبلی اینه که برای کم کردن حجم کش KV، مجبوریم کیفیت مدل رو پایین بیاریم، یعنی یه جورایی معامله می‌کنیم: حافظه کمتر، کیفیت کمتر در عوض مدل بزرگتر!

اما DeepSeek مدلی رو پیشنهاد میده که حجم کش KV رو کم کنه بدون اینکه کیفیت مدل کم شه.

به عبارت دیگه، تونستن هم حافظه رو کم کنن و هم کیفیت رو حفظ کنن و هم اندازه مدل رو بزرگ کنن که خیلی مهمه!

روش Multi-head latent attention با ترکیب فاکتورگیری رتبه پایین(Low-Rank Factorization
) و بردارهای پنهان، هم حجم حافظه را کاهش میده و هم عملکرد مدل رو حفظ میکنه.

فاکتورگیری رتبه پایین یعنی یه ماتریس بزرگ رو به دو تا ماتریس کوچک ‌تر تبدیل می‌کنیم. این کار تعداد پارامترها رو کم می‌کنه. البته، یه سری معایب هم داره مثل اینکه محاسبات بیشتر می شه و ممکنه یه مقدار از اطلاعات ماتریس اصلی رو از دست بدیم. 

در واقع، یه جورایی داره حافظه رو با محاسبات "معاوضه" می ‌کنه. این روش برای مواردی که محدودیت اصلی حافظه هست مثل fine-tuning و کاهش کش KV خیلی مفیده.

هدف اینجا هم اینه که تا جایی که ممکنه عملکرد مدل حفظ بشه و در عین حال حجم کش KV هم کم شه.

دلیل موثر بودن این روش، همپوشانی اطلاعات بین attention head های مختلفه. attention head های مختلف به اطلاعات مشابهی نیاز دارن. روش‌های دیگه مثل GQA هم از این همپوشانی استفاده می‌ کنن، اما به شکل ناکارآمد. 

اونها head هایی که با هم گروه‌ بندی شدن رو مجبور می کنن که به پرسش‌ ها جواب‌های مشابهی بدن، که کارآمد نیست. اما روش DeepSeek این مشکل رو نداره و اجازه میده که headهای مختلف از یه اطلاعات یکسان به روش‌های خیلی متفاوت استفاده کنن.

اگر علاقه مندید توضیحات جامع تر به همراه نمایش بصری رو در لینک زیر مشاهده کنید:

https://planetbanatt.net/articles/mla.html
 
👍168
OAI
 نسخه‌ی o3-Mini را منتشر کرد و با این اقدام هوش مصنوعی با استدلال هوشمندتر، سریع‌تر و ارزان‌تر را در اختیار کاربران قرار می‌دهد.

همه کاربران می‌توانند از طریق دکمه‌ی جدید «Reason» از آن استفاده کنند

https://openai.com/index/openai-o3-mini
👍94
2025/07/10 15:20:35
Back to Top
HTML Embed Code: