Tensorflow(@CVision) 3890

Forwarded from کلاس ویژن: یادگیری عمیق و بینایی کامپیوتر

📢 اطلاعیه مهم

دوستان و همراهان عزیز، سلام 🌹

به اطلاع می‌رسانیم به دلیل یکسان‌سازی قیمت دوره‌های مشترک در پلتفرم‌های آموزشی مختلف (نظیر مکتب خونه) و همچنین تغییرات قیمت در بازار، ناگزیر به افزایش 30 درصدی قیمت برخی از دوره‌ها روی سایت کلاس ویژن شده‌ایم.

🎁 خبر خوب:
برای اینکه شما عزیزان بتوانید با همان قیمت‌های قبلی از دوره‌ها استفاده کنید، تا تاریخ 25 بهمن ماه، تخفیف ویژه‌ای در نظر گرفته‌ایم و می‌توانید دوره‌ها را با قیمت قبلی از سایت کلاس ویژن تهیه نمایید. موقتا قیمت قبلی در قالب تخفیف فرصت ویژه روی دوره ها اعمال شده است.

⏰ فرصت محدود است!
پیشنهاد می‌کنیم اگر قصد تهیه دوره‌ها را دارید، از این فرصت استثنایی استفاده کنید.

با تشکر از همراهی شما
#کلاس_ویژن

👍4🤔4

3.55K views04:03

Tensorflow(@CVision)

اوپن ای آی deep research را معرفی کرد. این حالت به کاربران این امکان رو میده تا "تحقیقات چند مرحله‌ای در اینترنت برای وظایف پیچیده" انجام بدن.

این گامی دیگر به سوی تحقق وعده صنعت هوش مصنوعی ست که AI Agents به زودی قادر به انجام وظایف انسانی به طور قابل اعتماد، کارآمد و مستقل خواهند بود. این ویژگی برای افرادی که کارهای دانش‌محور فشرده در زمینه‌هایی مانند مالی، علم، سیاست و مهندسی انجام می‌دهند و به تحقیقات کامل، دقیق و قابل اعتماد نیاز دارند، ساخته شده.

حالت Deep research، یک مقاله تحقیقاتی جامع و کاملا مستند به کاربر ارائه می‌ده، چیزی که اساسا یک تحلیلگر یا یک متخصص در یک زمینه ممکن است برای شما تهیه کنه.

https://openai.com/index/introducing-deep-research/

Openai

Introducing deep research

An agent that uses reasoning to synthesize large amounts of online information and complete multi-step research tasks for you. Available to Pro users today, Plus and Team next.

❤8👍6

5.79K viewsAlister☄️, edited 14:33

Tensorflow(@CVision)

یک نکته‌ی بسیار برجسته در Deep Research، تفاوت چشمگیر بین زمان صرف‌ شده برای انجام کار در مقایسه با انسان بود. طبق تخمین‌های برخی از کارکنان OpenAI، به نظر می‌رسه که این تفاوت در حال حاضر تقریبا ۱۵ برابره. اهمیت این موضوع از اونجاست که به پرسشی بزرگ در مورد خودکارسازی وظایف شناختی پاسخ میده و اون سوال اینه که چه زمانی هزینه‌ی انجام کار توسط هوش مصنوعی برابر یا ارزان‌ تر از پرداخت به انسان خواهد بود؟

چند ماه پیش که نتایج o3 منتشر شد هنگامی که به هزینه‌های اجرای o3 روی ARC AGI نگاه می‌ کردیم، به نظر می‌رسید که هنوز چندین مرتبه از این نقطه فاصله داریم، اما به نظر Deep Research داره نشون میده که ما بسیار نزدیک‌ تر از آنچه ابتدا به نظر می‌رسید، هستیم. این حالت به زودی برای کاربران حرفه‌ای با ۱۰۰ پرسش در ماه در دسترس خواهد بود، بنابراین در حال حاضر ما با حدود ۲ دلار برای چندین ساعت کار روبرو هستیم، که از همین حالا یک مرتبه ارزان‌تر از انسان، در این مورد خاصه.

اگر مدل‌های اپراتور پیشرفته‌ تری رو تصور کنیم که بتونن تمام وظایف یک شغل اداری با مهارت پایین‌تر رو انجام بدن، اما ۳ هفته کار رو در یک روز کاری کامل کنند، تصور اینکه چگونه هزینه نیروی کار به سرعت نزدیک به صفر بشه، دور از ذهن نیست

👍10❤2

5.61K viewsAlister☄️, edited 14:34

Tensorflow(@CVision)

0:23

This media is not supported in your browser

VIEW IN TELEGRAM

محققان چینی مدل OmniHuman را منتشر کردند.
این مدل می‌تواند ویدیوهای واقع‌گرایانه از انسان‌ها را در هر نسبت ابعاد و اندازه‌ی بدن، تنها با استفاده از یک تصویر و صدا ایجاد کند.

این مدل به‌طور چشمگیری مدیریت حرکات و ژست‌ها را بهبود می‌بخشد، که چالشی برای روش‌های موجود محسوب می‌شود، و نتایج بسیار واقع‌گرایانه‌ای تولید می‌کند.

https://omnihuman-lab.github.io/

👍22🤯19😱2

4.15K viewsAlister☄️, 15:30

Tensorflow(@CVision)

۲۴ ساعت بعد، نسخه متن باز Deep Research توسط hugging face منتشر شد.

DeepResearch
از دو بخش اصلی تشکیل شده است:

یک مدل زبانی بزرگ: این مدل می‌تونه از لیست مدل‌های زبانی بزرگی که توسط OpenAI ارائه می‌شه (مثل 4o، o1، o3 و غیره) انتخاب شه. به عبارتی، هسته اصلی DeepResearch یک LLM هست که وظیفه‌ی پردازش زبان طبیعی و تولید متن رو بر عهده داره.

دوم "Agentic Framework" : این فریمورک، مدل زبانی رو در استفاده از ابزارهایی مانند جستجوی وب و سازماندهی اقدامات خودش به صورت گام به گام راهنمایی می‌کنه. این بخش، DeepResearch رو قادر می‌سازه تا به طور هوشمندانه‌ تر و مؤثرتر عمل کنه. به جای اینکه فقط به مدل زبانی برای تولید متن تکیه کنه، این فریم ورک بهش کمک می‌کنه تا با دنیای خارج تعامل داشته باشه (از طریق جستجوی وب) و وظایف پیچیده رو به مراحل کوچکتر و قابل مدیریت تقسیم کنه

نکته قابل توجه عملکرد نسخه متن باز با کسب امتیاز 54% در مجموعه داده مشابه، در مقایسه با امتیاز 67% مدل اصلی توسط OpenAI هست.

https://huggingface.co/blog/open-deep-research

huggingface.co

Open-source DeepResearch – Freeing our search agents

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍16❤5

4.26K viewsAlister☄️, edited 02:20

Tensorflow(@CVision)

2:34

This media is not supported in your browser

VIEW IN TELEGRAM

🔥

🔥7🤯5

3.52K viewsAlister☄️, 03:53

Tensorflow(@CVision)

دیپ سیک یک مدل ۱۶ میلیارد پارامتری MOE با نام DeepSeek-VL2 Small برای وظایف مختلف تولید متن منتشر کرد.

دموی مدل در huggingface :

https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small

huggingface.co

Chat with DeepSeek-VL2-small - a Hugging Face Space by deepseek-ai

This application allows users to input text and images to generate detailed responses. Users can upload one or more images and provide a text prompt, and the application will generate a correspondi...

🔥8👍3

3.74K viewsAlister☄️, 03:55

Tensorflow(@CVision)

0:39

This media is not supported in your browser

VIEW IN TELEGRAM

مدل ترجمه همزمان گفتار به گفتار Hibiki، صحبت‌های شما رو از فرانسه به انگلیسی به صورت زنده ترجمه می‌کنه.

این مدل نه تنها متن ترجمه شده رو نشون میده، بلکه اون رو با صدای خودتون و با همان سرعت و لحن بیان می‌کنه.

Hibiki
در مقایسه با سیستم‌ های مشابه قبلی، ترجمه‌ های دقیق‌ تر، طبیعی‌ تر و با صدای شبیه‌ تر به صدای شما ارائه می‌ده و تقریبا به خوبی یک مترجم انسانی عمل می‌کنه.

مقاله :

https://arxiv.org/abs/2502.03382

کد:

https://github.com/kyutai-labs/hibiki

👍11

3.99K viewsAlister☄️, edited 15:10

Tensorflow(@CVision)

مشکل اصلی روش‌هایی قبلی اینه که برای کم کردن حجم کش KV، مجبوریم کیفیت مدل رو پایین بیاریم، یعنی یه جورایی معامله می‌کنیم: حافظه کمتر، کیفیت کمتر در عوض مدل بزرگتر! اما DeepSeek مدلی رو پیشنهاد میده که حجم کش KV رو کم کنه بدون اینکه کیفیت مدل کم شه. به عبارت…

بحث قبلی رو امشب ادامه بدیم.

دیشب لکس فریدمن یه گفتگو در مورد روش آموزش Deepseek داشت و نکات جالبی رد بدل شد که به صورت خلاصه بخش های مهمش رو مینویسم، علاقه مند بودید میتونید این گفتگو رو توی لینک زیر دنبال کنید.

موضوع بحث بیشتر در مورد این بود که چطور این شرکت تونسته با وجود محدودیت در منابع سخت‌افزاری، مدل‌های زبانی بزرگ و قدرتمندی رو آموزش بده.

خوب تیم DeepSeek برای این کار، از چند تا ترفند و نوآوری جالب استفاده کردن.
این تیم با استفاده از ترکیبی از نوآوری‌ها مثل MoE با پراکندگی بالا و Auxiliary Loss و بهینه‌ سازی‌های سطح پایین مثل کتابخانه NCCL اختصاصی و دستورالعمل‌هایPTX، نشون دادن که حتی با منابع محدود هم میشه مدل‌های زبانی بزرگ و قدرتمندی رو آموزش داد.

این موضوع نشون میده که همیشه لازم نیست بهترین و گرون ‌ترین سخت‌ افزار رو داشته باشیم، بلکه با خلاقیت میشه کارهای بزرگی انجام داد.

https://www.youtube.com/watch?v=aAfanTeRn84

ادامه دارد...

YouTube

DeepSeek's GPU optimization tricks | Lex Fridman Podcast

Lex Fridman Podcast full episode: https://www.youtube.com/watch?v=_1f-o0nqpEI
Thank you for listening ❤ Check out our sponsors: https://lexfridman.com/sponsors/cv8472-sb
See below for guest bio, links, and to give feedback, submit questions, contact Lex,…

👍7

3.03K viewsAlister☄️, 16:49

Tensorflow(@CVision)

اول معماری Mixture of Experts (MoE) با پراکندگی (Sparsity) بالا:

یادآوری MoE: مثل اینه که یک تیم بزرگ از خبرگان داشته باشیم. هر کدوم از این خبرگان در یک زمینه خاص مهارت دارن.

وقتی یک سوال یا وظیفه جدید به این تیم داده می‌ شه، فقط چند تا از متخصص ‌هایی که بیشترین ارتباط رو با اون سوال دارن، فعال می‌ شن و بقیه در حالت استراحت باقی می ‌مونن.

این کار باعث می‌ شه که بتونیم مدل‌ های خیلی بزرگ و پیچیده‌ای رو بسازیم، بدون اینکه نیاز باشه همه‌ ی بخش‌های مدل همیشه فعال باشن.

بلاگ زیر به صورت فنی-بصری ترکیب خبرگان در مدل های زبانی رو به تفضیل و به بهترین شکل ممکن توضیح میده:

https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mixture-of-experts

حالا سوال اینجاست که نوآوری DeepSeek کجاست و چیکار کرده، چون گوگل چند سال پیش در حال توسعه‌ مجموعه‌ ای از مدل ‌ها بود، که با Switch Transformer در سال ۲۰۲۱ شروع شد.

در واقع تیم DeepSeek اومدن تعداد خبرگان رو خیلی زیاد کردن (۲۵۶ تا)، اما در عین حال، تعداد خبرگانی که برای هر وظیفه فعال می ‌شن رو خیلی کم نگه داشتن (فقط ۸ تا).

به این میگن "پراکندگی بالا High Sparsity" یعنی از بین اون همه متخصص، فقط تعداد خیلی کمی فعال میشن.

این خیلی با مدل‌ های دیگه فرق داره، در مدل‌های دیگه، معمولاً از بین ۸ تا متخصص، ۲ تاشون فعال میشن اگه اشتباه نکنم توی مدل متن باز mixtral 8x7b این کار انجام شد اماDeepSeek اومده این نسبت رو خیلی تغییر داده.

اما چرا این کار رو کردن؟ خوب این کار چند تا فایده داره:

✅ اول این کار باعث افزایش ظرفیت مدل میشه. با داشتن تعداد خیلی زیاد متخصص، مدل میتونه اطلاعات و دانش خیلی بیشتری رو در خودش ذخیره کنه.

✅ مزیت دوم کاهش محاسبات هست، چون فقط تعداد کمی از خبرگان فعال میشن، حجم محاسباتی که برای هر وظیفه انجام میشه، خیلی کمتره. این به DeepSeek کمک میکنه که بتونه با سخت ‌افزار محدودتر، مدل‌ های بزرگتری رو آموزش بده.

ادامه دارد...

Maartengrootendorst

A Visual Guide to Mixture of Experts (MoE)

Demystifying the role of MoE in Large Language Models

👍12

2.93K viewsAlister☄️, 16:56

Tensorflow(@CVision)

اول معماری Mixture of Experts (MoE) با پراکندگی (Sparsity) بالا: یادآوری MoE: مثل اینه که یک تیم بزرگ از خبرگان داشته باشیم. هر کدوم از این خبرگان در یک زمینه خاص مهارت دارن. وقتی یک سوال یا وظیفه جدید به این تیم داده می‌ شه، فقط چند تا از متخصص ‌هایی که…

بخش دوم به چالش پراکندگی بالا و راه‌حلAuxiliary Loss اختصاص داره:

مشکل پراکندگی بالا: خب، هر چیزی یک خوبی ‌هایی داره و یک بدی ‌هایی. خوبی پراکندگی بالا رو گفتیم. اما مشکلش چیه؟ مشکل اینه که وقتی فقط تعداد کمی از خبرگان برای هر وظیفه فعال می ‌شن، ممکنه بعضی از خبرگان اصلا فرصت یادگیری پیدا نکنن.

یعنی همیشه در حالت استراحت بمونن و هیچ‌ وقت فعال نشن. این باعث میشه که توانایی مدل به صورت چشمگیری کاهش پیدا کنه، چون ازهمه‌ ظرفیتش استفاده نمی ‌شه.

راه‌ حل معرفی Auxiliary Loss هست:

جریمه برای چی؟ این جریمه برای اینه که اگه بعضی از خبرگان برای مدت طولانی فعال نشن، مدل جریمه می‌ شه. این جریمه باعث می‌ شه که مدل مجبور شه همه‌ ی خبرگان رو در طول آموزش فعال کنه و از همه ‌شون استفاده کنه.نتیجه این کار باعث می‌شه که همه ‌ی خبرگان به خوبی آموزش ببینن و مدل قوی ‌تر بشه.(در قالب پارامتر گاما)

و بخش سوم به بهینه‌ سازی‌های سطح پایین اختصاص داره:

DeepSeek
فقط به MoE و Auxiliary Loss اکتفا نکرده. اون‌ها رفتن سراغ بهینه ‌سازی ‌های خیلی سطح پایین ‌تر!

✅اول استفاده از کتابخانه ارتباطی NCCL اختصاصی هست.

اول اومدن نسخه اختصاصی خودشون از کتابخانه ارتباطی NCCL انویدیا رو پیاده‌سازی کردن.این کتابخانه مسئول ارتباط بین GPUهاست. وقتی GPUها بخوان با هم اطلاعات رد و بدل کنن، از این کتابخانه استفاده می‌کنن DeepSeek با ساختن نسخه اختصاصی خودش، تونسته این ارتباط رو خیلی بهینه ‌تر کنه.

✅دوم استفاده از دستورالعمل‌های PTX:

این تیم از دستورالعمل‌های PTX (Parallel Thread Execution) که یک زبان میانی بین کد CUDA و سخت‌افزار GPU هست، برای مدیریت نحوه زمان‌بندی SMها (Streaming Multiprocessors) در GPU استفاده کردن. این کار به اونها اجازه داد تا کنترل دقیق‌تری بر روی نحوه اجرای محاسبات در GPU داشته باشند و عملکرد رو بهبود ببخشن.

این بهینه‌سازی‌های سطح پایین باعث شدن که مدل‌های DeepSeek بتونن با سخت‌افزار محدودشون، عملکرد خیلی بالایی داشته باشن. یعنی با اینکه GPUهای کمتری نسبت به رقبای خودشون داشتن، تونستن نتایج خیلی خوبی بگیرن.

👏8👍3

3.75K viewsAlister☄️, 17:11

Tensorflow(@CVision)

Deep Dive into LLMs like Chatgpt ,Andrej Karpathy

YouTube

Deep Dive into LLMs like ChatGPT

This is a general audience deep dive into the Large Language Model (LLM) AI technology that powers ChatGPT and related products. It is covers the full training stack of how the models are developed, along with mental models of how to think about their "psychology"…

👍8🙏3❤1

3.7K viewsedited 17:56

Tensorflow(@CVision)

این مقاله که توسط محققین استفورد با بودجه ۶ دلار آموزش داده شده یک روش ساده Test-Time Scaling رو معرفی می‌کنه که به مدل‌های زبانی کمک می‌کنه هنگام آزمایش (Test) استدلال بهتری داشته باشن. محققان یک تکنیک ساده برای این کار معرفی کردن که Budget Forcing نام داره. این تکنیک در واقع مشخص می‌کنه مدل قبل از ارائه‌ پاسخ، چقدر محاسبات انجام بده.

شاید اولین بار مدل o1 بود که نشون داد که میشه بدون تغییر مدل، فقط با افزایش میزان محاسبات در زمان آزمایش (Test)، دقت و توانایی استدلال مدل رو بالا برد اما خوب جزییات زیادی از روش آموزش این مدل منتشر نشد.

در حالت عادی، یک مدل ممکنه خیلی زود تصمیم بگیره که پاسخ نهایی رو ارائه بده، حتی اگر بتونه با تفکر بیشتر، پاسخ بهتری پیدا کنه. برای حل این مشکل، توی این مقاله از تکنیک بسیار ساده ای به نام Budget Forcing استفاده میشه که مدل رو مجبور می‌کنه بیشتر فکر کنه. در این روش، اگر مدل خیلی زود تصمیم به توقف بگیره، به‌جای توقف، به‌طور خودکار یک کلمه‌ ی "Wait" به خروجی خود اضافه می‌کنه. این کار باعث می‌شه مدل فرایند استدلال خودش رو ادامه بده و در نتیجه دقت پاسخ‌ها افزایش پیدا کنه.

برخلاف مدل‌های رایج که روی مجموعه داده‌های بسیار بزرگ آموزش می‌ بینن، محققان در این پژوهش از یک مدل با ۳۲ میلیارد پارامتر استفاده کردن که فقط با ۱۰۰۰ نمونه‌ی خاص از مسائل استدلالی آموزش دیده اما با این حال، مدل تونسته در برخی آزمایش‌ها عملکردی بهتر از مدل o1-preview داشته باشه.

وقتی مدل مجبور شد زمان بیشتری برای فکر کردن صرف کنه، تونست مسائل پیچیده‌تر ریاضی و علمی رو با دقت بیشتری حل کنه. این موضوع نشون میده که بسیاری از مدل‌های زبانی فعلی می‌تونن با همین سخت‌افزار و معماری، اما با روش‌های بهینه‌سازی مثل Test-Time Scaling، عملکرد بهتری داشته باشن.

https://arxiv.org/abs/2501.19393

arXiv.org

s1: Simple test-time scaling

Test-time scaling is a promising new approach to language modeling that uses extra test-time compute to improve performance. Recently, OpenAI's o1 model showed this capability but did not publicly...

👍20❤3

4.36K viewsAlister☄️, 19:00

Tensorflow(@CVision)

Forwarded from Ai Events️ (حمید محمودآبادی)

ارائه‌ی دکتر مهدیه سلیمانی (استاد گروه هوش مصنوعی دانشگاه شریف) در مورد مقاله DeepSeek R1 و تفاوت رویکرد آن در استفاده از RL برای جستجو

مشاهده در یوتیوب

مشاهده در آپارات

@Ai_Events

👍14👏4❤3

3.25K viewsHamid Mahmoodabadi, 17:59

Tensorflow(@CVision)

This media is not supported in your browser

VIEW IN TELEGRAM

FineTuning SAM2 for Leaf Disease Segmentation

https://learnopencv.com/finetuning-sam2/

👍7

3.54K viewsedited 18:18

Tensorflow(@CVision)

مدل‌های استدلالی (reasoning) چیست و چگونه ساخته می‌شوند؟

حتما این روزها بارها مدل‌های استدلالی مثل DeepSeek R1 به گوش و چشمتون خورده. اگر هنوز دقیق نمی‌دونید این مدلها معنیشون چیه و کجا به درد میخورند، بیاید که دواتون پیش آقای سباستین راشکا (نویسنده کتاب Build a Large Language Model From Scratch) هست. ایشون یه بلاگ مشتی راجع به مدل‌های استدلالی (همون reasoning) نوشته و مثل همیشه خیلی خوب داستان را شفاف کرده. این را داشته باشید تا منابع بعدی.

مواردی که در این بلاگ توضیح میده:
- تعریف مدل استدلالی چیه؟
- کجا باید از این مدل‌ها استفاده کنیم؟
- پایپلاین پشت R1 چیه؟
- چهار روش اصلی برای ساختن و بهبود مدلهای استدلالی چیه؟
- نکاتی پیرامون مدل R1
- نکاتی برای توسعه مدل‌های استدلالی با بودجه بسیار کم (حتی به اندازه دانشگاه‌های ایران کم ☺️)

اول میگه استدلال (reasoning) واسه وقتیه که سوالی را حل کنیم که نیاز به راه‌حل پیچیده و چندمرحله‌ای داره. مثلا پایتخت فرانسه کجاست اینجوری نیست ولی مثلا حل یه سوال فیزیک و ریاضی یا سوال acmای اینجوریه.

بعد میاد میگه سه جا خوب نیست اصلا از این مدل‌ها استفاده کنیم:
- وقتی ما نیاز به سرعت و قیمت پایین داریم
- وقتی سوال‌های دانشی (knowledge based) مثل همین پایتخت داریم چون این مدل‌ها دچار هذیان‌گویی میشن
- سوالات ساده چون این مدل‌ها مثل اکثر ما overthink میکنند

در ادامه میاد پایپلاین R1 را به شکل بسیار روان و ساده‌ای توضیح میده. عکس ضمیمه یک کلیتی از این پایپلاینه. میگه deepseek سه تا مدل داده: DeepSeek-R1-Zero، DeepSeek-R1 و DeepSeek-R1-Distill.
اول. با مدل DeepSeek-V3 که سپتامبر بیرون دادن، با یک RL cold start (بدون SFT) شبیه همون RLHF با دو تا reward (یکی دقت و دومی فرمت به جای ترجیح آدمیزاد) آموزش میده؛ و مدل DeepSeek-R1-Zero را درست میکنه. بعد از همین مدل میاد یه داده SFT بزرگ درست میکنه. ریوارد دقت میاد از leetcode استفاده میکنه که نتیجه کد را مستقیما اجرا کنه و بگه!! فرمت هم میاد از یه سری تگ استفاده میکنه که دقیقا با همون فرمت جواب بده.
دوم. بعد دوباره همون مدل زبانی اولیه سپتامبری DeepSeek-V3 را با همین دیتا SFT که در مرحله قبل ساخته شده بود یه بار فاین تیون میکنه و دوباره همون RL رو میزنه. این بار ولی بهش consistency هم اضافه میکنه که مدل سر چند زبانه بودن پنالتی نزنه. از همین مدل دو تا دیتاست SFT میسازه که یکیش با اندازه ۶۰۰ هزارتا chaing of thoughts داره و دیگری با اندازه ۲۰۰هزارتا knowldegeای هستش. بعد میاد یه RL دیگه هم میزنه که دیتاش کد و ریاضی هست. اینجا مدل DeepSeek R1 معروف ساخته میشه.
سوم. از اون دوتا دیتای SFT هم برای آموزش مدل‌های distill استفاده میکنه. البته اینجا distill مثل اون معروفه نیست، اینجا وقتی دیتای sft رو یه مدل قوی درست میکنه و مدل کوچیک (نیم الی ۷۰ میلیاردی) باهاش فاین تیون میشه، بهش میگن distillation.

خلاصه چهار تا روش برای تولید مدل استدلالی میگه:
- روش inference-time scaling: که از پرامپت و اینا استفاده میشه. منابع بیشتری لازمه. گرونتر هم درمیاد چون خیلی حرف میزنه.
- روش RL خالص مثل DeepSeek-R1-Zero
- روش SFT + RL مثل DeepSeek-R1
- روش SFT خالص با distillation: مثل DeepSeek-R1-Distill-Qwen
برای هر کدوم میزان کارایی رو توضیح میده و نهایتا میگه حالت سوم بهترین نتیجه رو میده ولی موارد دیگه هم چیزای جالبی بهمون یاد میده مثل اینکه RL خالی هم به استدلال مدل خیلی کمک میکنه.

در این بلاگ حدس‌های خوبی هم راجع به اینکه O1 و mini-O1 هم چطور آموزش داده شدند میگه که O1 ترکیب سوم و اولیه و o1-mini روش چهارم هست.

در نهایت هم میاد نظراتش رو راجع به R1 vs O1 میگه: در کل شبیه هم هستند ولی R1 بهینه‌تر و ارزانتره که دلیلش رو این میدونه که دیپ‌سیک بیشتر روی آموزش مدل وقت گذاشته ولی o1 روی inference-time رفته. و چون ما اندازه مدل o1 رو نمیدونیم خیلی مقایسه منصفانه‌ای نخواهیم داشت. درباره‌ی هزینه هم میگه این ۶ میلیون دلار که معروف شده ترکیب DeepSeek-R1 (همون سپتامبریه که پایه‌ی R1 هست) و R1 هستش ولی هزینه R1 رو دیپ‌سیک مشخص نکرده.

برای موضوع آخر هم میگه کسایی که پول کم هم دارند خوبه برن سراغ Distillation: به لطف مقاله مفصلی که برای R1 نوشتند مشخص شد که این روش هم خیلی موثره. مثلا میگه مقاله‌ای اومده یه مدل به نام Sky-T1 منتشر کرده که با ۴۵۰ دلار (۴۰ تومن) مدل ۳۲ میلیاردی را با ۱۷ هزارتا دیتای sft یه فاین تیون هدفمند کرده و در مواردی شبیه o1 عمل کرده!! موارد مهمی هم ادامش راجع به Journey Learning میگه که دیگه توی پست جا نمیشه :))

لینک پست:
https://sebastianraschka.com/blog/2025/understanding-reasoning-llms.html

#read
#blog

🙏Thanks to: @nlp_stuff

stuff

❤14👍7

4.21K views18:19

Tensorflow(@CVision)

0:19

This media is not supported in your browser

VIEW IN TELEGRAM

Pikadditions
توسط Pika معرفی شده و امکان Video Inpainting رو فراهم می‌کنه!

این قابلیت به شما اجازه می‌ده تا اشیاء، حیوانات یا افراد رو به ویدیوهای موجود اضافه کنید. این ویژگی از هوش مصنوعی استفاده می‌کنه تا این عناصر رو به‌طور یکپارچه و طبیعی در فیلم یا ویدیوهای دنیای واقعی ادغام کنه

https://pikalabsai.org/pikadditions/

👌14👍5

4.03K viewsAlister☄️, 13:03

Tensorflow(@CVision)

https://class.vision/blog/best-large-language-models

کلاس‌ویژن

25 مدل برتر زبانی بزرگ در سال 2025 - کلاس‌ویژن

مدل‌های زبانی بزرگ سال‌هاست که بر جستجو تأثیر گذاشته‌اند و با ChatGPT و سایر چت‌بات‌ها به خط مقدم آمده‌اند.

👍6

3.21K views08:27

Tensorflow(@CVision)

این مقاله به یک مشکل اصلی در روش‌ های زنجیره افکار (CoT) که در مدل‌های زبانی و چند رسانه‌ای بزرگ استفاده میشه، می‌پردازه.

مشکل اینه که این روش‌ها تنها به نمایش افکار به صورت متنی تکیه دارن، که در مسائل پیچیده‌ی استدلال فضایی کافی نیست. در این مقاله یه گروه از محققین Microsoft Research با الهام از فرآیند فکر کردن انسان که به طور طبیعی از ترکیب افکار کلامی و تصویری بهره می‌بره، یه روش جدید به نام MVoT (Multimodal Visualization-of-Though) رو پیشنهاد دادن.

این روش با ایجاد امکان تفکر همزمان بصری و کلامی، دقت استدلال مدل رو افزایش میده و همچنین با نشون دادن مراحل میانی استدلال تصویری، قابلیت توضیح‌ پذیری مدل رو بهبود می‌ بخشه.

مفاهیمی که میشه تنها با کلمات به خوبی پردازش کرد، محدود هستن، اما مقاله هایی از این دست که استدلالی ترکیبی شامل افکار متنی (کلامی) و افکار تصویری (بومی) رو ایجاد میکنن، می‌تونن ما رو به AGI نزدیک و نزدیک تر کنن.

به قول معروف

one picture is worth a 1000 words

https://arxiv.org/pdf/2501.07542

👌11👍1🤩1

3.93K viewsAlister☄️, 13:15

Tensorflow(@CVision)

هاگینگ فیس دوره ای تحت عنوان AI Agents برگزار می‌کنه.

این دوره به بررسی مفاهیم، طراحی، و پیاده‌سازی Agents هوش مصنوعی می‌ پردازه که شما با اصول اولیه، نحوه‌ی استفاده از کتابخانه‌های مطرح مانند smolagents، LangChain و LlamaIndex آشنا میشین، همچنین در طول دوره با پروژه‌های کاربردی رو به‌ رو میشین و در نهایت میتونید Agent شخصی ساز خودتون رو بسازید.

دوره به‌ طور رسمی با یک جلسه پرسش و پاسخ زنده (Live Q&A) آغاز میشه که روز چهارشنبه ۱۲ فوریه، ساعت ۵ بعد از ظهر به وقت CET برگزار میشه. در این جلسه نحوه‌ ی اجرای دوره، مباحث، واحدها، چالش‌ها و سایر موارد توضیح داده میشه.

پیش نیازها:

دانش ابتدایی زبان برنامه‌نویسی Python

آشنایی مقدماتی با LLms

داشتن یک حساب کاربری در Hugging Face (برای استفاده از مدل‌ها، Agents و ایجاد Spaces)

http://hf.co/learn/agents-course

huggingface.co

Welcome to the 🤗 AI Agents Course - Hugging Face Agents Course

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

❤‍🔥18👍7👌1

6.97K viewsAlister☄️, edited 17:23

2025/07/09 18:59:49
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>