Telegram Web Link
Tensorflow(@CVision)
سم آلتمن قبلا هم به این موضع اشاره کرده بود که OpenAI به لحاظ حاشیه سود در مضیقه قرار داره جا داره یه نگاه به مدل درآمدی deepseek بندازیم! بیایم عملکرد و هزینه‌های سرویس استنتاج مدل‌های DeepSeek-V3 و R1 مورد بررسی قرار بدیم، تحلیلی شامل بررسی سخت‌افزار، بهره‌وری،…
بازه ۲۴ ساعت رو در نظر بگیریم:

بیشترین تعداد نود مشغول: ۲۷۸ نود (هر نود دارای ۸ کارت H800 هست)

میانگین استفاده از نودها: ۲۲۶.۷۵ نود در هر لحظه

هزینه اجاره سخت‌افزار: با فرض ۲ دلار در ساعت برای هر GPU، هزینه کل برابر با ۸۷,۰۷۲ دلار در روزه

این آمار نشون میده که DeepSeek به‌طور مؤثری از منابع سخت‌افزاری استفاده کرده و با کاهش نودها در زمان‌های کم‌بار، هزینه‌ ها رو مدیریت می‌ کنه.

تعداد کل توکن‌های ورودی: ۶۰۸ میلیارد توکن
از این مقدار، ۵۶.۳٪ (۳۴۲ میلیارد توکن) در کش دیسک (on-disk KV cache) پردازش شده که نشون دهنده استفاده مؤثر از کش برای کاهش هزینه‌های پردازشه!

تعداد کل توکن‌های خروجی: ۱۶۸ میلیارد توکن

سرعت تولید خروجی: ۲۰ تا ۲۲ توکن در ثانیه

میانگین طول KV cache برای هر توکن خروجی: ۴,۹۸۹ توکن

توان پردازشی هر نود H800:
در مرحله prefill (ورودی اولیه): ۷۳.۷ هزار توکن در ثانیه (با احتساب کش)

در مرحله decoding (تولید خروجی): ۱۴.۸ هزار توکن در ثانیه

این داده‌ها نشون میدن که مدل DeepSeek-V3/R1 توان پردازش بسیار بالایی داره و با بهینه‌سازی کش، بهره‌ وری پردازش رو افزایش داده!

ادامه داره...
👍111
این مقاله یه روش جدید برای استدلال در مدل های زبانی به نام (Atom of Thoughts - AoT) معرفی کرده، که نیاز به اطلاعات تاریخی رو کاهش میده و استدلال رو موثرتر و کارآمدتر میکنه. این روش میتونه به‌ عنوان یه افزونه در مدل‌ های دیگه نیز استفاده شه و در آزمایش‌ ها نتایج بهتری از روش‌ های پیشین داشته.

استدلال اغلب با شکستن مسئله به قطعات کوچکتر و قابل مدیریت‌ تر به دست میاد. این قطعات کوچکتر، که توی این مقاله "پرسش‌های فرعی" نامیده میشن، باید دو ویژگی مهم داشته باشند:

اول Self-contained: هر پرسش فرعی باید به تنهایی قابل درک و بررسی باشه، بدون نیاز به دانش گسترده از تاریخچه کل مسئله.

دوم Verifiable: پاسخ به هر پرسش فرعی باید قابل بررسی و اثبات باشه، به طوری که بشه از صحت گام‌ های استدلال اطمینان حاصل کرد.

مثلا فرض کنید با مسیله "چرا آب در زمستان یخ می‌زنه؟" رو برو میشین. برای جواب دادن به این سؤال، مغزمون خود به‌ خود سوال به چند زیر سوال ساده‌ تر می‌شکنه:

دمای انجماد آب چنده؟

دمای هوا در زمستان معمولا چقدره؟

چی باعث می‌شه آب در دمای پایین یخ بزنه؟

حالا اگه این زیرسؤال‌ ها رو جداگانه حل کنیم، راحت‌ تر و دقیق‌ تر به جواب اصلی می‌ رسیم، بدون اینکه اطلاعات اضافی یا بی‌ ربط توی ذهن جمع شه. این کاریه که این روش انجام میده.


از یه دید دیگه این روش به زنجیره مارکوف خیلی نزدیکه، توی فرایند مارکوف حالت بعدی سیستم فقط به حالت فعلی اون وابسته هست و نه به تاریخچه حالات قبلی. پرسش‌های فرعی در روش atom of thoughs نیز به همین شکل "بی‌حافظه" هستن.

به عبارت دیگه، برای حل یک پرسش فرعی، ما عمدتا به اطلاعات موجود در حالت فعلی استدلال (یعنی خود پرسش فرعی) توجه می‌ کنیم و نه لزوما به مسیر پر پیچ و خم استدلالی که تا اینجا طی شده، کاری که روش های استدلال کنونی انجام میدن و نیاز به منابع محاسباتی رو به صورت چشمگیری افزایش میدن.

https://arxiv.org/abs/2502.12018

کد:

https://github.com/qixucen/atom
👍71
audio (3).wav
16 MB
مقاله DiffRhythm محدودیت های روشهای فعلی تولید موسیقی مانند تولید جداگانه آواز و آهنگ، نیاز به معماری های پیچیده چند مرحله ای، سرعت پایین و ساخت قطعات کوتاه رو برطرف می کنه.

این مدل با استفاده از معماری Latent Diffusion، قادره آهنگ های کامل (تا ۴ دقیقه و ۴۵ ثانیه) رو تنها در ۱۰ ثانیه تولید کنه و همزمان هر دو بخش آواز و آهنگ رو با کیفیت بالا و حفظ هوشمندی ساختاری بسازه.

در مقایسه با روشهای مبتنی بر مدل های زبانی که کند هستن، DiffRhythm با ساختار non-autoregressive، سرعت استنتاج رو به طور چشمگیری افزایش میده. همچنین، نیاز به داده های پیچیده یا پیش پردازش های وقتگیر رو حذف کرده و تنها با دریافت متن اشعار و یه نشانه سبک موسیقی (مثل پاپ یا راک)، فرآیند تولید رو آغاز میکنه.

به عنوان یه مدل متن باز کیفیت موزیک های تولیدی واقعا بالاست !

مقاله :
https://arxiv.org/abs/2503.01183

کد:
https://github.com/ASLP-lab/DiffRhythm

دمو:

https://huggingface.co/spaces/ASLP-lab/DiffRhythm
👍6
در مدل‌های MoE سنتی، پردازش داده‌ ها به‌ صورت موازی و مستقل انجام میشه، اما این روش باعث مصرف بالای حافظه و کاهش ارتباط بین متخصصان (Experts) میشه.

این مقاله جدید با عنوان Chain-of-Experts (CoE) به معرفی یک روش جدید برای بهبود مدل‌های Mixture-of-Experts می پردازه.

این مدل با جایگزینی ساختار موازی با یه مکانیزم تکراری و سریالی، ارتباط بین متخصصان رو برقرار میکنه.

در این روش، خروجی یک متخصص به ورودی متخصص بعدی منتقل میشه، که نتیجش این میشه که مدل از اطلاعات پردازش‌ شده در مراحل قبل استفاده کنه. این کار نه تنها باعث بهبود دقت مدل، بلکه انعطاف‌پذیری انتخاب متخصصان رو 823 برابر افزایش میده.

یکی از مهم‌ ترین دستاوردهای CoE کاهش مصرف حافظه بین 17.6٪ تا 42٪ هست، چون دیگه نیازی به ذخیره‌ سازی و پردازش همزمان تمام خروجی‌ های متخصصان به صورت مستقل نیست.
👍11
Tensorflow(@CVision)
در مدل‌های MoE سنتی، پردازش داده‌ ها به‌ صورت موازی و مستقل انجام میشه، اما این روش باعث مصرف بالای حافظه و کاهش ارتباط بین متخصصان (Experts) میشه. این مقاله جدید با عنوان Chain-of-Experts (CoE) به معرفی یک روش جدید برای بهبود مدل‌های Mixture-of-Experts می…
این کاهش حافظه باعث میشه مدل‌ های زبانی بزرگ روی سخت‌افزارهای ارزان‌ تر و کم‌ مصرف‌ تر اجرا شن، که به افزایش دسترسی و مقیاس‌ پذیری مدل‌های هوش مصنوعی کمک میکنه. همچنین، این روش کارایی رو بدون افزایش هزینه پردازشی بهبود میده، که خودش یه «نهار رایگان» در دنیای یادگیری عمیق محسوب میشه.

https://github.com/ZihanWang314/coe
👍7
قبلا سایتها باید محتواشونو برای موتورهای جست و جو بهینه میکردند (SEO)، الان اینکه LLMها موقع inference بتونند به سایت شما دسترسی داشته باشند دغدغه شده، حالا
جرمی هاوارد، بنیان‌گذار fast.ai، در صفحه‌ی llmstxt.org یه فایل به اسم /llms.txt پیشنهاد داده که تو ریشه‌ی وب‌سایت قرار می‌گیره. این فایل به مدل‌های زبانی بزرگ کمک می‌کنه تا راحت‌تر و مؤثرتر محتوای سایت رو بفهمن. با ارائه‌ی اطلاعات مختصر و ساختاریافته، این فایل دسترسی مدل‌ها به محتوای سایت رو بهبود می‌بخشه.


# Title

> Optional description goes here

Optional details go here

## Section name

- [Link title](https://link_url): Optional link details

## Optional

- [Link title](https://link_url)
👍162
اپل مک استودیو جدید با تراشه M3 Ultra به قیمت 10k رو معرفی کرد که میتونه تا ۵۱۲ گیگابایت حافظه یکپارچه (Unified Memory) داشته باشه که به‌ عنوان VRAM نیز عمل میکنه.

با این میزان حافظه و پهنای باند ۸۰۰ گیگابایت بر ثانیه، اجرای مدل‌های هوش مصنوعی بزرگ مانند DeepSeek R1 با ۶۷۱ میلیارد پارامتر امکان‌پذیره!


https://www.theregister.com/2025/03/05/apple_m3_ultra_mac_studio/
🤯18👍3❤‍🔥1🔥1
Tensorflow(@CVision)
اپل مک استودیو جدید با تراشه M3 Ultra به قیمت 10k رو معرفی کرد که میتونه تا ۵۱۲ گیگابایت حافظه یکپارچه (Unified Memory) داشته باشه که به‌ عنوان VRAM نیز عمل میکنه. با این میزان حافظه و پهنای باند ۸۰۰ گیگابایت بر ثانیه، اجرای مدل‌های هوش مصنوعی بزرگ مانند…
این تراشه تقریبا به اندازه تراشه B200 ترانزیستور داره و خیلی بیشتر از تراشه H200! درسته که این تراشه با کارت‌ گرافیک های انوید یا قابل مقایسه نیست، چون قدرت پردازشی که روی تمام هسته‌ های گرافیکی انویدیا وجود داره بیشتره اما برای استفاده از مدل‌های زبانی بزرگ (LLM) مثل چت‌ بات‌ ها، مک به خاطر حافظه یکپارچه و پهنای باند حافظه، گزینه خوبی محسوب میشه. اما برای آموزش مدل‌ ها، مک کافی نیست، چون کارت‌های گرافیک انویدیا هسته‌ های تنسور و امکانات بیشتری دارن.

شاید بگید با این پول میشه تقریبا ۱۲ تا کارت گرافیک 3090 خرید که مجموعا ۲۸۸ گیگابایت حافظه GDDR پرسرعت واقعی و پردازنده‌ های گرافیکی درست و حسابی به شما میده اما وصل کردن بیشتر از ۳-۴ کارت گرافیک به یک دستگاه مشکلات خاص خودش رو داره و مصرف برق فاکتور تاثیر گذاری می‌تونه باشه!

به علاوه، مک استودیو خیلی بی سروصدا تره، برق خیلی کمتری مصرف می‌کنه و تا ۵۱۲ گیگابایت حافظه رو پشتیبانی می‌کنه، که حتی با کارت گرافیک 5090 با حافظه ۳۲ گیگابایتی، برای رسیدن به این مقدار حافظه گرافیکی، به ۱۶ تا کارت 5090 نیاز دارین!!
👍81🔥1
QwQ-32B
منتشر شد و و ادعا می‌کنه تنها با ۳۲ میلیارد پارامتر توانایی دستیابی به عملکرد رقابتی در برابر مدل‌های استدلال پیشرفته، مانند DeepSeek-R1 ۶۷۱ میلیارد پارامتری و o1-mini رو داره و حتی توی برخی بنچ مارک ها اونها رو جا میگذاره!!

https://huggingface.co/Qwen/QwQ-32B
🔥10
Tensorflow(@CVision)
QwQ-32B منتشر شد و و ادعا می‌کنه تنها با ۳۲ میلیارد پارامتر توانایی دستیابی به عملکرد رقابتی در برابر مدل‌های استدلال پیشرفته، مانند DeepSeek-R1 ۶۷۱ میلیارد پارامتری و o1-mini رو داره و حتی توی برخی بنچ مارک ها اونها رو جا میگذاره!! https://huggingface.co/Qwen/QwQ…
البته بنچ مارک‌هایی که خودشون گزارش میدن، معمولاً دچار مشکلاتی مثل انتخاب گزینشی، overfiting تست و سایر سوگیری‌ ها میشن و تصویر بهتری از واقعیت نشون میدن، ممکنه در مواجه شدن با داده های واقعی نتونه برای اکثر کاربردها جای R1 رو بگیره.

با این حال، فقط ۳۲ میلیارد پارامتر داره، پس حتی اگه به R1 کامل ۶۱۷ میلیارد پارامتری MoE نرسه و صرفا حتی بهش نزدیک شده باشه یه برد بزرگه! برخلاف R1، نسخه کوانتیزه شده QwQ باید روی کارت‌های گرافیک شخصی به خوبی اجرا شه، پس بهتره قبل از دانلود مدل منتظر بنچ مارک های کاربران عادی موند!
🔥4
Tensorflow(@CVision)
قبلا در مورد دعوای آمریکا و چین بر سر تایوان به صورت مختصر مطالبی در این پست نوشتم. از آنجایی که مطالب این کانال الزاما به هوش مصنوعی اختصاص داره، وارد موضوعات کلان سیاسی این جریان نمیشم اما از بعد فناوری، فشار آمریکا برای محفوظ نگه داشتن سهم خوش از شرکت TSMC در…
فناوری EUV به دلیل نقش حیاتیش در تولید تراشه‌ های پیشرفته، اهمیت ژئوپلیتیکی بالایی داره و به همین دلیل به عنوان یه عامل بازدارنده در اختلافات سیاسی مطرح میشه.

فقط یه شرکت در دنیا به نام ASML می‌تونه این دستگاه‌های EUV رو بسازه. این دستگاه‌ ها برای تولید تراشه‌های پیشرفته ضروری هستن و به همین دلیل، ASML نقش بسیار مهمی در صنعت الکترونیک داره. در واقع این دستگاه با استفاده از فرایند لیتوگرافی الگوهای بسیار ریز ترانزیستورها با استفاده از نور فرابنفش  EUV روی ویفرهای سیلیکونی حک می‌کنه که فرایند بسیار پیچیده ای هست.

شرکت تایوانی TSMC با استفاده از دستگاه‌های ASML، تراشه‌های پیشرفته تولید میکنه. این موضوع باعث شده که تایوان از نظر فناوری بسیار قدرتمند شه و به نوعی، از حمله احتمالی چین محافظت شه!

چین حالا در یک قدمی تولید این دستگاه هست و موفقیتش، تأثیر زیادی بر دنیای فناوری و جغرافیای سیاسی و البته هوش مصنوعی خواهد گذاشت، به عبارتی دستیابی چین به چنین فناوری می‌تونه اون رو به زنجیره تامین نیمه رساناها تبدیل کنه!

https://www.techpowerup.com/333801/china-develops-domestic-euv-tool-asml-monopoly-in-trouble
👍10👌1
This media is not supported in your browser
VIEW IN TELEGRAM
هر چه به جلو پیش میریم این تجلی نظریه اینترنت مرده (Dead internet theory) برامون ملموس‌تر میشه، وضعیتی که در اون تمایز دادن کاربر انسانی از کاربر جعلی، امری محال خواهد بود!

کم کم به جایی میرسیم که AI Agents همچون انسان‌ها عمل میکنن، هرگاه اراده کنن اظهار نظر میکنن و در اینترنت به جست‌وجو میپردازن.

بهتون پیام‌ خصوصی میدن، تصاویر طنزآمیز می‌فرستن، و این موارد تنها بخش کوچکی از قابلیت‌های اونها خواهد بود.

با این تفاسیر، این دو سال آتی، آخرین فرصت‌هایی هستند که با قطعیت بالا میتونیم بفهمیم که شاید در حال تعامل با انسان‌های واقعی هستیم
👍18👏7👀5
یافته جدید OpenAI در مورد زنجیره تفکر COT قابل تامل هست اما بخش جالب اینجاست که اعلام می‌کنه طراحی ساختارهای پاداشی که ناخواسته موجب تشویق رفتارهای نادرست در مدل های زبانی نشن، کاری بسیار دشواریه!

این موضوع فقط مختص مدل های زبانی نیست، به عنوان مثال اگه بچه‌ هاتون به‌ خاطر دروغ گفتن تنبیه کنید، درواقع جلو دروغ گفتنشون رو نگرفتین، فقط باعث شدین اونها یاد بگیرن چطوری ماهرانه تر و مخفی‌ تر دروغ بگن!

در مدل‌های پیشرفته‌ی استدلال، معمولا هدف و نیت اونها به‌ روشنی در زنجیره‌ ی تفکرشون نمایان میشه. 

اوپن ای آی با استفاده از یه مدل زبانی دیگه، مسیر استدلال رو زیر نظر میگیره تا رفتارهای ناهنجار رو تشخیص بده، اما این قابلیت پایش‌ پذیری مسیر فکری بسیار شکننده ست، چون اگه نظارت سخت‌ گیرانه‌ تری بر زنجیره‌ی تفکر اعمال شه، این مدل‌ها یاد میگیرن که نیت خود شون رو پنهان کنن و همچنان به رفتار نادرست ادامه بدن!


https://openai.com/index/chain-of-thought-monitoring/
🤯13👍5👀42😱1
بعد از معرفی QWQ32B حالا یه مدل با قابلیت استدلال و سرعت بسیار بالا ۲۱ میلیارد پارامتری متن باز به نام Reka منتشر شد.

مدل Reka Flash 3 یک مدل زبان چندوجهی با ۲۱ میلیارد پارامتره که توسط شرکت Reka توسعه یافته. این مدل به‌ صورت چندوجهی عمل میکنه و قادر به پردازش و استدلال بر روی ورودی‌های متنی، تصویری، ویدئویی و صوتی هست.

این مدل عملکردی رقابتی با مدل‌های اختصاصی مثل OpenAI o1-mini داره و به عنوان بهترین مدل متن‌ باز در اندازه خودش محسوب میشه. 

میتونید در لینک زیر قابلیت هاشو در نسخه دمو چک کنید ، خصوصا قابلیت های برنامه نویسش:

https://space.reka.ai/

دانلود مدل:

https://www.reka.ai/news/introducing-reka-flash
🔥8
🔹انتشار Google Gemma 3:

گوگل نسخه جدید مدل‌های Gemma 3 را معرفی کرد که از 1B تا 27B پارامتر دارند. این مدل‌ها از متن و تصویر پشتیبانی می‌کنند (برای نسخه‌های 4B به بالا) و ظرفیت 128K توکن دارند. با بهینه‌سازی توکنایزر و پردازش 140+ زبان، عملکرد بهتری نسبت به نسل قبل ارائه می‌دهند. نسخه instruction-tuned 4B حتی از مدل 27B نسل قبلی قوی‌تر است!


🔗 جزئیات بیشتر در Hugging Face
🔥10
2025/07/08 13:45:16
Back to Top
HTML Embed Code: