ارائه آنلاین چالشهای مدلهای زبانی و بینایی ماشین🔥
با حضور مجتبی کمیلی، مهندس تحقیقاتی در فیسبوک
شنبه ۲۰ اردیبهشت | ساعت ۱۸ تا ۱۹ 🕕
منتظر شما هستیم تا با هم وارد عمق مفاهیم هوش مصنوعی بشیم! ✨
برگزاری + پرسش و پاسخ آنلاین در بستر تلگرام
@podcast3o14
با حضور مجتبی کمیلی، مهندس تحقیقاتی در فیسبوک
شنبه ۲۰ اردیبهشت | ساعت ۱۸ تا ۱۹ 🕕
منتظر شما هستیم تا با هم وارد عمق مفاهیم هوش مصنوعی بشیم! ✨
برگزاری + پرسش و پاسخ آنلاین در بستر تلگرام
@podcast3o14
👍7🔥1
در اپلیکیشن BoldVoice، لهجه به عنوان یه پدیده زبانی پیچیده مورد بررسی قرار میگیره که شامل الگوهای صوتی مثل شکل گیری مصوت ها، زیر و بم صدا و ریتم گفتاره. هدف این پلتفرم، تحلیل و آموزش لهجه نه از منظر انسانی (زبانشناسی سنتی)، بلکه از طریق الگوریتم های یادگیری ماشینه. به بیان دیگه، کامپیوتر باید بتونه بدون درک زبانی انسان محور، تفاوت ها و شدت لهجه رو تشخیص بده.
برای رسیدن به این هدف، تیم BoldVoice مفهومی به نام accent fingerprint معرفی کرده. این اثر انگشت در واقع یک بردار عددیه (embedding) که با پردازش صدای کاربر توسط یه مدل هوش مصنوعی تولید میشه.
این بردار، ویژگیهای عمیق و نهفته گفتار رو در فضای نهان (latent space) نمایش میده که در اون فاصله ها نشان دهنده میزان شباهت یا تفاوت لهجهها و جهت ها نشان دهنده مسیرهای احتمالی تغییر یا پیشرفت لهجه هستن.
از این رو، تحلیل لهجه از سطح توصیف کیفی به سطح عددی و قابل محاسبه ارتقا پیدا میکنه. در مثالی کاربردی، این فناوری برای کمک به ویکتور (کارآموزی با لهجه غیر بومی) بهکار گرفته شد تا بتونه لهجه خودش رو به لهجه آمریکایی مربی متخصص، الیزا، نزدیک تر کنه. این مقاله نشان میده که چطور میشه با تحلیل داده های صوتی و بردارهای نهان، آموزش لهجه رو از یه فرآیند ذهنی و کیفی به فرآیندی کمی، هد فمند و شخصی سازی شده تبدیل کرد.
https://accent-strength.boldvoice.com/
برای رسیدن به این هدف، تیم BoldVoice مفهومی به نام accent fingerprint معرفی کرده. این اثر انگشت در واقع یک بردار عددیه (embedding) که با پردازش صدای کاربر توسط یه مدل هوش مصنوعی تولید میشه.
این بردار، ویژگیهای عمیق و نهفته گفتار رو در فضای نهان (latent space) نمایش میده که در اون فاصله ها نشان دهنده میزان شباهت یا تفاوت لهجهها و جهت ها نشان دهنده مسیرهای احتمالی تغییر یا پیشرفت لهجه هستن.
از این رو، تحلیل لهجه از سطح توصیف کیفی به سطح عددی و قابل محاسبه ارتقا پیدا میکنه. در مثالی کاربردی، این فناوری برای کمک به ویکتور (کارآموزی با لهجه غیر بومی) بهکار گرفته شد تا بتونه لهجه خودش رو به لهجه آمریکایی مربی متخصص، الیزا، نزدیک تر کنه. این مقاله نشان میده که چطور میشه با تحلیل داده های صوتی و بردارهای نهان، آموزش لهجه رو از یه فرآیند ذهنی و کیفی به فرآیندی کمی، هد فمند و شخصی سازی شده تبدیل کرد.
https://accent-strength.boldvoice.com/
👍16⚡3👌1
Ace-step
مدل تولید موسیقی متن باز چند زبانه با 3.5 میلیارد پارامتر منتشر شد.
این مدل از 19 زبان، سبک های ساز، تکنیکهای آوازی و موارد دیگه پشتیبانی میکنه و ادعا میکنه که بهترین مدل متن باز تولید موسیقی هست.
https://github.com/ace-step/ACE-Step
مدل تولید موسیقی متن باز چند زبانه با 3.5 میلیارد پارامتر منتشر شد.
این مدل از 19 زبان، سبک های ساز، تکنیکهای آوازی و موارد دیگه پشتیبانی میکنه و ادعا میکنه که بهترین مدل متن باز تولید موسیقی هست.
https://github.com/ace-step/ACE-Step
GitHub
GitHub - ace-step/ACE-Step: ACE-Step: A Step Towards Music Generation Foundation Model
ACE-Step: A Step Towards Music Generation Foundation Model - ace-step/ACE-Step
❤8👍5🔥1
Tensorflow(@CVision)
Ace-step مدل تولید موسیقی متن باز چند زبانه با 3.5 میلیارد پارامتر منتشر شد. این مدل از 19 زبان، سبک های ساز، تکنیکهای آوازی و موارد دیگه پشتیبانی میکنه و ادعا میکنه که بهترین مدل متن باز تولید موسیقی هست. https://github.com/ace-step/ACE-Step
Audio
با یه آهنگ در مورد کانال تست کنیم(سبک country )
(Verse 1)
On Telegram, there's a channel we know,
"Tensorflow" it's called, putting on quite a show.
Every day, the latest AI news they impart,
In Persian language, a source of pride in our heart.
(Chorus)
Tensorflow, Tensorflow, a channel so cool,
Artificial intelligence news, following every rule.
About deep learning and neural networks they speak,
Of everything related to this world so unique.
(Verse 2)
Articles and tutorials, everything you can find,
Whatever your question, the answer is aligned.
Iranians created it, a hearty "well done" we say,
The power of AI, they showcase every day.
(Chorus)
Tensorflow, Tensorflow, a channel so cool,
Artificial intelligence news, following every rule.
About deep learning and neural networks they speak,
Of everything related to this world so unique.
(Verse 1)
On Telegram, there's a channel we know,
"Tensorflow" it's called, putting on quite a show.
Every day, the latest AI news they impart,
In Persian language, a source of pride in our heart.
(Chorus)
Tensorflow, Tensorflow, a channel so cool,
Artificial intelligence news, following every rule.
About deep learning and neural networks they speak,
Of everything related to this world so unique.
(Verse 2)
Articles and tutorials, everything you can find,
Whatever your question, the answer is aligned.
Iranians created it, a hearty "well done" we say,
The power of AI, they showcase every day.
(Chorus)
Tensorflow, Tensorflow, a channel so cool,
Artificial intelligence news, following every rule.
About deep learning and neural networks they speak,
Of everything related to this world so unique.
👍14❤🔥3🔥3👌3🤔2🤯1😱1
audio.wav
914.9 KB
A TTS model capable of generating ultra-realistic dialogue in one pass.
https://github.com/nari-labs/dia?tab=readme-ov-file
[S1] I love TensorFlow channel on telegram(coughs)
[S2] I love TensorFlow channel on telegram
[S1] I love TensorFlow channel on telegram(laughs)
https://github.com/nari-labs/dia?tab=readme-ov-file
👍8❤2👏2🔥1
Chatgpt 4o Prompt:
A black and white photograph shows the blurred silhouette of a [SUBJECT] behind a frosted or translucent surface. The [PART] is sharply defined and pressed against the surface, creating a stark contrast with the rest of the hazy, indistinct figure. The background is a soft gradient of gray tones, enhancing the mysterious and artistic atmosphere
🔥19👍4🤔1
افزایش وضوح تصویر ورودی برای بهبود عملکرد مدلهای زبانی دیداری (VLMs)، بهویژه در درک تصاویر دارای متن، بسیار مهمه. اما مدلهای تصویری معروف مثل ViT در وضوح های بالا با مشکل کندی و حجم زیاد داده مواجه هستن.
اپل مدلی به نام FastVLM معرفی کرده که با حفظ دقت، سرعت پردازش رو بالا میبره و اندازه مدل رو کوچک تر نگه میداره. این مدل از یک رمزگذار تصویری جدید به نام FastViTHD استفاده میکنه که برای تصاویر با وضوح بالا، تعداد کمتری توکن تولید و سریع تر عمل میکنه.
در آزمایشها، FastVLM سرعت پاسخ دهی اولیه رو بیش از ۳ برابر بهتر کرده و عملکردی مشابه مدل های قوی قبلی داره، در حالی که بسیار سریعتر و سبکتره، و مستقیما روی iPhone به صورت لوکال قابلیت اجرایی رو داره.
https://www.arxiv.org/abs/2412.13303
اپل مدلی به نام FastVLM معرفی کرده که با حفظ دقت، سرعت پردازش رو بالا میبره و اندازه مدل رو کوچک تر نگه میداره. این مدل از یک رمزگذار تصویری جدید به نام FastViTHD استفاده میکنه که برای تصاویر با وضوح بالا، تعداد کمتری توکن تولید و سریع تر عمل میکنه.
در آزمایشها، FastVLM سرعت پاسخ دهی اولیه رو بیش از ۳ برابر بهتر کرده و عملکردی مشابه مدل های قوی قبلی داره، در حالی که بسیار سریعتر و سبکتره، و مستقیما روی iPhone به صورت لوکال قابلیت اجرایی رو داره.
https://www.arxiv.org/abs/2412.13303
👍20👌1
Tensorflow(@CVision)
افزایش وضوح تصویر ورودی برای بهبود عملکرد مدلهای زبانی دیداری (VLMs)، بهویژه در درک تصاویر دارای متن، بسیار مهمه. اما مدلهای تصویری معروف مثل ViT در وضوح های بالا با مشکل کندی و حجم زیاد داده مواجه هستن. اپل مدلی به نام FastVLM معرفی کرده که با حفظ دقت،…
This media is not supported in your browser
VIEW IN TELEGRAM
دمو
👍17❤2
This media is not supported in your browser
VIEW IN TELEGRAM
تشخیص اشیا به صورت ریل تایم با مدل ۵۰۰ میلیون پارامتری
SmolVLM
https://github.com/ngxson/smolvlm-realtime-webcam
SmolVLM
https://github.com/ngxson/smolvlm-realtime-webcam
👍32❤4👌4
دیپ مایند از «AlphaEvolve» که یه عامل برنامه نویسی مبتنی بر Gemini برای کشف الگوریتم ها هست رونمایی کرد.
میگه ما از AlphaEvolve برای حل بیش از ۵۰ مسئله باز در زمینههای تحلیل، هندسه، ترکیبیات و نظریه اعداد استفاده کردیم.
در ۷۵٪ از موارد، این سیستم تونست بهترین راه حلهای شناخته شده قبلی رو دوباره کشف کنه. در ۲۰٪ از موارد، راهحل های بهتری نسبت به بهترین راه حلهای قبلی ارائه داد و در نتیجه، به کشفیات جدیدی منجر شد.
به عنوان یه مورد کاربردی در هوش مصنوعی این سیستم تونسته یکی از عملیاتهای سنگین و مهم در معماری مدلهای بزرگ (یعنی ضرب ماتریس) رو بهینه کنه، که این از مهمترین گلوگاههای سرعت و مصرف منابع در مدلهای هوش مصنوعیه.
میگه این سیستم با پیدا کردن روشهای هوشمندانه تر برای تقسیم عملیات بزرگ ضرب ماتریس به زیر مسئلههای کوچک تر و قابلمدیریت تر، AlphaEvolve تونسته این بخش حیاتی از معماری Gemini رو ۲۳٪ سریع تر کنه!
بهینهسازی کرنل نه تنها یکی از کاربردی ترین زمینه ها برای مدلهای هوش مصنوعیه، بلکه به نوعی نشون دهنده بلوغ اونها در درک عملکرد سیستم های واقعی و تعامل با کد سطح پایینه. آینده ای که مدلهای هوش مصنوعی طراحی سخت افزار یا compiler-level optimization انجام بدن، چندان دور نیست!
https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/AlphaEvolve.pdf
میگه ما از AlphaEvolve برای حل بیش از ۵۰ مسئله باز در زمینههای تحلیل، هندسه، ترکیبیات و نظریه اعداد استفاده کردیم.
در ۷۵٪ از موارد، این سیستم تونست بهترین راه حلهای شناخته شده قبلی رو دوباره کشف کنه. در ۲۰٪ از موارد، راهحل های بهتری نسبت به بهترین راه حلهای قبلی ارائه داد و در نتیجه، به کشفیات جدیدی منجر شد.
به عنوان یه مورد کاربردی در هوش مصنوعی این سیستم تونسته یکی از عملیاتهای سنگین و مهم در معماری مدلهای بزرگ (یعنی ضرب ماتریس) رو بهینه کنه، که این از مهمترین گلوگاههای سرعت و مصرف منابع در مدلهای هوش مصنوعیه.
میگه این سیستم با پیدا کردن روشهای هوشمندانه تر برای تقسیم عملیات بزرگ ضرب ماتریس به زیر مسئلههای کوچک تر و قابلمدیریت تر، AlphaEvolve تونسته این بخش حیاتی از معماری Gemini رو ۲۳٪ سریع تر کنه!
بهینهسازی کرنل نه تنها یکی از کاربردی ترین زمینه ها برای مدلهای هوش مصنوعیه، بلکه به نوعی نشون دهنده بلوغ اونها در درک عملکرد سیستم های واقعی و تعامل با کد سطح پایینه. آینده ای که مدلهای هوش مصنوعی طراحی سخت افزار یا compiler-level optimization انجام بدن، چندان دور نیست!
https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/AlphaEvolve.pdf
👍15❤4👌2🤯1
Tensorflow(@CVision)
تشخیص اشیا به صورت ریل تایم با مدل ۵۰۰ میلیون پارامتری SmolVLM https://github.com/ngxson/smolvlm-realtime-webcam
This media is not supported in your browser
VIEW IN TELEGRAM
این نمونه که یکی از کاربران امروز منتشر کرد صد درصد به صورت محلی در مرورگر و با استفاده از WebGPU اجرا میشه، و از کتابخانه Transformers.js بهره میبره. این یعنی شما فقط کافیه وارد لینک شید و دمو رو اجرا کنید، بدون اینکه نیازی به نصب چیزی روی سیستم داشته باشین
کد منبع به صورت یک فایل index.html هست که میتونید اون رو در بخش "Files" در صفحه دمو پیدا کنید.
https://huggingface.co/spaces/webml-community/smolvlm-realtime-webgpu
کد منبع به صورت یک فایل index.html هست که میتونید اون رو در بخش "Files" در صفحه دمو پیدا کنید.
https://huggingface.co/spaces/webml-community/smolvlm-realtime-webgpu
❤6👍6🔥1
آموزش معماری DeepSeek از صفر تا صد، مجموعهای شامل ۲۰ ویدئوی آموزشی
این مجموعه شامل ۲۰ جلسه آموزشی هست که مفاهیمی مثل Multi-Head Latent Attention و Mixture of Experts رو با جزئیات کامل بررسی میکنه.
1️⃣ DeepSeek Series Introduction
https://youtu.be/QWNxQIq0hMo
2️⃣ DeepSeek Basics
https://youtu.be/WjhDDeZ7DvM
3️⃣ Journey of a Token into the LLM Architecture
https://youtu.be/rkEYwH4UGa4
4️⃣ Attention Mechanism Explained in 1 Hour
https://youtu.be/K45ze9Yd5UE
5️⃣ Self Attention Mechanism - Handwritten from Scratch
https://youtu.be/s8mskq-nzec
6️⃣ Causal Attention Explained: Don't Peek into the Future
https://youtu.be/c6Kkj6iLeBg
7️⃣ Multi-Head Attention Visually Explained
https://youtu.be/qbN4ulK-bZA
8️⃣ Multi-Head Attention Handwritten from Scratch
https://youtu.be/rvsEW-EsD-Y
9️⃣ Key Value Cache from Scratch
https://youtu.be/IDwTiS4_bKo
🔟 Multi-Query Attention Explained
https://youtu.be/Z6B51Odtn-Y
1️⃣1️⃣ Understand Grouped Query Attention (GQA)
https://youtu.be/kx3rETIxo4Q
1️⃣2️⃣ Multi-Head Latent Attention From Scratch
https://youtu.be/NlDQUj1olXM
1️⃣3️⃣ Multi-Head Latent Attention Coded from Scratch in Python
https://youtu.be/mIaWmJVrMpc
1️⃣4️⃣ Integer and Binary Positional Encodings
https://youtu.be/rP0CoTxe5gU
1️⃣5️⃣ All About Sinusoidal Positional Encodings
https://youtu.be/bQCQ7VO-TWU
1️⃣6️⃣ Rotary Positional Encodings
https://youtu.be/a17DlNxkv2k
1️⃣7️⃣ How DeepSeek Implemented Latent Attention | MLA + RoPE
https://youtu.be/m1x8vA_Tscc
1️⃣8️⃣ Mixture of Experts (MoE) Introduction
https://youtu.be/v7U21meXd6Y
1️⃣9️⃣ Mixture of Experts Hands-on Demonstration
https://youtu.be/yw6fpYPJ7PI
2️⃣0️⃣ Mixture of Experts Balancing Techniques
https://youtu.be/nRadcspta_8
این مجموعه شامل ۲۰ جلسه آموزشی هست که مفاهیمی مثل Multi-Head Latent Attention و Mixture of Experts رو با جزئیات کامل بررسی میکنه.
1️⃣ DeepSeek Series Introduction
https://youtu.be/QWNxQIq0hMo
2️⃣ DeepSeek Basics
https://youtu.be/WjhDDeZ7DvM
3️⃣ Journey of a Token into the LLM Architecture
https://youtu.be/rkEYwH4UGa4
4️⃣ Attention Mechanism Explained in 1 Hour
https://youtu.be/K45ze9Yd5UE
5️⃣ Self Attention Mechanism - Handwritten from Scratch
https://youtu.be/s8mskq-nzec
6️⃣ Causal Attention Explained: Don't Peek into the Future
https://youtu.be/c6Kkj6iLeBg
7️⃣ Multi-Head Attention Visually Explained
https://youtu.be/qbN4ulK-bZA
8️⃣ Multi-Head Attention Handwritten from Scratch
https://youtu.be/rvsEW-EsD-Y
9️⃣ Key Value Cache from Scratch
https://youtu.be/IDwTiS4_bKo
🔟 Multi-Query Attention Explained
https://youtu.be/Z6B51Odtn-Y
1️⃣1️⃣ Understand Grouped Query Attention (GQA)
https://youtu.be/kx3rETIxo4Q
1️⃣2️⃣ Multi-Head Latent Attention From Scratch
https://youtu.be/NlDQUj1olXM
1️⃣3️⃣ Multi-Head Latent Attention Coded from Scratch in Python
https://youtu.be/mIaWmJVrMpc
1️⃣4️⃣ Integer and Binary Positional Encodings
https://youtu.be/rP0CoTxe5gU
1️⃣5️⃣ All About Sinusoidal Positional Encodings
https://youtu.be/bQCQ7VO-TWU
1️⃣6️⃣ Rotary Positional Encodings
https://youtu.be/a17DlNxkv2k
1️⃣7️⃣ How DeepSeek Implemented Latent Attention | MLA + RoPE
https://youtu.be/m1x8vA_Tscc
1️⃣8️⃣ Mixture of Experts (MoE) Introduction
https://youtu.be/v7U21meXd6Y
1️⃣9️⃣ Mixture of Experts Hands-on Demonstration
https://youtu.be/yw6fpYPJ7PI
2️⃣0️⃣ Mixture of Experts Balancing Techniques
https://youtu.be/nRadcspta_8
YouTube
Build DeepSeek from Scratch: Series Introduction
Welcome to Lecture 1 of Build DeepSeek from Scratch series.
In this lecture, we discuss about the introduction to this playlist, why we are creating this playlist, and what you will learn from it.
=================================================
Build…
In this lecture, we discuss about the introduction to this playlist, why we are creating this playlist, and what you will learn from it.
=================================================
Build…
❤18👍9
این مقاله نشون میده که عملکرد مدلهای زبانی بزرگ، در مکالمات چند مرحلهای به طور قابل توجهی کاهش پیدا میکنه. بیشتر معیارهای ارزیابی بر روی تنظیمات دستورالعملهای کاملا مشخص و تک مرحلهای تمرکز دارن.
این تحقیق نشون میده که LLM ها اغلب در مراحل اولیه، فرضیات نادرستی میسازن و در ادامهی گفتگو به همان فرضیات تکیه میکنن و هرگز اونها رو اصلاح نمیکنن.
نتیجه اینه که اگه یه مکالمه ی چند مرحلهای به نتایج مطلوب نرسید، بهتره که گفتگو رو از نو و به صورت یک گفتگوی تازه آغاز کنیم و تمام اطلاعات مربوط به مکالمهی قبلی را در همان نوبت اول گفتگو جدید بگنجونید. همونطور که در شکل بالا میبینید این مساله مخصوصا در کاربرد هایی مثل مشاوره، برنامهنویسی، یا پرسشهای تحلیلی پیچیده اهمیت زیادی داره
https://arxiv.org/abs/2505.06120
این تحقیق نشون میده که LLM ها اغلب در مراحل اولیه، فرضیات نادرستی میسازن و در ادامهی گفتگو به همان فرضیات تکیه میکنن و هرگز اونها رو اصلاح نمیکنن.
نتیجه اینه که اگه یه مکالمه ی چند مرحلهای به نتایج مطلوب نرسید، بهتره که گفتگو رو از نو و به صورت یک گفتگوی تازه آغاز کنیم و تمام اطلاعات مربوط به مکالمهی قبلی را در همان نوبت اول گفتگو جدید بگنجونید. همونطور که در شکل بالا میبینید این مساله مخصوصا در کاربرد هایی مثل مشاوره، برنامهنویسی، یا پرسشهای تحلیلی پیچیده اهمیت زیادی داره
https://arxiv.org/abs/2505.06120
👍41❤2
Tensorflow(@CVision)
دیپ مایند از «AlphaEvolve» که یه عامل برنامه نویسی مبتنی بر Gemini برای کشف الگوریتم ها هست رونمایی کرد. میگه ما از AlphaEvolve برای حل بیش از ۵۰ مسئله باز در زمینههای تحلیل، هندسه، ترکیبیات و نظریه اعداد استفاده کردیم. در ۷۵٪ از موارد، این سیستم تونست…
#تکملیی
الگوریتم AlphaEvolve تونست الگوریتم معروف استراسن که در سال ۱۹۶۹ معرفی شده بود رو بهبود بده، بطوریکه موفق شد ضرب ماتریسهای ۴×۴ با مقادیر مختلط رو تنها با استفاده از ۴۸ ضرب عددی (اسکالر) انجام بده، در حالی که رکورد قبلی ۴۹ ضرب بود. شاید در نگاه اول این تفاوت یک عددی چشمگیر به نظر نرسه، اما این رکورد برای پنجاه و شش سال شکسته نشده بود.
برای درک بهتر اهمیت چند نکته رو باید گفت:
ضرب ماتریسی یکی از بنیادی ترین عملیات در علوم کامپیوتره، از رندر گرافیکی گرفته تا شبکههای عصبی و شبیهسازیهای علمی.
دستاورد استراسن در سال ۱۹۶۹ بهقدری مهم بود که دهه ها در کلاسهای الگوریتم دانشگاهی تدریس میشد.
در طول بیش از نیم قرن، ریاضیدانان و دانشمندان کامپیوتر برجستهای روی این مسئله کار کرده بودن و موفق به بهبود اون نشده بودن.
این دستاورد شبیه به شکستن یک رکورد جهانیه که از زمان فرود انسان روی ماه باقی مانده بود.
نکته عجیب تر اینه که AlphaEvolve حتی برای این کار طراحی نشده بود. سیستم قبلی یعنی AlphaTensor که مشخصا برای بهینه سازی ضرب ماتریس طراحی شده بود، نتونسته بود الگوریتم استراسن برای ماتریسهای مختلط رو شکست بده، اما این سیستم عمومی جدید، بدون تمرکز خاص، براحتی مسئلهای رو حل کرده که نسلها برای انسان ها حلناشدنی بوده.
پیامدهای این دستاورد عظیمه، اینجا در مورد بهبود سرعت در کل حوزه محاسبات صحبت میکنیم. با توجه به تعداد بی شمار ضرب ماتریسی که هر ثانیه در رایانههای سراسر جهان انجام میشه، حتی بهبود کوچکی مانند این، میتونه به صرفهجویی عظیم در منابع، زمان و انرژی منجر شه!
فراتر از مزایای عملی، این دستاورد نشون دهنده لحظهای واقعیه که هوش مصنوعی تونسته دانش بشر رو در یک حوزه بنیادین ریاضی پیش ببره. این سیستم صرفا یک ترفند پیادهسازی یا بهینه سازی پیدا نکرده، بلکه یک الگوریتم اثبات شده و بهتر کشف کرده که انسانها بیش از نیم قرن نتونسته بودن به اون برسن.
در این ویدیو موارد جالبی در این خصوص بحث میشه، که بخشی از اون اینجا عنوان شد
https://youtu.be/vC9nAosXrJw?feature=shared
الگوریتم AlphaEvolve تونست الگوریتم معروف استراسن که در سال ۱۹۶۹ معرفی شده بود رو بهبود بده، بطوریکه موفق شد ضرب ماتریسهای ۴×۴ با مقادیر مختلط رو تنها با استفاده از ۴۸ ضرب عددی (اسکالر) انجام بده، در حالی که رکورد قبلی ۴۹ ضرب بود. شاید در نگاه اول این تفاوت یک عددی چشمگیر به نظر نرسه، اما این رکورد برای پنجاه و شش سال شکسته نشده بود.
برای درک بهتر اهمیت چند نکته رو باید گفت:
ضرب ماتریسی یکی از بنیادی ترین عملیات در علوم کامپیوتره، از رندر گرافیکی گرفته تا شبکههای عصبی و شبیهسازیهای علمی.
دستاورد استراسن در سال ۱۹۶۹ بهقدری مهم بود که دهه ها در کلاسهای الگوریتم دانشگاهی تدریس میشد.
در طول بیش از نیم قرن، ریاضیدانان و دانشمندان کامپیوتر برجستهای روی این مسئله کار کرده بودن و موفق به بهبود اون نشده بودن.
این دستاورد شبیه به شکستن یک رکورد جهانیه که از زمان فرود انسان روی ماه باقی مانده بود.
نکته عجیب تر اینه که AlphaEvolve حتی برای این کار طراحی نشده بود. سیستم قبلی یعنی AlphaTensor که مشخصا برای بهینه سازی ضرب ماتریس طراحی شده بود، نتونسته بود الگوریتم استراسن برای ماتریسهای مختلط رو شکست بده، اما این سیستم عمومی جدید، بدون تمرکز خاص، براحتی مسئلهای رو حل کرده که نسلها برای انسان ها حلناشدنی بوده.
پیامدهای این دستاورد عظیمه، اینجا در مورد بهبود سرعت در کل حوزه محاسبات صحبت میکنیم. با توجه به تعداد بی شمار ضرب ماتریسی که هر ثانیه در رایانههای سراسر جهان انجام میشه، حتی بهبود کوچکی مانند این، میتونه به صرفهجویی عظیم در منابع، زمان و انرژی منجر شه!
فراتر از مزایای عملی، این دستاورد نشون دهنده لحظهای واقعیه که هوش مصنوعی تونسته دانش بشر رو در یک حوزه بنیادین ریاضی پیش ببره. این سیستم صرفا یک ترفند پیادهسازی یا بهینه سازی پیدا نکرده، بلکه یک الگوریتم اثبات شده و بهتر کشف کرده که انسانها بیش از نیم قرن نتونسته بودن به اون برسن.
در این ویدیو موارد جالبی در این خصوص بحث میشه، که بخشی از اون اینجا عنوان شد
https://youtu.be/vC9nAosXrJw?feature=shared
YouTube
Wild breakthrough on Math after 56 years... [Exclusive]
Today Google DeepMind released AlphaEvolve: a Gemini coding agent for algorithm discovery. It beat the famous Strassen algorithm for matrix multiplication set 56 years ago. Google has been killing it recently. We had early access to the paper and interviewed…
❤11🔥8👍6🤩2
Tensorflow(@CVision)
دیپ مایند از «AlphaEvolve» که یه عامل برنامه نویسی مبتنی بر Gemini برای کشف الگوریتم ها هست رونمایی کرد. میگه ما از AlphaEvolve برای حل بیش از ۵۰ مسئله باز در زمینههای تحلیل، هندسه، ترکیبیات و نظریه اعداد استفاده کردیم. در ۷۵٪ از موارد، این سیستم تونست…
آموزش مدل های هوش مصنوعی اغلب شامل پیمایش فضاهای پارامتری با ابعاد بسیار بالا برای یافتن هایپر پارامترهای بهینه، معماریهای مناسب شبکه عصبی و برنامه های آموزش مناسبه.
https://youtu.be/NrO20Jb-hy0?feature=shared
توانایی AlphaEvolve در اکستریم سازی (یافتن نقاط بیشینه یا کمینه) توابع در چنین فضاهایی میتونه برای خودکارسازی و بهبود این وظایف بهینهسازی بکار گرفته شه، که در نتیجه به همگرایی سریع تر و مدلهایی با عملکرد بهتر منجر خواهد شد.
ترنس تائو، ریاضیدان برجسته و برنده مدال فیلدز، اخیرا اعلام کرده که با تیم DeepMind در حال همکاری بر روی توسعه ابزاری نوین برای بهینه سازی توابع در فضاهای پارامتری با ابعاد بالاست.
این ابزار قادره توابعی مانند F(x) رو که در فضای پارامترهای با ابعاد بالا تعریف شدن رو بیشینه یا کمینه کنه، حتی زمانی که ساختارهای پنهان و پیچیدهای دارن که الگوریتمهای سنتی قادر به درک اونها نیستن.
تائو در پاسخ به این پرسش که آیا این ابزار میتونه جایگزینی برای بهینهسازهای سنتی مانند گرادیان نزولی (SGD) در آموزش شبکههای عصبی بزرگ باشه، اظهار داره که این امر کاملا محتمله، بهویژه در وظایف با مقیاس بزرگ که نظارت انسانی کافی برای تنظیم دستی هایپر پارامترها وجود نداره و پیشنهاد میده که این ابزار میتوانه بهعنوان یک لایه meta-optimizer بر روی ابزارهای موجود عمل کنه، بهطوری که تصمیم بگیره کدام ترکیب از این ابزارها استفاده شه و چه مقادیری از هایپر پارامترها به اونها اختصاص داده شه.
https://mathstodon.xyz/@tao/114508029896631083
https://youtu.be/NrO20Jb-hy0?feature=shared
توانایی AlphaEvolve در اکستریم سازی (یافتن نقاط بیشینه یا کمینه) توابع در چنین فضاهایی میتونه برای خودکارسازی و بهبود این وظایف بهینهسازی بکار گرفته شه، که در نتیجه به همگرایی سریع تر و مدلهایی با عملکرد بهتر منجر خواهد شد.
ترنس تائو، ریاضیدان برجسته و برنده مدال فیلدز، اخیرا اعلام کرده که با تیم DeepMind در حال همکاری بر روی توسعه ابزاری نوین برای بهینه سازی توابع در فضاهای پارامتری با ابعاد بالاست.
این ابزار قادره توابعی مانند F(x) رو که در فضای پارامترهای با ابعاد بالا تعریف شدن رو بیشینه یا کمینه کنه، حتی زمانی که ساختارهای پنهان و پیچیدهای دارن که الگوریتمهای سنتی قادر به درک اونها نیستن.
تائو در پاسخ به این پرسش که آیا این ابزار میتونه جایگزینی برای بهینهسازهای سنتی مانند گرادیان نزولی (SGD) در آموزش شبکههای عصبی بزرگ باشه، اظهار داره که این امر کاملا محتمله، بهویژه در وظایف با مقیاس بزرگ که نظارت انسانی کافی برای تنظیم دستی هایپر پارامترها وجود نداره و پیشنهاد میده که این ابزار میتوانه بهعنوان یک لایه meta-optimizer بر روی ابزارهای موجود عمل کنه، بهطوری که تصمیم بگیره کدام ترکیب از این ابزارها استفاده شه و چه مقادیری از هایپر پارامترها به اونها اختصاص داده شه.
https://mathstodon.xyz/@tao/114508029896631083
YouTube
The Misconception that Almost Stopped AI [How Models Learn Part 1]
Take your personal data back with Incogni! Use code WELCHLABS and get 60% off an annual plan: http://incogni.com/welchlabs
Loss Landscape Posters! 21:23
https://www.welchlabs.com/resources/loss-landscape-poster-17x19
https://www.welchlabs.com/resources/loss…
Loss Landscape Posters! 21:23
https://www.welchlabs.com/resources/loss-landscape-poster-17x19
https://www.welchlabs.com/resources/loss…
👍10❤5👌2
Media is too big
VIEW IN TELEGRAM
چین با راه اندازی بزرگ ترین ناوگان کامیون های معدنی برقی و بدون راننده در جهان، گام بزرگی در مسیر توسعه هوش مصنوعی صنعتی برداشته. این ناوگان که توسط گروه دولتی Huaneng در معدن زغالسنگ Yimin مستقر شده، از فناوری خودران شرکت Huawei بهره میبره
100 کامیون هوشمند این پروژه، بدون نیاز به راننده و در شرایط سخت محیطی، بهطور کاملا خودکار بارگیری، حمل و تخلیه مواد رو انجام میدن.
این پروژه بخشی از استراتژی ملی چین برای دیجیتال سازی صنایع سنتی مانند صنایع معدنیه و انتظار میره بهرهوری حمل و نقل رو بطور چشمگیری افزایش و هزینههای عملیاتی رو کاهش بده. هدف گذاری شده که تا سه سال آینده، تعداد این کامیونها در این معدن به ۳۰۰ دستگاه برسه و در سطح کشور به ۱۰ هزار دستگاه خودران تا سال ۲۰۲۶ افزایش پیدا کنه.
https://www.scmp.com/tech/big-tech/article/3310470/china-deploys-worlds-largest-fleet-driverless-mining-trucks-powered-huawei-tech
100 کامیون هوشمند این پروژه، بدون نیاز به راننده و در شرایط سخت محیطی، بهطور کاملا خودکار بارگیری، حمل و تخلیه مواد رو انجام میدن.
این پروژه بخشی از استراتژی ملی چین برای دیجیتال سازی صنایع سنتی مانند صنایع معدنیه و انتظار میره بهرهوری حمل و نقل رو بطور چشمگیری افزایش و هزینههای عملیاتی رو کاهش بده. هدف گذاری شده که تا سه سال آینده، تعداد این کامیونها در این معدن به ۳۰۰ دستگاه برسه و در سطح کشور به ۱۰ هزار دستگاه خودران تا سال ۲۰۲۶ افزایش پیدا کنه.
https://www.scmp.com/tech/big-tech/article/3310470/china-deploys-worlds-largest-fleet-driverless-mining-trucks-powered-huawei-tech
👏22👍4🔥2👀2👌1
اینتل در Computex 2025 رسما از کارتهای گرافیک حرفهای سری جدید خود با معماری Battlemage (Xe2) رونمایی کرد:
Arc Pro B60
با ۲۴ گیگابایت حافظه GDDR6 و رابط ۱۹۲ بیتی، تنها با قیمت ۵۰۰ دلار معرفی شده، یه گزینه بسیار مقرون بصرفه برای ایستگاه های کاری در حوزه هوش مصنوعی.
مدل پایینتر یعنی Arc Pro B50 دارای ۱۶ گیگابایت حافظه هست و هنوز قیمت دقیقی نداره، اما انتظار میره با قیمت کمتر از B60 عرضه شه.
همچنین نسخه دوگانه B60 با دو GPU و مجموع ۴۸ گیگ رم برای پردازش های سنگین هوش مصنوعی طراحی شده. این نسخه احتمالاً با قیمتی زیر ۱۰۰۰ دلار وارد بازار خواهد شد.
در شرایطی که NVIDIA و AMD همچنان تمرکز بر بازارهای حرفهای دارن، اینتل با این قیمت گذاری تهاجمی و حافظه های بالا، تلاش میکنه جایگاه جدی تری در بازار GPU های workstation و AI پیدا کنه.
https://youtu.be/Y8MWbPBP9i0?si=wuq5iRl9zWFF0Ret
Arc Pro B60
با ۲۴ گیگابایت حافظه GDDR6 و رابط ۱۹۲ بیتی، تنها با قیمت ۵۰۰ دلار معرفی شده، یه گزینه بسیار مقرون بصرفه برای ایستگاه های کاری در حوزه هوش مصنوعی.
مدل پایینتر یعنی Arc Pro B50 دارای ۱۶ گیگابایت حافظه هست و هنوز قیمت دقیقی نداره، اما انتظار میره با قیمت کمتر از B60 عرضه شه.
همچنین نسخه دوگانه B60 با دو GPU و مجموع ۴۸ گیگ رم برای پردازش های سنگین هوش مصنوعی طراحی شده. این نسخه احتمالاً با قیمتی زیر ۱۰۰۰ دلار وارد بازار خواهد شد.
در شرایطی که NVIDIA و AMD همچنان تمرکز بر بازارهای حرفهای دارن، اینتل با این قیمت گذاری تهاجمی و حافظه های بالا، تلاش میکنه جایگاه جدی تری در بازار GPU های workstation و AI پیدا کنه.
https://youtu.be/Y8MWbPBP9i0?si=wuq5iRl9zWFF0Ret
YouTube
Intel Arc B60 DUAL-GPU 48GB Video Card Tear-Down | MAXSUN Arc Pro B60 Dual
Sponsor: Hyte Y70 and Touch Infinite on their site https://geni.us/Ir9vKEK
This is a dual-GPU video card with 2x Intel Arc GPUs on one PCB. Intel has new Arc GPUs in the Battlemage family that are using existing BMG silicon, but with more memory and some…
This is a dual-GPU video card with 2x Intel Arc GPUs on one PCB. Intel has new Arc GPUs in the Battlemage family that are using existing BMG silicon, but with more memory and some…
👍9❤🔥2❤1🔥1
Forwarded from آکادمی Med-AI
در آکادمی Med-AI شبکه نخبگان ایران با ما همراه باشید
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍2🔥1
گوگل به تازگی مدلهای جدید Gemma 3n رو در HuggingFace منتشر کرده.
مدلهای Gemma 3n برای اجرای بهینه روی دستگاههایی با منابع محدود مثل تلفن همراه به صورت محلی طراحی شدن. این مدل ها توانایی دریافت ورودی های چندرسانهای رو دارن به این معنی که میتونن متن، تصویر، ویدیو و صدا رو پردازش و خروجی متنی تولید کنن. این مدلها با داده های ۱۴۰ زبان آموزش دیدن.
مدلهای Gemma 3n از فناوری "فعال سازی انتخابی پارامترها" استفاده میکنن تا نیاز به منابع رو کاهش بدن. این تکنیک باعث میشه مدل فقط بخش هایی از پارامترهاش رو هنگام انجام یک وظیفه فعال کنه. در نتیجه مصرف حافظه کاهش پیدا میکنه، بدون افت قابل توجه در عملکرد.
https://huggingface.co/collections/google/gemma-3n-preview-682ca41097a31e5ac804d57b
مدلهای Gemma 3n برای اجرای بهینه روی دستگاههایی با منابع محدود مثل تلفن همراه به صورت محلی طراحی شدن. این مدل ها توانایی دریافت ورودی های چندرسانهای رو دارن به این معنی که میتونن متن، تصویر، ویدیو و صدا رو پردازش و خروجی متنی تولید کنن. این مدلها با داده های ۱۴۰ زبان آموزش دیدن.
مدلهای Gemma 3n از فناوری "فعال سازی انتخابی پارامترها" استفاده میکنن تا نیاز به منابع رو کاهش بدن. این تکنیک باعث میشه مدل فقط بخش هایی از پارامترهاش رو هنگام انجام یک وظیفه فعال کنه. در نتیجه مصرف حافظه کاهش پیدا میکنه، بدون افت قابل توجه در عملکرد.
https://huggingface.co/collections/google/gemma-3n-preview-682ca41097a31e5ac804d57b
👍17