یه سری مقالات از یه آزمایشگاه هوش مصنوعی تو دانشگاه بریتیش کلمبیا اخیراً منتشر شدن که در نگاه اول خیلی خاص به نظر نمیان، ولی جالبیشون اینه که این تحقیقات توسط یه "دانشمند هوش مصنوعی" ساخته شدن. این پروژه با همکاری دانشگاه آکسفورد و استارتاپ Sakana AI ایجاد شده و هدفش اینه که به هوش مصنوعی یاد بده خودش ایدههای جدید خلق و کشف کنه.
الان بیشتر مدل های هوشمند نیاز به دادههای انسانی دارن، اما اگه بتونن خودشون بتنهایی ایدههای جالب کشف کنن، ممکنه خیلی فراتر از تواناییهای فعلی پیش برن. مثلاً تو این پروژه، یه "دانشمند هوش مصنوعی" خودکار آزمایشها و کدها رو مینویسه و اجرا میکنه.
https://arxiv.org/abs/2408.06292
نتایجش فعلاً خارقالعاده نیست، ولی محققینی مثل Jeff Clune باور دارن با افزایش قدرت محاسباتی، این سیستمها خیلی قویتر میشن.
البته یه سری محقق دیگه مثل Tom Hope میگن این سیستمها هنوز خیلی قابل اعتماد نیستن و نمیشه بهشون برای کشفهای بزرگ علمی تکیه کرد.
با این حال، این یادگیری آزاد ممکنه کلید ساخت هوش مصنوعی قدرتمندتر باشه.Clune اخیراً پروژهای رو معرفی کرده که در اون هوش مصنوعی نمایندگانی طراحی کرده که تو بعضی وظایف مثل ریاضیات و درک مطلب از انسانها بهتر عمل میکنن. البته Clune هشدار داده که این تکنولوژی ممکنه خطرناک باشه و باید با احتیاط پیش رفت.
https://arxiv.org/abs/2408.08435
الان بیشتر مدل های هوشمند نیاز به دادههای انسانی دارن، اما اگه بتونن خودشون بتنهایی ایدههای جالب کشف کنن، ممکنه خیلی فراتر از تواناییهای فعلی پیش برن. مثلاً تو این پروژه، یه "دانشمند هوش مصنوعی" خودکار آزمایشها و کدها رو مینویسه و اجرا میکنه.
https://arxiv.org/abs/2408.06292
نتایجش فعلاً خارقالعاده نیست، ولی محققینی مثل Jeff Clune باور دارن با افزایش قدرت محاسباتی، این سیستمها خیلی قویتر میشن.
البته یه سری محقق دیگه مثل Tom Hope میگن این سیستمها هنوز خیلی قابل اعتماد نیستن و نمیشه بهشون برای کشفهای بزرگ علمی تکیه کرد.
با این حال، این یادگیری آزاد ممکنه کلید ساخت هوش مصنوعی قدرتمندتر باشه.Clune اخیراً پروژهای رو معرفی کرده که در اون هوش مصنوعی نمایندگانی طراحی کرده که تو بعضی وظایف مثل ریاضیات و درک مطلب از انسانها بهتر عمل میکنن. البته Clune هشدار داده که این تکنولوژی ممکنه خطرناک باشه و باید با احتیاط پیش رفت.
https://arxiv.org/abs/2408.08435
arXiv.org
The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery
One of the grand challenges of artificial general intelligence is developing agents capable of conducting scientific research and discovering new knowledge. While frontier models have already been...
👍8😱6❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Facepoke: Realtime head transformation
Code : https://github.com/jbilcke-hf/FacePoke?tab=readme-ov-file#introduction
Demo: https://huggingface.co/spaces/jbilcke-hf/FacePoke
Code : https://github.com/jbilcke-hf/FacePoke?tab=readme-ov-file#introduction
Demo: https://huggingface.co/spaces/jbilcke-hf/FacePoke
👍6❤1🔥1
💵ثروت مدیرعامل انویدیا از کل ارزش اینتل بیشتر شد
🔹پیشروی جنونآمیز هوش مصنوعی باعث شده سهام #انویدیا، بهعنوان یکی از بزرگترین تولیدکنندگان پردازشگرهای گرافیکی هوش مصنوعی، افزایش یابد. جهش سهام انویدیا برای جنسن هوانگ که بیش از ۷۵ میلیون سهم شرکت را در اختیار دارد، نتیجهای عالی داشت. براساس شاخص میلیاردرهای بلومبرگ، دارایی جنسن هوانگ اکنون ۱۰۹.۲ میلیارد دلار است و در رتبه سیزدهم ثروتمندان جهان قرار دارد. از سویی، ارزش بازار اینتل نیز ۹۶.۵۹ میلیارد دلار است.
🔹اگرچه جنسن هوانگ میتواند #اینتل را بخرد و حدود ۱۳ میلیارد دلار نیز از ثروتش باقی میماند، چنین کاری بسیار بعید است.
———————-
🙏منبع: @Digiato
🔹پیشروی جنونآمیز هوش مصنوعی باعث شده سهام #انویدیا، بهعنوان یکی از بزرگترین تولیدکنندگان پردازشگرهای گرافیکی هوش مصنوعی، افزایش یابد. جهش سهام انویدیا برای جنسن هوانگ که بیش از ۷۵ میلیون سهم شرکت را در اختیار دارد، نتیجهای عالی داشت. براساس شاخص میلیاردرهای بلومبرگ، دارایی جنسن هوانگ اکنون ۱۰۹.۲ میلیارد دلار است و در رتبه سیزدهم ثروتمندان جهان قرار دارد. از سویی، ارزش بازار اینتل نیز ۹۶.۵۹ میلیارد دلار است.
🔹اگرچه جنسن هوانگ میتواند #اینتل را بخرد و حدود ۱۳ میلیارد دلار نیز از ثروتش باقی میماند، چنین کاری بسیار بعید است.
———————-
🙏منبع: @Digiato
😁10😱8❤2👌2
Forwarded from ByteSize Brains ™
آکادمی سلطنتی علوم سوئد جایزه نوبل فیزیک ۲۰۲۴ رو به جان جی. هاپفیلد و جفری هینتون اهدا کردن «به خاطر کشفیات و اختراعات بنیادی که یادگیری ماشین با شبکههای عصبی مصنوعی رو ممکن کردن.»
https://youtu.be/SBGG4WNweEc
کاملاً سزاوار بود برای کسانی که در عمل بکپراپگیشن، شبکههای پیشخور و «یادگیری عمیق» رو توسعه دادن.
این دو نفر در واقع نیوتون دنیای یادگیری ماشین هستن. نه تنها الگوریتمهایی رو پایهگذاری کردن که به سیستمهایی که امروزه استفاده میکنیم مقیاس دادن، بلکه برای اولین بار تئوریهایی رو فرموله کردن که میتونستن رفتار آینده مدلها رو پیشبینی کنن، که این کار، به جای اینکه فقط یه نقطه عطف مهندسی باشه، واقعا یه تحول در فیزیک محسوب میشه.
https://youtu.be/SBGG4WNweEc
کاملاً سزاوار بود برای کسانی که در عمل بکپراپگیشن، شبکههای پیشخور و «یادگیری عمیق» رو توسعه دادن.
این دو نفر در واقع نیوتون دنیای یادگیری ماشین هستن. نه تنها الگوریتمهایی رو پایهگذاری کردن که به سیستمهایی که امروزه استفاده میکنیم مقیاس دادن، بلکه برای اولین بار تئوریهایی رو فرموله کردن که میتونستن رفتار آینده مدلها رو پیشبینی کنن، که این کار، به جای اینکه فقط یه نقطه عطف مهندسی باشه، واقعا یه تحول در فیزیک محسوب میشه.
YouTube
Announcement of the 2024 Nobel Prize in Physics
The Royal Swedish Academy of Sciences has decided to award the Nobel Prize in Physics 2024 to John J. Hopfield and Geoffrey E. Hinton “for foundational discoveries and inventions that enable machine learning with artificial neural networks”.
#NobelPrize…
#NobelPrize…
👍14😱1
ترنسفورمرها معمولا توجه زیادی به اطلاعات نامربوط دارن که این موضوع میتونه دقتشون رو در کارهای مختلف یادگیری ماشین مثل خلاصهسازی متن یا پاسخ دادن به سوالات کم کنه.
برای حل این مشکل، محققین مایکروسافت Diff Transformer رو در این مقاله ارایه دادن. در واقع در این مقاله روش جدیدی به نام مکانیزم توجه تفاضلی ارایه شده. بهجای اینکه نمرات توجه رو بطور یکپارچه محاسبه کنه، از تفریق دو نگاشت توجه استفاده میکنه.
این کار باعث میشه نویز و اطلاعات نامربوط حذف بشه و الگوهای توجه پراکنده(Sparce attention) تشویق بشن.
نتایج آزمایشها نشون میده که Diff Transformer نه تنها توی آزمایشها عملکرد بهتری داره، بلکه در کاربردهای واقعی هم مزایای زیادی داره.
مثلاً در متون طولانی، بازیابی اطلاعات کلیدی و کاهش توهمات(hallucinations) در مدلهای زبانی، پیشرفتهای قابلتوجهی داشته.
https://arxiv.org/abs/2410.05258
برای حل این مشکل، محققین مایکروسافت Diff Transformer رو در این مقاله ارایه دادن. در واقع در این مقاله روش جدیدی به نام مکانیزم توجه تفاضلی ارایه شده. بهجای اینکه نمرات توجه رو بطور یکپارچه محاسبه کنه، از تفریق دو نگاشت توجه استفاده میکنه.
این کار باعث میشه نویز و اطلاعات نامربوط حذف بشه و الگوهای توجه پراکنده(Sparce attention) تشویق بشن.
نتایج آزمایشها نشون میده که Diff Transformer نه تنها توی آزمایشها عملکرد بهتری داره، بلکه در کاربردهای واقعی هم مزایای زیادی داره.
مثلاً در متون طولانی، بازیابی اطلاعات کلیدی و کاهش توهمات(hallucinations) در مدلهای زبانی، پیشرفتهای قابلتوجهی داشته.
https://arxiv.org/abs/2410.05258
👌21👍6❤4
ByteSize Brains ™
آکادمی سلطنتی علوم سوئد جایزه نوبل فیزیک ۲۰۲۴ رو به جان جی. هاپفیلد و جفری هینتون اهدا کردن «به خاطر کشفیات و اختراعات بنیادی که یادگیری ماشین با شبکههای عصبی مصنوعی رو ممکن کردن.» https://youtu.be/SBGG4WNweEc کاملاً سزاوار بود برای کسانی که در عمل بکپراپگیشن،…
Hinton: “I'm particularly proud of the fact that one of my students fired Sam Altman.” 😂
https://www.youtube.com/live/H7DgMFqrON0?si=8TKFda6xiI1Gd6Yn
https://www.youtube.com/live/H7DgMFqrON0?si=8TKFda6xiI1Gd6Yn
YouTube
University of Toronto Press Conference - Professor Geoffrey Hinton, Nobel Prize in Physics 2024
Geoffrey Hinton, a University Professor Emeritus of computer science at the University of Toronto, discusses winning the 2024 Nobel Prize in Physics. He is joined by University of Toronto President Meric Gertler.
Widely regarded as the “godfather of AI…
Widely regarded as the “godfather of AI…
👍6🤩3❤1😢1
Tensorflow(@CVision)
Hinton: “I'm particularly proud of the fact that one of my students fired Sam Altman.” 😂 https://www.youtube.com/live/H7DgMFqrON0?si=8TKFda6xiI1Gd6Yn
"If you believe in something, don't give up on it, until you understand why it is wrong! ... Don't let people tell you it's nonsense, if you can't see why it is nonsense"
👍18❤3😁1
در دومین موفقیت نوبل برای هوش مصنوعی، آکادمی علوم سلطنتی سوئد نیمی از جایزه نوبل شیمی ۲۰۲۴ رو به دمیس هاسابیس، یکی از بنیانگذاران و مدیرعامل گوگل دیپمایند، و جان ام. جامپر، مدیر همین شرکت، برای کارشون روی استفاده از هوش مصنوعی برای پیشبینی ساختار پروتئینهااهدا کرد . نیمه دیگه جایزه به دیوید بیکر، استاد بیوشیمی دانشگاه واشنگتن، برای کارش در طراحی محاسباتی پروتئین رسید
https://www.businessinsider.com/google-deepmind-ceo-wins-nobel-prize-chemistry-demis-hassabis-2024-10
https://www.businessinsider.com/google-deepmind-ceo-wins-nobel-prize-chemistry-demis-hassabis-2024-10
Business Insider
Google DeepMind CEO wins joint Nobel Prize in chemistry for work on AlphaFold
Demis Hassabis and a fellow DeepMinder, John Jumper, won one-half of the Nobel Prize in chemistry.
❤9😢1
Tensorflow(@CVision)
در دومین موفقیت نوبل برای هوش مصنوعی، آکادمی علوم سلطنتی سوئد نیمی از جایزه نوبل شیمی ۲۰۲۴ رو به دمیس هاسابیس، یکی از بنیانگذاران و مدیرعامل گوگل دیپمایند، و جان ام. جامپر، مدیر همین شرکت، برای کارشون روی استفاده از هوش مصنوعی برای پیشبینی ساختار پروتئینهااهدا…
اگه علاقه مندید بایستی عرض کنم که نوبل به خاطر مقاله مهم AlphaFold اهدا شد. این روش یه پیشرفت انقلابی در زمینه زیستشناسیه که به یکی از بزرگترین و پیچیده ترین مسائل علمی یعنی پیش بینی ساختار سه بعدی پروتئینها، پس از ۵۰ سال تلاش، پاسخ داده.
پروتئینها بعد از ساخته شدن، خودشون به صورت خودکار و بر اساس قوانین فیزیکی به شکل سه بعدی خاصی تا میخورن. این شکل سه بعدی برای انجام وظایف اونها بسیار مهمه.
در حال حاضر، ما کد ژنتیکی مربوط به ۲۰۰ میلیون پروتئین رو می دونیم و هر ساله دهها میلیون پروتئین جدید کشف میشن. اما بهترین روشی که قبلا برای تعیین شکل سه بعدی یه پروتئین وجود داشت، حدود یک سال زمان میبرد و هزینه ای در حدود ۱۲۰ هزار دلار داشت.
با این روش، فقط تونستند شکل کمتر از ۲۰۰ هزار پروتئین را پیدا کنن. این یعنی این روش برای مقیاس بزرگ (مثل فهمیدن عملکرد همه پروتئینهای بدن انسان) جوابگو نبود.
اگه بتونیم مشکل تاشدگی پروتئینها رو حل کنیم، محققان قادر خواهند بود که یه رشته DNA رو که عملکردش ناشناخته ست، بگیرن و یه مدل سه بعدی از پروتئینی که این DNA کدگذاری میکنه، بسازن.
با بررسی این مدل سه بعدی، میتونن عملکرد اون پروتئین رو بفهمن.
این مسئله خیلی مهمه، چون بسیاری از بیماریها به دلیل تا شدگی اشتباه پروتئینها به وجود میان.
اگه ما پروسه تا شدگی پروتئینها رو درک کنیم، محققان میتونن پروتئینهای جدیدی بسازن که عملکرد پروتئینهای دیگه روتغییر بدن، مثلا پروتئینی بسازن که مشکل تا شدگی اشتباه یه پروتئین دیگه رو اصلاح کنه یا مثلاً میتونن آنزیمهای جدیدی خلق کنن که به باکتریها کمک کنن تا پلاستیکها رو تجزیه کنه.
آلفا فولد میتونه به پیشبینی نحوهی واکنش ساختارها و جهشهای خاص پروتئینهای یه فرد به داروهای مختلف کمک کنه. این موضوع منجر به درمانهای شخصی سازیشده و بسیار مؤثر خواهد شد.
این پیشرفت میتونه به طور کلی بهداشت و درمان را متحول کنه و باعث بشه درمانها دقیقتر شن و از روشهای آزمون و خطا که در حال حاضر استفاده میشن، کاسته شه
https://www.nature.com/articles/s41586-021-03819-2
پروتئینها بعد از ساخته شدن، خودشون به صورت خودکار و بر اساس قوانین فیزیکی به شکل سه بعدی خاصی تا میخورن. این شکل سه بعدی برای انجام وظایف اونها بسیار مهمه.
در حال حاضر، ما کد ژنتیکی مربوط به ۲۰۰ میلیون پروتئین رو می دونیم و هر ساله دهها میلیون پروتئین جدید کشف میشن. اما بهترین روشی که قبلا برای تعیین شکل سه بعدی یه پروتئین وجود داشت، حدود یک سال زمان میبرد و هزینه ای در حدود ۱۲۰ هزار دلار داشت.
با این روش، فقط تونستند شکل کمتر از ۲۰۰ هزار پروتئین را پیدا کنن. این یعنی این روش برای مقیاس بزرگ (مثل فهمیدن عملکرد همه پروتئینهای بدن انسان) جوابگو نبود.
اگه بتونیم مشکل تاشدگی پروتئینها رو حل کنیم، محققان قادر خواهند بود که یه رشته DNA رو که عملکردش ناشناخته ست، بگیرن و یه مدل سه بعدی از پروتئینی که این DNA کدگذاری میکنه، بسازن.
با بررسی این مدل سه بعدی، میتونن عملکرد اون پروتئین رو بفهمن.
این مسئله خیلی مهمه، چون بسیاری از بیماریها به دلیل تا شدگی اشتباه پروتئینها به وجود میان.
اگه ما پروسه تا شدگی پروتئینها رو درک کنیم، محققان میتونن پروتئینهای جدیدی بسازن که عملکرد پروتئینهای دیگه روتغییر بدن، مثلا پروتئینی بسازن که مشکل تا شدگی اشتباه یه پروتئین دیگه رو اصلاح کنه یا مثلاً میتونن آنزیمهای جدیدی خلق کنن که به باکتریها کمک کنن تا پلاستیکها رو تجزیه کنه.
آلفا فولد میتونه به پیشبینی نحوهی واکنش ساختارها و جهشهای خاص پروتئینهای یه فرد به داروهای مختلف کمک کنه. این موضوع منجر به درمانهای شخصی سازیشده و بسیار مؤثر خواهد شد.
این پیشرفت میتونه به طور کلی بهداشت و درمان را متحول کنه و باعث بشه درمانها دقیقتر شن و از روشهای آزمون و خطا که در حال حاضر استفاده میشن، کاسته شه
https://www.nature.com/articles/s41586-021-03819-2
Nature
Highly accurate protein structure prediction with AlphaFold
Nature - AlphaFold predicts protein structures with an accuracy competitive with experimental structures in the majority of cases using a novel deep learning architecture.
👍19
مصرف انرژی سیستمهای هوش مصنوعی، بهخصوص مدلهای زبانی بزرگ، توی چند سال اخیر خیلی بحثبرانگیز شده.
آمارها نشون میده که اوایل سال ۲۰۲۳، مصرف روزانه برق مدل ChatGPT بهطور میانگین ۵۶۴ مگاوات ساعت بوده که برابر با مصرف روزانه برق ۱۸ هزار خونهی آمریکاست.
تو بدترین حالت، سرویسهای هوش مصنوعی گوگل ممکنه به اندازهی کل کشور ایرلند برق مصرف کنن، یعنی چیزی حدود ۲۹.۳ تراوات ساعت در سال.
در مدلهای زبانی بزرگ مبتنی بر transformator مکانیزم توجه (attention) یکی از موانع اصلی محسوب میشه که کارایی محاسبات رو محدود میکنه
با داشتن یه ورودی شامل N توکن، پیچیدگی محاسبات مکانیزم توجه استاندارد O(N²) هست که شامل ضرب کردن تنسورهای با ابعاد بالا میشه.
علاوه بر مکانیزم توجه، مقدار زیادی محاسبات ضرب عنصر به عنصر (element-wise) و تبدیلات خطی هم وجود داره که به افزایش حجم محاسبات کمک میکنه.
ادامه داره...
آمارها نشون میده که اوایل سال ۲۰۲۳، مصرف روزانه برق مدل ChatGPT بهطور میانگین ۵۶۴ مگاوات ساعت بوده که برابر با مصرف روزانه برق ۱۸ هزار خونهی آمریکاست.
تو بدترین حالت، سرویسهای هوش مصنوعی گوگل ممکنه به اندازهی کل کشور ایرلند برق مصرف کنن، یعنی چیزی حدود ۲۹.۳ تراوات ساعت در سال.
در مدلهای زبانی بزرگ مبتنی بر transformator مکانیزم توجه (attention) یکی از موانع اصلی محسوب میشه که کارایی محاسبات رو محدود میکنه
با داشتن یه ورودی شامل N توکن، پیچیدگی محاسبات مکانیزم توجه استاندارد O(N²) هست که شامل ضرب کردن تنسورهای با ابعاد بالا میشه.
علاوه بر مکانیزم توجه، مقدار زیادی محاسبات ضرب عنصر به عنصر (element-wise) و تبدیلات خطی هم وجود داره که به افزایش حجم محاسبات کمک میکنه.
ادامه داره...
🔥4👍2
Tensorflow(@CVision)
مصرف انرژی سیستمهای هوش مصنوعی، بهخصوص مدلهای زبانی بزرگ، توی چند سال اخیر خیلی بحثبرانگیز شده. آمارها نشون میده که اوایل سال ۲۰۲۳، مصرف روزانه برق مدل ChatGPT بهطور میانگین ۵۶۴ مگاوات ساعت بوده که برابر با مصرف روزانه برق ۱۸ هزار خونهی آمریکاست. …
یه مقاله جالب با عنوان "ADDITION IS ALL YOU NEED" اخیرا از دانشگاه MIT منتشر شده و روش جدیدی رو ارائه میده که هدفش کاهش قابلتوجه مصرف انرژی در مدلهای زبانی بزرگ هست.
تکنیک جدید میتونه مصرف انرژی توی محاسبات ترنسفورمرها رو بهطور چشمگیری کم کنه.
الگوریتم جدید به اسم "ضرب با پیچیدگی خطی" (L-Mul)، ضربهای عددی شناور (floating-point) رو با استفاده از جمع اعداد صحیح که انرژی کمتری مصرف میکنه، به جای ضربهای پرهزینه، تقریب میزنه.
در سختافزارهای مدرن کامپیوتر، ضرب اعداد شناور (floating-point) خیلی بیشتر از جمع انرژی مصرف میکنه. به طور خاص، ضرب دو عدد اعشاری ۳۲ بیتی (fp32) چهار برابر بیشتر از جمع دو عدد fp32 انرژی میبره و ۳۷ برابر بیشتر از جمع دو عدد صحیح ۳۲ بیتی (int32) هزینه داره.
در ضرب اعداد شناور سنتی قسمتی که بیشترین بار محاسباتی رو داره ضرب مانتیساهای(قسمت اعشار) اعداد هستند که در روش پیشنهادی به جای استفاده از ضرب مستقیم مانتیساها، تقریب مناسبی برای اون ارائه میدن تا از جمع استفاده کنن که انرژی بسیار کمتری مصرف میکنه
در مقاله گفته شد که بدون کاهش دقت و عملکرد مدل، مصرف انرژی تا ۸۰ درصد کاهش پیدا میکنه!
https://arxiv.org/html/2410.00907v2
به عنوان یادآوری ضرب اعداد اعشاری در سیستم باینری این ویدیو پیشنهاد میشه:
https://youtu.be/I0ol63OXojc?feature=shared
تکنیک جدید میتونه مصرف انرژی توی محاسبات ترنسفورمرها رو بهطور چشمگیری کم کنه.
الگوریتم جدید به اسم "ضرب با پیچیدگی خطی" (L-Mul)، ضربهای عددی شناور (floating-point) رو با استفاده از جمع اعداد صحیح که انرژی کمتری مصرف میکنه، به جای ضربهای پرهزینه، تقریب میزنه.
در سختافزارهای مدرن کامپیوتر، ضرب اعداد شناور (floating-point) خیلی بیشتر از جمع انرژی مصرف میکنه. به طور خاص، ضرب دو عدد اعشاری ۳۲ بیتی (fp32) چهار برابر بیشتر از جمع دو عدد fp32 انرژی میبره و ۳۷ برابر بیشتر از جمع دو عدد صحیح ۳۲ بیتی (int32) هزینه داره.
در ضرب اعداد شناور سنتی قسمتی که بیشترین بار محاسباتی رو داره ضرب مانتیساهای(قسمت اعشار) اعداد هستند که در روش پیشنهادی به جای استفاده از ضرب مستقیم مانتیساها، تقریب مناسبی برای اون ارائه میدن تا از جمع استفاده کنن که انرژی بسیار کمتری مصرف میکنه
در مقاله گفته شد که بدون کاهش دقت و عملکرد مدل، مصرف انرژی تا ۸۰ درصد کاهش پیدا میکنه!
https://arxiv.org/html/2410.00907v2
به عنوان یادآوری ضرب اعداد اعشاری در سیستم باینری این ویدیو پیشنهاد میشه:
https://youtu.be/I0ol63OXojc?feature=shared
YouTube
2 Multiplying Floating Point Numbers
🔥8👍1
اگر شما هم تو خونه یه کامپیوتر خوب بستید که بهش ریموت بزنید مدل Train کنید، یا تو شرکت یه سرور برای Train گذاشتن دارید، لازم نیست همیشه سیستمتونو روشن بزارید، با یه پکت ساده میتونید سیستمتونو روشن کنید یا از حالت Sleep در بیاریدش
اگر قبلا با WoL کار نکردید و به کارتون میاد این پست را بخونید...
اگر قبلا با WoL کار نکردید و به کارتون میاد این پست را بخونید...
کلاسویژن
روشن کردن سرور با یک کلیک: همه چیز درباره Wake on LAN - کلاسویژن
اگر شما هم از اون دسته از افرادی هستید که در شرکت یا منزل یک سیستم حرفه ای برای آموزش مدلهای دیپلرنینگ دارید، احتمالاً این سناریو براتون آشناست: میخواید به
❤8👍3👌3
This media is not supported in your browser
VIEW IN TELEGRAM
گوگل Gemini: قابلیت تولید تصویر با مدل Imagen 3 الان برای همهی کاربران Gemini در سراسر دنیا بصورت رایگان در دسترسه.
❤17👍9
این مقاله بررسی میکنه که آیا مدلهای زبانی بزرگ مثل Llama، Phi، Gemma، Mistral و GPT-4o و سری o1 از OpenAI واقعاً توانایی استدلال دارن یا فقط دارن الگوها رو بهخوبی تشخیص میدن. نکته اینجاست که مدلهای کوچکتر (مثلاً ۳ میلیارد پارامتری) الان عملکرد بهتری نسبت به مدلهای بزرگتر قدیمی (مثل GPT-3) دارن و تا ۹۵٪ دقت توی تستهای ریاضی مثل GSM8K دارن. اما سوال اینه: آیا واقعاً دارن استدلال میکنن یا فقط الگوها رو تشخیص میدن؟
نکات اصلی شامل ایناست:
نوسان در عملکرد: توی مشکلات مشابه، عملکرد مدلها خیلی نوسان داره. مثلاً مدلهای Llama 8B و Phi-3 توی نمراتشون تغییرات زیادی نشون میدن، که نشون میده نمیشه به استدلالشون اعتماد کرد.
حساسیت به تغییرات: این مدلها خیلی حساسن، مخصوصاً وقتی اسامی یا اعداد توی سوال تغییر کنه. این موضوع باعث میشه به درک واقعی مدلها از مفاهیم شک کنیم، چون تغییر اسم نباید باعث افت نمره بشه، ولی میشه!
افزایش سختی سوالات: هرچی سوالات پیچیدهتر میشه، عملکرد مدلها ضعیفتر میشه و نوسان بیشتری نشون میده، که این ضعفشون توی استدلالهای چالشبرانگیز رو نشون میده.
آزمایش "No-Op": وقتی اطلاعات غیرضروری ولی بهظاهر مهم به سوال اضافه میشه، عملکرد مدلها بهشدت افت میکنه. این نشون میده که شاید مدلها ساختار یا منطق مسئله رو درست نفهمیدن.
محدودیت در مقیاسدهی: بزرگتر کردن دادهها، مدلها یا قدرت محاسباتی لزوماً باعث استدلال بهتر نمیشه. بهبود در عملکرد بیشتر به تشخیص الگوها مربوطه، نه به درک واقعی و عمیق.
https://arxiv.org/abs/2410.05229
نکات اصلی شامل ایناست:
نوسان در عملکرد: توی مشکلات مشابه، عملکرد مدلها خیلی نوسان داره. مثلاً مدلهای Llama 8B و Phi-3 توی نمراتشون تغییرات زیادی نشون میدن، که نشون میده نمیشه به استدلالشون اعتماد کرد.
حساسیت به تغییرات: این مدلها خیلی حساسن، مخصوصاً وقتی اسامی یا اعداد توی سوال تغییر کنه. این موضوع باعث میشه به درک واقعی مدلها از مفاهیم شک کنیم، چون تغییر اسم نباید باعث افت نمره بشه، ولی میشه!
افزایش سختی سوالات: هرچی سوالات پیچیدهتر میشه، عملکرد مدلها ضعیفتر میشه و نوسان بیشتری نشون میده، که این ضعفشون توی استدلالهای چالشبرانگیز رو نشون میده.
آزمایش "No-Op": وقتی اطلاعات غیرضروری ولی بهظاهر مهم به سوال اضافه میشه، عملکرد مدلها بهشدت افت میکنه. این نشون میده که شاید مدلها ساختار یا منطق مسئله رو درست نفهمیدن.
محدودیت در مقیاسدهی: بزرگتر کردن دادهها، مدلها یا قدرت محاسباتی لزوماً باعث استدلال بهتر نمیشه. بهبود در عملکرد بیشتر به تشخیص الگوها مربوطه، نه به درک واقعی و عمیق.
https://arxiv.org/abs/2410.05229
arXiv.org
GSM-Symbolic: Understanding the Limitations of Mathematical...
Recent advancements in Large Language Models (LLMs) have sparked interest in their formal reasoning capabilities, particularly in mathematics. The GSM8K benchmark is widely used to assess the...
👍28❤4
This media is not supported in your browser
VIEW IN TELEGRAM
Flux
بالاخره متن باز شد.
سایت Replicate نسخه بهینه شده FluX رو عرضه کرد که سرعت بسیار بالایی داره، بطوریکه تصاویر در هنگام تایپ به صورت برخط تولید میشن.
متن وارد شده:در خان اول، رستم برای نجات ایران با شیر وحشی مبارزه میکنه و اون رو شکست میده
https://replicate.com/blog/flux-is-fast-and-open-source
بالاخره متن باز شد.
سایت Replicate نسخه بهینه شده FluX رو عرضه کرد که سرعت بسیار بالایی داره، بطوریکه تصاویر در هنگام تایپ به صورت برخط تولید میشن.
متن وارد شده:در خان اول، رستم برای نجات ایران با شیر وحشی مبارزه میکنه و اون رو شکست میده
https://replicate.com/blog/flux-is-fast-and-open-source
👍17❤4
This media is not supported in your browser
VIEW IN TELEGRAM
گروهی به نام PrimeIntellect در تلاشه تا یک مدل هوش مصنوعی بزرگ را با استفاده از توان پردازشی کامپیوترهای سراسر جهان آموزش بده. سیستمی به نام INTELLECT-1 طراحی کردن که به افراد این امکان رو میده تا با به اشتراک گذاشتن قدرت پردازش کامپیوتر خودشون، در آموزش یک مدل هوش مصنوعی ۱۰ میلیارد پارامتری مشارکت کنن.
این ابتکار خاص و منحصر به فرده، چرا که معمولا تنها شرکتهای بزرگ فناوری توانایی آموزش مدلهای به این مقیاس رو دارن .
هدف PrimeIntellect اینه که هوش مصنوعی قدرتمندی ایجاد کنه که همه بتونن به اون دسترسی داشته باشن و نحوه کارکرد اون رو درک کنن، و این فناوری به جای اینکه در انحصار چند شرکت بزرگ باشه، برای همگان در دسترس باشه
https://github.com/PrimeIntellect-ai/prime
این ابتکار خاص و منحصر به فرده، چرا که معمولا تنها شرکتهای بزرگ فناوری توانایی آموزش مدلهای به این مقیاس رو دارن .
هدف PrimeIntellect اینه که هوش مصنوعی قدرتمندی ایجاد کنه که همه بتونن به اون دسترسی داشته باشن و نحوه کارکرد اون رو درک کنن، و این فناوری به جای اینکه در انحصار چند شرکت بزرگ باشه، برای همگان در دسترس باشه
https://github.com/PrimeIntellect-ai/prime
👍23🔥10❤3👌3
This media is not supported in your browser
VIEW IN TELEGRAM
ایلیا ساتسکیور تو سال ۲۰۱۸ گفت که یکی از راههای آموزش هوش مصنوعی عمومی (AGI)، اینه که بذاریم خودش با خودش بازی کنه و یاد بگیره. منظورش از این کار اینه که یه مدل هوش مصنوعی با تکرار و بازی کردن با خودش، کم کم یاد میگیره چطور هوشمندانه تر عمل کنه و استراتژی های بهتری پیدا کنه. اینطوری، با تجربه و رفع اشتباهات، میتونه رفته رفته به سطح بالایی از توانایی ها برسه.
همچنین درباره سیستم های چند عاملی صحبت کرد که اونا رو «جامعه عاملها» نامیده. یعنی چندین مدل هوش مصنوعی که با هم کار میکنن یا حتی با هم رقابت میکنن تا یه هدف خاص رو به دست بیارن. حالا که شرکت هایی مثل OpenAI و DeepMind تیم های تحقیقاتی روی این موضوع راه انداختن، این ایده بیش از همیشه مطرح شده. هدفشون اینه که با این مدل های چند عاملی، رفتارهای پیچیده تر و هوشمندانه تری رو در سیستم ها ایجاد کنن.
https://community.openai.com/t/multi-agent-system-project/771689
همچنین درباره سیستم های چند عاملی صحبت کرد که اونا رو «جامعه عاملها» نامیده. یعنی چندین مدل هوش مصنوعی که با هم کار میکنن یا حتی با هم رقابت میکنن تا یه هدف خاص رو به دست بیارن. حالا که شرکت هایی مثل OpenAI و DeepMind تیم های تحقیقاتی روی این موضوع راه انداختن، این ایده بیش از همیشه مطرح شده. هدفشون اینه که با این مدل های چند عاملی، رفتارهای پیچیده تر و هوشمندانه تری رو در سیستم ها ایجاد کنن.
https://community.openai.com/t/multi-agent-system-project/771689
👍10❤2
Tensorflow(@CVision)
ایلیا ساتسکیور تو سال ۲۰۱۸ گفت که یکی از راههای آموزش هوش مصنوعی عمومی (AGI)، اینه که بذاریم خودش با خودش بازی کنه و یاد بگیره. منظورش از این کار اینه که یه مدل هوش مصنوعی با تکرار و بازی کردن با خودش، کم کم یاد میگیره چطور هوشمندانه تر عمل کنه و استراتژی…
بنظر اگه تا سال ۲۰۳۰به طور معجزه آسایی زنده بمونم دنیای بسیار متفاوتی از الان رو تجربه خواهیم کرد.
دیشب داریو آمودی، یکی از بنیانگذاران و مدیرعامل Anthropic توی مصاحبش گفت که عامل هوش مصنوعی عمومی (AGI) مانند یک ذهن جمعی عمل خواهد کرد، یعنی نه تنها ۱۰۰۰ محقق خواهیم داشت که در هر زمینهای نابغه هستند، بلکه این ۱۰۰۰ محقق هر چیزی که کشف کنن رو با هم به اشتراک میگذارن و به این ترتیب دانش بقیه ۹۹۹ نفر تقریبا بلافاصله افزایش پیدا میکنه.
به همین دلیل، مقایسه هوش انسانی با AGI کار بیهودهایه و در بهترین حالت، این مقایسه فقط در برابر هوش مصنوعی ابرهوشمند (ASI) قابل درکه، اما قطعا برابر نیستن، زیرا AGI محدودیتهای بیولوژیکی نداره
ایده ذهن جمعی (Hive-Mind) در اینجا به این معنیه که اگه هزار عامل هوش مصنوعی وجود داشته باشه، این عاملها میتونن دانش و اطلاعات خود رو به سرعت با هم به اشتراک بگذارن، بدون اینکه محدودیتهای انسانی مانند زمان، خستگی یا محدودیتهای حافظه رو داشته باشن. این توانایی برای بهاشتراک گذاری فوری دانش، قدرتی فراتر از تواناییهای فردی هر کدام از این عاملها رو فراهم میکنه.
کشوری از نوابغ در یک دیتا سنتر
دیشب داریو آمودی، یکی از بنیانگذاران و مدیرعامل Anthropic توی مصاحبش گفت که عامل هوش مصنوعی عمومی (AGI) مانند یک ذهن جمعی عمل خواهد کرد، یعنی نه تنها ۱۰۰۰ محقق خواهیم داشت که در هر زمینهای نابغه هستند، بلکه این ۱۰۰۰ محقق هر چیزی که کشف کنن رو با هم به اشتراک میگذارن و به این ترتیب دانش بقیه ۹۹۹ نفر تقریبا بلافاصله افزایش پیدا میکنه.
به همین دلیل، مقایسه هوش انسانی با AGI کار بیهودهایه و در بهترین حالت، این مقایسه فقط در برابر هوش مصنوعی ابرهوشمند (ASI) قابل درکه، اما قطعا برابر نیستن، زیرا AGI محدودیتهای بیولوژیکی نداره
ایده ذهن جمعی (Hive-Mind) در اینجا به این معنیه که اگه هزار عامل هوش مصنوعی وجود داشته باشه، این عاملها میتونن دانش و اطلاعات خود رو به سرعت با هم به اشتراک بگذارن، بدون اینکه محدودیتهای انسانی مانند زمان، خستگی یا محدودیتهای حافظه رو داشته باشن. این توانایی برای بهاشتراک گذاری فوری دانش، قدرتی فراتر از تواناییهای فردی هر کدام از این عاملها رو فراهم میکنه.
کشوری از نوابغ در یک دیتا سنتر
👍14❤3