Forwarded from رویدادهای هوش مصنوعی
🎓 دوره جامع و تعاملی هوش مصنوعی و یادگیری عمیق 🎓
با همکاری مجموعه دانشبنیان شناسا
🚀 یادگیری عمیق از مبتدی تا حرفهای با TensorFlow/Keras 🚀
همین حالا مسیر خود را به سمت آینده شغلی موفق آغاز کنید!
📚 چرا این دوره؟
✔️ 15 جلسه آنلاین تعاملی + جلسات رفع اشکال
✔️ 40 ساعت محتوای ضبطشده حرفهای
✔️ دسترسی مادامالعمر به محتوای دوره
✔️ امکان دانلود و مشاهدهی آفلاین تمامی جلسات
✔️ گواهی معتبر پایان دوره
✔️ تضمین تسهیل ورود به بازار کار تخصصی
👨🏫 مدرس: علیرضا اخوانپور
مدرس دانشگاه و مدیر فنی شرکت دانشبنیان شناسا
🗓 شروع: 19 شهریور
⏰ دوشنبهها، 18 الی 19:20
🎉 کد تخفیف ویژه زودهنگام:
🔗 همین حالا ثبتنام کنید
https://class.vision/product/deep-learning-ai-course-2/
📞 پشتیبانی: @classvision_support
🔍 اطلاعیهها: @class_vision
با همکاری مجموعه دانشبنیان شناسا
🚀 یادگیری عمیق از مبتدی تا حرفهای با TensorFlow/Keras 🚀
همین حالا مسیر خود را به سمت آینده شغلی موفق آغاز کنید!
📚 چرا این دوره؟
✔️ 15 جلسه آنلاین تعاملی + جلسات رفع اشکال
✔️ 40 ساعت محتوای ضبطشده حرفهای
✔️ دسترسی مادامالعمر به محتوای دوره
✔️ امکان دانلود و مشاهدهی آفلاین تمامی جلسات
✔️ گواهی معتبر پایان دوره
✔️ تضمین تسهیل ورود به بازار کار تخصصی
👨🏫 مدرس: علیرضا اخوانپور
مدرس دانشگاه و مدیر فنی شرکت دانشبنیان شناسا
🗓 شروع: 19 شهریور
⏰ دوشنبهها، 18 الی 19:20
🎉 کد تخفیف ویژه زودهنگام:
deep_early_register
🔗 همین حالا ثبتنام کنید
https://class.vision/product/deep-learning-ai-course-2/
📞 پشتیبانی: @classvision_support
🔍 اطلاعیهها: @class_vision
👍3😁2
خلاصه ای از پست Andrew NG در مورد استراتژیهای توسعه هوش مصنوعی با توجه به کاهش قیمت توکن مدلهای زبانی و نوآوری های جدید:
پس از کاهش قیمت های اخیر توسط OpenAI، اکنون هزینهی توکنهای GPT-4o به 4 دلار به ازای هر یک میلیون توکن کاهش یافته است این در حالی است که در زمان عرضه اولیه در مارس 2023، هزینهی GPT-4 معادل 36 دلار به ازای هر یک میلیون توکن بود. این کاهش قیمت در طی 17 ماه معادل کاهش حدود 79 درصدی در سال است.
قیمت توکنها به سرعت در حال کاهش است! یکی از عوامل کاهش قیمتها، انتشار مدلهای با وزنهای باز مانند Llama 3.1 است. همچنین نوآوریهای سختافزاری که توسط شرکتهایی مانند Groq و Samba Nova (که مدل Llama 3.1 با 405 میلیارد توکن را با سرعت قابل توجهی معادل 114 توکن در ثانیه ارائه میدهد) و استارتاپهایی مانند Cerebras و شرکت های NVIDIA, AMD, Intel, Qualcomm معرفی میشوند منجر به کاهش بیشتر قیمتها خواهند شد.
با توجه به این روندها، انتظار میرود که قیمت توکنها به کاهش خود ادامه دهند، این بدان معناست که حتی اگر شما یک کاری ایجاد کنید که از لحاظ اقتصادی کاملاً مقرون به صرفه نباشد، کاهش قیمت توکنها ممکن است آن را در آینده مقرون به صرفه کند.
برای شرکتهای هوش مصنوعی، مهم است که به جای تمرکز بیش از حد بر بهینهسازی هزینهها، بر ساخت برنامههای مفید تمرکز کنند. با کاهش قیمتها، حتی برنامههایی که در حال حاضر پرهزینه هستند، ممکن است در آینده مقرونبهصرفه شوند.
علاوه بر این، شرکتها باید به صورت دورهای برنامههای خود را بررسی کنند تا ببینند آیا نیاز به تغییر به مدلهای جدیدتر دارند تا از کاهش قیمتها و افزایش قابلیتها بهرهمند شوند. این تغییر ممکن است شامل تغییر از یک مدل به مدل دیگر از همان ارائهدهنده یا حتی از ارائهدهندههای دیگر باشد، به خصوص که مدلهای با وزنهای باز مانند Llama 3.1 اکنون توسط چندین ارائهدهنده میزبانی میشوند.
در نهایت، اگرچه جابجایی بین مدلها به دلیل مشکلاتی مانند اجرای ارزیابیها همچنان چالشبرانگیز است، اما با بهبود ارزیابیها، این کار به مرور زمان آسانتر خواهد شد. این تغییرات به شرکتهای هوش مصنوعی کمک میکند تا با روندهای بازار همگام شده و از فرصتهای جدید بهرهبرداری کنند.
https://www.deeplearning.ai/the-batch/issue-264/
پس از کاهش قیمت های اخیر توسط OpenAI، اکنون هزینهی توکنهای GPT-4o به 4 دلار به ازای هر یک میلیون توکن کاهش یافته است این در حالی است که در زمان عرضه اولیه در مارس 2023، هزینهی GPT-4 معادل 36 دلار به ازای هر یک میلیون توکن بود. این کاهش قیمت در طی 17 ماه معادل کاهش حدود 79 درصدی در سال است.
قیمت توکنها به سرعت در حال کاهش است! یکی از عوامل کاهش قیمتها، انتشار مدلهای با وزنهای باز مانند Llama 3.1 است. همچنین نوآوریهای سختافزاری که توسط شرکتهایی مانند Groq و Samba Nova (که مدل Llama 3.1 با 405 میلیارد توکن را با سرعت قابل توجهی معادل 114 توکن در ثانیه ارائه میدهد) و استارتاپهایی مانند Cerebras و شرکت های NVIDIA, AMD, Intel, Qualcomm معرفی میشوند منجر به کاهش بیشتر قیمتها خواهند شد.
با توجه به این روندها، انتظار میرود که قیمت توکنها به کاهش خود ادامه دهند، این بدان معناست که حتی اگر شما یک کاری ایجاد کنید که از لحاظ اقتصادی کاملاً مقرون به صرفه نباشد، کاهش قیمت توکنها ممکن است آن را در آینده مقرون به صرفه کند.
برای شرکتهای هوش مصنوعی، مهم است که به جای تمرکز بیش از حد بر بهینهسازی هزینهها، بر ساخت برنامههای مفید تمرکز کنند. با کاهش قیمتها، حتی برنامههایی که در حال حاضر پرهزینه هستند، ممکن است در آینده مقرونبهصرفه شوند.
علاوه بر این، شرکتها باید به صورت دورهای برنامههای خود را بررسی کنند تا ببینند آیا نیاز به تغییر به مدلهای جدیدتر دارند تا از کاهش قیمتها و افزایش قابلیتها بهرهمند شوند. این تغییر ممکن است شامل تغییر از یک مدل به مدل دیگر از همان ارائهدهنده یا حتی از ارائهدهندههای دیگر باشد، به خصوص که مدلهای با وزنهای باز مانند Llama 3.1 اکنون توسط چندین ارائهدهنده میزبانی میشوند.
در نهایت، اگرچه جابجایی بین مدلها به دلیل مشکلاتی مانند اجرای ارزیابیها همچنان چالشبرانگیز است، اما با بهبود ارزیابیها، این کار به مرور زمان آسانتر خواهد شد. این تغییرات به شرکتهای هوش مصنوعی کمک میکند تا با روندهای بازار همگام شده و از فرصتهای جدید بهرهبرداری کنند.
https://www.deeplearning.ai/the-batch/issue-264/
AI Restores ALS Patient's Voice, AI Lobby Grows, and more
The Batch AI News and Insights: After a recent price reduction by OpenAI, GPT-4o tokens now cost $4 per million tokens (using a blended rate that...
👍9❤3🔥1
پیج اینستاگرام و همچنین کانال دورهها را نیز دنبال کنید
پیج اینستاگرام:
@class.vision
کانال تلگرامی دورهها:
@class_vision
پیج اینستاگرام:
@class.vision
کانال تلگرامی دورهها:
@class_vision
❤3😁1
به خانواده بزرگ مدلهای زبانی Qwen2 شرکت علیبابا، مدل چندوجهی جدیدی به نام Qwen2-VL اضافه شد. این مدل در زمینه درک تصاویر و ویدیوهای طولانی عملکردی بسیار عالی و در سطح بهترین مدلهای موجود هست و البته به صورت اوپل سورس منتشر شده
در ارزیابیهای دقیقتر بر روی وظایف خاص، Qwen2-VL در اکثر شاخصها به بهترین نتیجه رسیده و حتی از مدلهای منبع بسته مانند GPT-4o نیز پیشی گرفته.
با بهرهگیری از تواناییهای چندوجهی، مدل Qwen2-VL قادره به صورت لحظهای تصاویر دوربین یا صفحه نمایش کامپیوتر را خوانده و به شکل متنی با ویدیو گفتگو کنید
علاوه بر این، این مدل میتونه به عنوان یک عامل (Agent) با محیط اطراف تعامل داشته باشه و براساس هدف تعیین شده، به طور خودکار دستگاههایی مانند تلفن همراه را کنترل کنه
در این نسخه جدید، Qwen2 در سه اندازه 2B، 7B و 72B عرضه شده. نسخههای 2B و 7B برای دانلود و استفاده تجاری رایگان (با مجوز Apache 2.0) در دسترس هستند، در حالی که نسخه 72B از طریق API ارائه میشه
دمو
https://huggingface.co/spaces/Qwen/Qwen2-VL
گیت هاب:
https://github.com/QwenLM/Qwen2-VL
👍6
Tensorflow(@CVision)
به خانواده بزرگ مدلهای زبانی Qwen2 شرکت علیبابا، مدل چندوجهی جدیدی به نام Qwen2-VL اضافه شد. این مدل در زمینه درک تصاویر و ویدیوهای طولانی عملکردی بسیار عالی و در سطح بهترین مدلهای موجود هست و البته به صورت اوپل سورس منتشر شده در ارزیابیهای دقیقتر…
لازم به ذکرع که نسخه 7B نیز از ورودیهای تصویری، ویدئو پشتیبانی میکنه و به سطح پیشرفتهترین مدلهای همرده خود رسیده
کوچکترین نسخه 2B عمدتا برای دستگاههای همراه طراحی شده، اما با وجود اندازه کوچکش، قابلیت درک کامل تصاویر، ویدئوها و زبانهای مختلف رو داره، به خصوص در زمینه درک ویدیوهای مستند و پاسخگویی به سوالات عمومی در مقایسه با مدلهای همرده خود، عملکرد بسیار بهتری داره
کوچکترین نسخه 2B عمدتا برای دستگاههای همراه طراحی شده، اما با وجود اندازه کوچکش، قابلیت درک کامل تصاویر، ویدئوها و زبانهای مختلف رو داره، به خصوص در زمینه درک ویدیوهای مستند و پاسخگویی به سوالات عمومی در مقایسه با مدلهای همرده خود، عملکرد بسیار بهتری داره
👍5❤1
این ویدیو آموزشی درباره نحوه ذخیرهسازی اطلاعات در مدلهای زبان بزرگ هستش
ویدیو با یک مثال شروع میشه: اگر به یک مدل زبانی بزرگ عبارت
را بدین و از اون بخواین پیشبینی کنه که کلمه بعدی چی باید باشه، اگر مدل به درستی "بسکتبال"رو پیشبینی کنه، نشان دهنده این هستش که در جایی از صدها میلیارد پارامتر اون، اطلاعاتی درباره یک فرد خاص و ورزش خاص او ذخیره شده.
سپس ویدیو به این سوال میپردازه که این اطلاعات چگونه ذخیره میشن و کجا قرار دارند. محققان گوگل DeepMind در این زمینه تحقیق کردن و نتیجه گرفتن که این اطلاعات در بخشی از شبکههای عصبی به نام "چندلایه پرسپترون" (MLPs) ذخیره میشن، اما درک کامل مکانیسم این ذخیرهسازی هنوز حل نشده.
ویدیو سپس به جزئیات معماری ترانسفورمرها، که پایه و اساس بسیاری از مدلهای زبان بزرگ هستند، میپردازه. بخش اصلی این معماری "چندلایه پرسپترون"ه که محاسبات اون نسبتا ساده، اما تفسیر این محاسبات بسیار چالشبرانگیزه.
هدف اصلی ویدیو بررسی این محاسبات و ارائه یک مثال مشخص از نحوه ذخیرهسازی یک واقعیت در این بخش از شبکه ست. این مثال نشون میده که چگونه مدل میتونه واقعیت "مایکل جردن بسکتبال بازی میکند" را ذخیره کنه.
ویدیو سپس به جزئیات محاسبات در " پرسپترون چند لایه" میپردازه، از جمله ضرب ماتریسها و تابع غیرخطی ReLU. همچنین به تعداد پارامترهای این بخش و نحوه عملکرد آن در پیشبینی کلمه بعدی میپردازه.
در نهایت، ویدیو به ایده "اثر همپوشانی" اشاره میکنه که و توضیح میده چرا مدلهای زبان بزرگ با افزایش اندازه عملکرد بهتری دارن. این ایده میگه که در فضاهای با ابعاد بالا، میتوان اطلاعات زیادی را در فضاهای تقریبا عمود به هم ذخیره کرد، حتی اگر این اطلاعات کاملاً مستقل نباشن.
https://youtu.be/9-Jl0dxWQs8
ویدیو با یک مثال شروع میشه: اگر به یک مدل زبانی بزرگ عبارت
مایکل جردن ___ بازی میکند
را بدین و از اون بخواین پیشبینی کنه که کلمه بعدی چی باید باشه، اگر مدل به درستی "بسکتبال"رو پیشبینی کنه، نشان دهنده این هستش که در جایی از صدها میلیارد پارامتر اون، اطلاعاتی درباره یک فرد خاص و ورزش خاص او ذخیره شده.
سپس ویدیو به این سوال میپردازه که این اطلاعات چگونه ذخیره میشن و کجا قرار دارند. محققان گوگل DeepMind در این زمینه تحقیق کردن و نتیجه گرفتن که این اطلاعات در بخشی از شبکههای عصبی به نام "چندلایه پرسپترون" (MLPs) ذخیره میشن، اما درک کامل مکانیسم این ذخیرهسازی هنوز حل نشده.
ویدیو سپس به جزئیات معماری ترانسفورمرها، که پایه و اساس بسیاری از مدلهای زبان بزرگ هستند، میپردازه. بخش اصلی این معماری "چندلایه پرسپترون"ه که محاسبات اون نسبتا ساده، اما تفسیر این محاسبات بسیار چالشبرانگیزه.
هدف اصلی ویدیو بررسی این محاسبات و ارائه یک مثال مشخص از نحوه ذخیرهسازی یک واقعیت در این بخش از شبکه ست. این مثال نشون میده که چگونه مدل میتونه واقعیت "مایکل جردن بسکتبال بازی میکند" را ذخیره کنه.
ویدیو سپس به جزئیات محاسبات در " پرسپترون چند لایه" میپردازه، از جمله ضرب ماتریسها و تابع غیرخطی ReLU. همچنین به تعداد پارامترهای این بخش و نحوه عملکرد آن در پیشبینی کلمه بعدی میپردازه.
در نهایت، ویدیو به ایده "اثر همپوشانی" اشاره میکنه که و توضیح میده چرا مدلهای زبان بزرگ با افزایش اندازه عملکرد بهتری دارن. این ایده میگه که در فضاهای با ابعاد بالا، میتوان اطلاعات زیادی را در فضاهای تقریبا عمود به هم ذخیره کرد، حتی اگر این اطلاعات کاملاً مستقل نباشن.
https://youtu.be/9-Jl0dxWQs8
YouTube
How might LLMs store facts | Deep Learning Chapter 7
Unpacking the multilayer perceptrons in a transformer, and how they may store facts
Instead of sponsored ad reads, these lessons are funded directly by viewers: https://3b1b.co/support
An equally valuable form of support is to share the videos.
AI Alignment…
Instead of sponsored ad reads, these lessons are funded directly by viewers: https://3b1b.co/support
An equally valuable form of support is to share the videos.
AI Alignment…
👍10❤4
مهمترین رویدادهای هوش مصنوعی در ماه آگوست
Black Forest Labs
مدل تولید تصویر Flux را معرفی کرد که عملکرد بهتری نسبت به مدلهای مشابه با منبع بسته دارد.
OpenAI
نسخه جدیدی از مدل خود، gpt4o 0806، را منتشر کرد که 100% موفقیت در تولید خروجی JSON معتبر دارد.
Google
مدل تولید تصویر Imagen 3 را منتشر کرد.
xAI Corporation
مدلهای Grok 2 و Grok 2 mini را معرفی کرد که عملکردی برابر با مدلهای برتر SOTA در صنعت دارند.
Microsoft
مدلهای کوچک زبانی خود، Phi 3.5، را در سه نسخه معرفی کرد که هر کدام عملکرد چشمگیری نسبت به اندازه خود نشان میدهند.
Google
سه مدل جدید آزمایشگاهی AI را معرفی کرد: Gemini 1.5 Flash8B، Gemini 1.5 Pro Enhanced و Gemini 1.5 Flash Updated.
Ideogram 2.0
منتشر شد و قابلیتهای تولید تصویر را ارائه میدهد که از سایر مدلهای برتر پیشی میگیرد.
Luma
مدل Dream Machine 1.5 را برای تولید ویدیو معرفی کرد.
Magic AI
یک مدل جدید زبان به نام LTM2mini را توسعه داد که میتواند با یک پنجره زمینه 100 میلیون توکن کار کند.
https://nhlocal.github.io/AiTimeline/#2024
Black Forest Labs
مدل تولید تصویر Flux را معرفی کرد که عملکرد بهتری نسبت به مدلهای مشابه با منبع بسته دارد.
OpenAI
نسخه جدیدی از مدل خود، gpt4o 0806، را منتشر کرد که 100% موفقیت در تولید خروجی JSON معتبر دارد.
مدل تولید تصویر Imagen 3 را منتشر کرد.
xAI Corporation
مدلهای Grok 2 و Grok 2 mini را معرفی کرد که عملکردی برابر با مدلهای برتر SOTA در صنعت دارند.
Microsoft
مدلهای کوچک زبانی خود، Phi 3.5، را در سه نسخه معرفی کرد که هر کدام عملکرد چشمگیری نسبت به اندازه خود نشان میدهند.
سه مدل جدید آزمایشگاهی AI را معرفی کرد: Gemini 1.5 Flash8B، Gemini 1.5 Pro Enhanced و Gemini 1.5 Flash Updated.
Ideogram 2.0
منتشر شد و قابلیتهای تولید تصویر را ارائه میدهد که از سایر مدلهای برتر پیشی میگیرد.
Luma
مدل Dream Machine 1.5 را برای تولید ویدیو معرفی کرد.
Magic AI
یک مدل جدید زبان به نام LTM2mini را توسعه داد که میتواند با یک پنجره زمینه 100 میلیون توکن کار کند.
https://nhlocal.github.io/AiTimeline/#2024
nhlocal.github.io
AI Timeline
A comprehensive timeline of Artificial Intelligence milestones from 2022 to present.
👍20🔥1👌1
ارسالی از کاربران کانال:
من همیشه موقع دیباگ کردن و اجرای llm هام خیلی اوقات ریکوئستهام تکراری ان و نتایجشون هم یکیه برا همین یک ابزار رو برای cache کردن همه اون ریکوئستها درست کردم
این ابزارچون به صورت یه پراکسی ساخته شده پس نیازی به تغییری در کدتون ندارید
لینک گیتهاب:
https://github.com/MSNP1381/cache-cool
من همیشه موقع دیباگ کردن و اجرای llm هام خیلی اوقات ریکوئستهام تکراری ان و نتایجشون هم یکیه برا همین یک ابزار رو برای cache کردن همه اون ریکوئستها درست کردم
این ابزارچون به صورت یه پراکسی ساخته شده پس نیازی به تغییری در کدتون ندارید
لینک گیتهاب:
https://github.com/MSNP1381/cache-cool
GitHub
GitHub - MSNP1381/cache-cool: 🌟 Cache-cool: A fast, flexible LLM caching proxy that reduces latency and API costs by caching repetitive…
🌟 Cache-cool: A fast, flexible LLM caching proxy that reduces latency and API costs by caching repetitive calls to LLM services. 🔄 Supports dynamic configurations, 📚 multiple backends (🟥 Redis, 🟢...
👍4❤3
Forwarded from School of AI (Hamidreza Hosseinkhani)
گوگل نامِ TensorFlow Lite را به LiteRT تغییر داد.
درابتدا، TFLite نسخهای سبک از مدلهای تنسورفلو برای اجرا روی دستگاههای موبایل بود.
اما در ادامه تبدیل به یک runtime عمومی برای اجرای مدلهای یادگیری ماشین نوشتهشده توسط TensorFlow و Keras و Pytorch و JAX برروی دستگاههای Edge از جمله موبایلهای اندرویدی و iOS و همینطور Embedded Devices شد.
نام جدید، بیانگر ویژن جدید این محصولست.
https://developers.googleblog.com/en/tensorflow-lite-is-now-litert/?linkId=10850223
درابتدا، TFLite نسخهای سبک از مدلهای تنسورفلو برای اجرا روی دستگاههای موبایل بود.
اما در ادامه تبدیل به یک runtime عمومی برای اجرای مدلهای یادگیری ماشین نوشتهشده توسط TensorFlow و Keras و Pytorch و JAX برروی دستگاههای Edge از جمله موبایلهای اندرویدی و iOS و همینطور Embedded Devices شد.
نام جدید، بیانگر ویژن جدید این محصولست.
https://developers.googleblog.com/en/tensorflow-lite-is-now-litert/?linkId=10850223
❤2👍2
Tensorflow(@CVision)
مدیر اجرایی سامسونگ توی رویداد CEO summit که اخیرا برگذار شد افشا کرد که gpt 5 بیش از ۳ و نیم تریلیون پارامتر داره و نسبت به مدل قبلی بارها هوشمند تره. به نظر تمرکز همچنان روی حفظ بخش عظیمتر داده های اینترنت توسط مدل های بزرگ هست
توی دقیقه ۲۷ این گفتگو آندری کارپاتی میگه:
https://youtu.be/hM_h0UA7upI
Ray Kurzweil
میگه:
https://www.azquotes.com/quote/847331
مدلهای هوشمند نسل اینده به طرز شگفتآوری کوچک هستن و باور داره که مدلهای فعلی ظرفیت زیادی رو صرف یادآوری چیزهایی میکنن که مهم نیستن، از طرفی مجموعه دادهها به بهترین شکل انتخاب نشدن.
میگه ما باید به هسته شناختی برسیم و به نظرم این هسته شناختی میتونه بسیار کوچیک باشه. این هسته چیزیه که فکر میکنه و اگر نیاز به جستجوی اطلاعات داشته باشه، میدونه چطوری از ابزارهای مختلف استفاده کنه. میگه بنظر من حتی مدلی با یک میلیارد پارامتر هم کافیه.(برگرفته شده از تقطیر دانش مدل های بزرگتر)
https://youtu.be/hM_h0UA7upI
Ray Kurzweil
میگه:
در بین اندامهای مغز، فقط یک بخش برای درک و بیان فرآیندهای منطقی بهینه شده و اون لایه بیرونی مغز که قشر مخ نام داره. این بخش تکاملیافته، برخلاف بقیه مغز، نسبتاً تخته و ضخامت اون تنها حدود ۰٫۳۲ سانتیمتر و شامل ۶ میلیون نورون میشه. این اندام پیچدرپیچ، اون توانایی رو که برای درک کارها و خودمان داریم، رو به ما میده
https://www.azquotes.com/quote/847331
YouTube
No Priors Ep. 80 | With Andrej Karpathy from OpenAI and Tesla
Andrej Karpathy joins Sarah and Elad in this week of No Priors. Andrej, who was a founding team member of OpenAI and the former Tesla Autopilot leader, needs no introduction. In this episode, Andrej discusses the evolution of self-driving cars, comparing…
👍26❤2
مدل متن باز Reflection 70B معرفی شد، و ادعا میشه بهترین مدل اوپن سورس جهان باشه!
این مدل با استفاده از تکنیک Reflection-Tuning آموزش دیده، تکنیکی که به مدلهای زبانی بزرگ اجازه میده تا اشتباهات خودشون رو اصلاح کنن
مدل 405B هفته آینده منتشر خواهد شد و انتظار میره که این مدل بهترین مدل در جهان باشه
دمو:
https://reflection-playground-production.up.railway.app/
دانلود:
https://huggingface.co/mattshumer/Reflection-70B
این مدل با استفاده از تکنیک Reflection-Tuning آموزش دیده، تکنیکی که به مدلهای زبانی بزرگ اجازه میده تا اشتباهات خودشون رو اصلاح کنن
مدل 405B هفته آینده منتشر خواهد شد و انتظار میره که این مدل بهترین مدل در جهان باشه
دمو:
https://reflection-playground-production.up.railway.app/
دانلود:
https://huggingface.co/mattshumer/Reflection-70B
huggingface.co
mattshumer/Reflection-Llama-3.1-70B · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
❤15👍5🔥5🙏1👌1
Tensorflow(@CVision)
مدل متن باز Reflection 70B معرفی شد، و ادعا میشه بهترین مدل اوپن سورس جهان باشه! این مدل با استفاده از تکنیک Reflection-Tuning آموزش دیده، تکنیکی که به مدلهای زبانی بزرگ اجازه میده تا اشتباهات خودشون رو اصلاح کنن مدل 405B هفته آینده منتشر خواهد شد و انتظار…
لازم به ذکره Reflection 70B حتی در برابر پیشرفتهترین مدلهای متن بسته (مانند Claude 3.5 Sonnet و GPT-4o) نیز عملکرد بسیار خوبی داره و بهترین مدل زبانی بزرگ در حداقل آزمونهای MMLU، MATH، IFEval و GSM8K هست و در تمام معیارهای ارزیابی شده، GPT-4o رو شکست میده، به صورتی که عملکرد Llama 405B حتی به این مدل نزدیک نیست!
مدلهای زبانی بزرگ کنونی، تمایل به توهمزنی دارن و نمیتونن زمانی که این کار رو دارن انجام میدن تشخیص بدن.
در زمینه هوش مصنوعی، وقتی میگیم یه مدل زبانی بزرگ (LLM) "توهم میزنه"، به این معنیه که اون مدل اطلاعاتی رو تولید میکنه که با واقعیت مطابقت نداره. به عبارت دیگه، مدل اطلاعاتی رو ایجاد میکنه که گویی واقعی هستن، در حالی که در واقع ساخته ذهن خود مدله.
برای مثال: اگه از یه مدل زبانی بپرسین که اولین انسان روی ماه چه کسی بود و مدل به شما یک نام جعلی بده، در این صورت مدل در حال توهم زدنه.
اما Reflection-Tuning به مدلهای زبانی بزرگ اجازه میده تا اشتباهات خودش رو تشخیص بدن و قبل از ارائه پاسخ، اونها رو تصحیح کنن
جزییات و مقاله هفته آینده منتشر میشه و بیشتر در مورد اون خواهیم نوشت
مدلهای زبانی بزرگ کنونی، تمایل به توهمزنی دارن و نمیتونن زمانی که این کار رو دارن انجام میدن تشخیص بدن.
در زمینه هوش مصنوعی، وقتی میگیم یه مدل زبانی بزرگ (LLM) "توهم میزنه"، به این معنیه که اون مدل اطلاعاتی رو تولید میکنه که با واقعیت مطابقت نداره. به عبارت دیگه، مدل اطلاعاتی رو ایجاد میکنه که گویی واقعی هستن، در حالی که در واقع ساخته ذهن خود مدله.
برای مثال: اگه از یه مدل زبانی بپرسین که اولین انسان روی ماه چه کسی بود و مدل به شما یک نام جعلی بده، در این صورت مدل در حال توهم زدنه.
اما Reflection-Tuning به مدلهای زبانی بزرگ اجازه میده تا اشتباهات خودش رو تشخیص بدن و قبل از ارائه پاسخ، اونها رو تصحیح کنن
جزییات و مقاله هفته آینده منتشر میشه و بیشتر در مورد اون خواهیم نوشت
👍16❤2🔥2🤔1
Tensorflow(@CVision)
لازم به ذکره Reflection 70B حتی در برابر پیشرفتهترین مدلهای متن بسته (مانند Claude 3.5 Sonnet و GPT-4o) نیز عملکرد بسیار خوبی داره و بهترین مدل زبانی بزرگ در حداقل آزمونهای MMLU، MATH، IFEval و GSM8K هست و در تمام معیارهای ارزیابی شده، GPT-4o رو شکست میده،…
متد جدیدی که در این کار ارایه شده بسیار حائز اهمیته و به مدلهای زبانی اجازه میده تا خودشون رو بهبود بدن. این به معنای کاهش وابستگی به دادههای آموزشیه که یکی از چالشهای اصلی در توسعه مدلهای زبانی این روزهاست
این روش شبیه به نحوه عملکرد AlphaZero هست. Demis Hassabis نیز مدتیه در مورد ترکیب بازی خودکار با مدلهای زبانی بزرگ صحبت میکنه. نکات ارزشمندی رد و بدل میشه
https://youtu.be/eqXfhejDeqA?feature=shared
این روش شبیه به نحوه عملکرد AlphaZero هست. Demis Hassabis نیز مدتیه در مورد ترکیب بازی خودکار با مدلهای زبانی بزرگ صحبت میکنه. نکات ارزشمندی رد و بدل میشه
https://youtu.be/eqXfhejDeqA?feature=shared
🔥5❤1👍1
Forwarded from کلاس ویژن: یادگیری عمیق و بینایی کامپیوتر
📢فردا، دوشنبه ۱۹ شهریور
اولین جلسه آنلاین دوره یادگیری عمیق است،
دوستانی که ثبت نام کردند اما پیامک عضویت در گروه کلاس را دریافت نکردهاند لطفاً حتماً به پشتیبانی پیام دهند.
📞@classvision_support
اولین جلسه آنلاین دوره یادگیری عمیق است،
دوستانی که ثبت نام کردند اما پیامک عضویت در گروه کلاس را دریافت نکردهاند لطفاً حتماً به پشتیبانی پیام دهند.
📞@classvision_support
👍5❤2
Forwarded from School of AI (Hamidreza Hosseinkhani)
مجلهی مشهور TIME نام ایلان ماسک، موسس شرکتهای Tesla و SpaceX و Neuralink و همبنیانگزار OpenAI را از لیست ۱۰۰ چهرهی تاثیرگزار در دنیای AI حذف کرد 😂
بااینحال اسکارلت جانسون، هنرپیشهی فیلمهای هالیوودی و صداپیشهی فیلم Her همچنان در این لیست قرار دارد. 🤔
بسیاری این تصمیم رو ناشی از سوگیریهای سیاسی این مجله و مرتبط با حمایتهای اخیر ماسک از Trump عنوان کردهاند.
بااینحال اسکارلت جانسون، هنرپیشهی فیلمهای هالیوودی و صداپیشهی فیلم Her همچنان در این لیست قرار دارد. 🤔
بسیاری این تصمیم رو ناشی از سوگیریهای سیاسی این مجله و مرتبط با حمایتهای اخیر ماسک از Trump عنوان کردهاند.
😁31👍10🤔3❤2🤯1
گوگل لبز درحال توسعه ابزاری به اسم Illuminate هست که مقالات علمی را به بحثهای صوتی در قالب پادکست توسط هوش مصنوعی تبدیل میکند. این پروژه برای تولید خلاصه مقاله و در قالب پرسش و پاسخ از مدل زبانی گوگل Gemini استفاده میکند که توسط ویس های مختلف، یک مصاحبهگر مرد و یک متخصص زن ، به گفت و گو و بحث در مورد مقاله میپردازند. Illuminate در مرحله بتا هست و از لینک زیر هم برای لیست انتظار میتونید ثبت نام کنید:
http://illuminate.google.com
http://illuminate.google.com
🔥29👍7🙏3🤯2❤1