. برای تصاویر بالا به ترتیب پرامپت های زیر رو نوشتم:
یک:
In an underwater scene, two cats are sitting at a beautiful dining table with candles lit in the middle of the table, enjoying delicious dinner (falafel) together. They are discussing the upcoming war . The cat on the right is wearing a tuxedo and cat on the left is wearing Iranian national team clothes with Iran flag on its shoulder. In the background an Iranian submarine passes by with the word "IRAN" painted on its side with Iran flag painted underneath. there are some small and beautiful cyberpunk jellyfish following the submarine with camera carrying on their back, a beautiful digital artwork like a movie.
دو:
Photo of a beautiful street in Tehran with Milad tower in the distance horizon, some people are walking with VR headset, and some riding cyberpunk-like bicycles. There is a billboard Advertising product of a cotton candy brand with the word "Pashmak is all you need" on it which is located on the side of street 😁
یک:
In an underwater scene, two cats are sitting at a beautiful dining table with candles lit in the middle of the table, enjoying delicious dinner (falafel) together. They are discussing the upcoming war . The cat on the right is wearing a tuxedo and cat on the left is wearing Iranian national team clothes with Iran flag on its shoulder. In the background an Iranian submarine passes by with the word "IRAN" painted on its side with Iran flag painted underneath. there are some small and beautiful cyberpunk jellyfish following the submarine with camera carrying on their back, a beautiful digital artwork like a movie.
دو:
Photo of a beautiful street in Tehran with Milad tower in the distance horizon, some people are walking with VR headset, and some riding cyberpunk-like bicycles. There is a billboard Advertising product of a cotton candy brand with the word "Pashmak is all you need" on it which is located on the side of street 😁
🔥22👍5😁4
Tensorflow(@CVision)
Photo
سه:
A teenage boy wearing t-shirt is building an origami of a drone with Iranian flag in a barn. There is a framed photo of "Persepolis" in the background
A teenage boy wearing t-shirt is building an origami of a drone with Iranian flag in a barn. There is a framed photo of "Persepolis" in the background
👍8👌3
در حال حاضر، ما در آستانه موج چهارم تکامل انسانی قرار داریم و در حال گذر حیاتی از جامعه اطلاعاتی به جامعه هوشمند هستیم که در اون انسان، فیزیک و اطلاعات با هم ادغام میشن
هوش مصنوعی بدون شک یکی از مهمترین موضوعات امروزه، که از طریق مدلهای بزرگ، برنامههای کاربردی عمودی، عاملهای هوشمند و روشهای مختلف دیگه، توسعه اقتصاد دیجیتال رو پیش میبرن
با این حال، زیرساختهای پشتیبانیکننده هوش مصنوعی، یعنی قدرت محاسباتی و دادهها، به عنوان گلوگاهی برای توسعه هوش مصنوعی هستند
چرا تاکنون چنین گلوگاهی وجود داشته است؟ و چگونه میتوان اون رو برطرف کرد؟
از دیدگاه تقاضا، با رشد سریع هوش مصنوعی مولد به عنوان نمونهای از مدلهای بزرگ، رقابت شدید و فرا رسیدن عصر استدلال، بدون شک تقاضا برای قدرت محاسباتی به شدت افزایش یافته.
گزارشی که توسط آکادمی مهندسی چین و بیش از ده موسسه دیگر به صورت مشترک در مجله Intelligent Computing، منتشر شده نشان میده که نیاز به قدرت محاسباتی برای هوش مصنوعی هر 100 روز دو برابر میشه و با این نرخ، پیشبینی میشه که در پنج سال آینده، این نیاز بیش از یک میلیون برابر افزایش پیدا کنه
بر اساس برآوردها، حجم دادههای چین از 23.88 زتابایت در سال 2022 به 76.6 زتابایت در سال 2027 خواهد رسید و در مقایسه با سایر کشورهای جهان، رتبه اول رو به خودش اختصاص خواهد داد
این مقاله مروری جامع بر محاسبات هوشمند ارائه میده که شامل اصول نظری، تلفیق فناوری هوش و محاسبات، کاربردهای مهم، چالشها و جهتگیریهای آینده است
https://arxiv.org/abs/2211.11281
هوش مصنوعی بدون شک یکی از مهمترین موضوعات امروزه، که از طریق مدلهای بزرگ، برنامههای کاربردی عمودی، عاملهای هوشمند و روشهای مختلف دیگه، توسعه اقتصاد دیجیتال رو پیش میبرن
با این حال، زیرساختهای پشتیبانیکننده هوش مصنوعی، یعنی قدرت محاسباتی و دادهها، به عنوان گلوگاهی برای توسعه هوش مصنوعی هستند
چرا تاکنون چنین گلوگاهی وجود داشته است؟ و چگونه میتوان اون رو برطرف کرد؟
از دیدگاه تقاضا، با رشد سریع هوش مصنوعی مولد به عنوان نمونهای از مدلهای بزرگ، رقابت شدید و فرا رسیدن عصر استدلال، بدون شک تقاضا برای قدرت محاسباتی به شدت افزایش یافته.
گزارشی که توسط آکادمی مهندسی چین و بیش از ده موسسه دیگر به صورت مشترک در مجله Intelligent Computing، منتشر شده نشان میده که نیاز به قدرت محاسباتی برای هوش مصنوعی هر 100 روز دو برابر میشه و با این نرخ، پیشبینی میشه که در پنج سال آینده، این نیاز بیش از یک میلیون برابر افزایش پیدا کنه
بر اساس برآوردها، حجم دادههای چین از 23.88 زتابایت در سال 2022 به 76.6 زتابایت در سال 2027 خواهد رسید و در مقایسه با سایر کشورهای جهان، رتبه اول رو به خودش اختصاص خواهد داد
این مقاله مروری جامع بر محاسبات هوشمند ارائه میده که شامل اصول نظری، تلفیق فناوری هوش و محاسبات، کاربردهای مهم، چالشها و جهتگیریهای آینده است
https://arxiv.org/abs/2211.11281
arXiv.org
Intelligent Computing: The Latest Advances, Challenges and Future
Computing is a critical driving force in the development of human civilization. In recent years, we have witnessed the emergence of intelligent computing, a new computing paradigm that is...
👍13❤2
Media is too big
VIEW IN TELEGRAM
ChatGPT
برای تولید پرامت
Midjourney
برای ایجاد تصاویر مرجع
برای تبدیل کردن تصاویر به ویدیو از مدل های
Runway Gen-3
استفاده شده بطوریکه حرکت دوربین و آنچه در تصویر میبینید برای مدل توصیف شده
Elevenlabs
برای افکتهای صوتی
Suno AI
برای موسیقی
برای تولید پرامت
Midjourney
برای ایجاد تصاویر مرجع
برای تبدیل کردن تصاویر به ویدیو از مدل های
Runway Gen-3
استفاده شده بطوریکه حرکت دوربین و آنچه در تصویر میبینید برای مدل توصیف شده
Elevenlabs
برای افکتهای صوتی
Suno AI
برای موسیقی
👍18🤯5👏4
Forwarded from School of AI (Hamidreza Hosseinkhani)
پدیدهی Double Descent
در یادگیری ماشین، میدانید که اگر مدل خیلی سادهتر از حد نیاز باشد، آموزش نمیبیند و درنهایت، پس از چند تلاش، کمبرازش (Underfit) خواهد شد. هرچه مدل را پیچدهتر کنیم (مثلا تعداد پارامترها را بیشتر کنیم)، بیشتر آموزش میبیند و قابلیت تعمیم (Generalization) آن بهتر میشود. این بهترشدن قابلت تعمیم، از روی کاهش مقدار خطا بهازای دادههای ارزیابی مشخصست.
اما این خطا تا کجا کاهش مییابد؟ آیا هرچهقدر مدل پیچیدهتر شود، خطای ارزیابی آن کمتر و قابلیت تعمیم آن بیشتر میشود؟!
در مدلهای سادهتر و سنتیتر یادگری ماشین، هرچه مدل پیچیدهتر میشد، نیاز به دادهی آموزشی بیشتری هم داشت. بنابراین با ثابت بودن سایز مجموعه داده، افزایش پیچیدگی از یکجا به بعد باعث بیشبرازش (Overfitting) مدل و حفظکردن دادهها و نویزها میشد و قابلیت تعمیم مدل از بین میرفت.
اما در دنیای مدلهای جدید (مثلا مدلهای زبانی بزرگ) شاهد آنیم که مدل هرچه بزرگتر و پیچیدهتر میشود قدرتمندتر و قابل تعمیمتر میشود! این تناقض ناشی از چیست؟!
از پدیدهی جالبی بهنام Double Descent که در شبکههای عصبی بسیار بزرگ دیده میشود. نوعی Regularization ضمنی که ظاهرا بهعلت رویهی آموزش (مثلا الگوریتم کاهش گرادیان) اتفاق میافتد. در این حالت، با پیچیدهتر شدن مدل (مثلا بیشترشدن تعداد پارامترها)، ابتدا خطای ارزیابی کاهش یافته، پس از آن در جایی با پدیدهی بیشبرازش روبهرو شده و خطای ارزیابی افزایش مییابد، اما با پیچیدهترشدن مدل، از جایی به بعد، برای بار دوم خطای ارزیابی کاهشی شده و عمومیت مدل بهتر میشود!
تصویر زیر را ببینید 👇👇👇
در یادگیری ماشین، میدانید که اگر مدل خیلی سادهتر از حد نیاز باشد، آموزش نمیبیند و درنهایت، پس از چند تلاش، کمبرازش (Underfit) خواهد شد. هرچه مدل را پیچدهتر کنیم (مثلا تعداد پارامترها را بیشتر کنیم)، بیشتر آموزش میبیند و قابلیت تعمیم (Generalization) آن بهتر میشود. این بهترشدن قابلت تعمیم، از روی کاهش مقدار خطا بهازای دادههای ارزیابی مشخصست.
اما این خطا تا کجا کاهش مییابد؟ آیا هرچهقدر مدل پیچیدهتر شود، خطای ارزیابی آن کمتر و قابلیت تعمیم آن بیشتر میشود؟!
در مدلهای سادهتر و سنتیتر یادگری ماشین، هرچه مدل پیچیدهتر میشد، نیاز به دادهی آموزشی بیشتری هم داشت. بنابراین با ثابت بودن سایز مجموعه داده، افزایش پیچیدگی از یکجا به بعد باعث بیشبرازش (Overfitting) مدل و حفظکردن دادهها و نویزها میشد و قابلیت تعمیم مدل از بین میرفت.
اما در دنیای مدلهای جدید (مثلا مدلهای زبانی بزرگ) شاهد آنیم که مدل هرچه بزرگتر و پیچیدهتر میشود قدرتمندتر و قابل تعمیمتر میشود! این تناقض ناشی از چیست؟!
از پدیدهی جالبی بهنام Double Descent که در شبکههای عصبی بسیار بزرگ دیده میشود. نوعی Regularization ضمنی که ظاهرا بهعلت رویهی آموزش (مثلا الگوریتم کاهش گرادیان) اتفاق میافتد. در این حالت، با پیچیدهتر شدن مدل (مثلا بیشترشدن تعداد پارامترها)، ابتدا خطای ارزیابی کاهش یافته، پس از آن در جایی با پدیدهی بیشبرازش روبهرو شده و خطای ارزیابی افزایش مییابد، اما با پیچیدهترشدن مدل، از جایی به بعد، برای بار دوم خطای ارزیابی کاهشی شده و عمومیت مدل بهتر میشود!
تصویر زیر را ببینید 👇👇👇
👍18
Forwarded from School of AI (Hamidreza Hosseinkhani)
پدیدهی Double Descent
مرجع:
https://medium.com/@LightOnIO/beyond-overfitting-and-beyond-silicon-the-double-descent-curve-18b6d9810e1b
مرجع:
https://medium.com/@LightOnIO/beyond-overfitting-and-beyond-silicon-the-double-descent-curve-18b6d9810e1b
👍11
ربات انساننمایی که ادعا میشه قدرتمندترین در جهان است، معرفی شد.
این ربات با نام Figure 02 معرفی شده و با حرکات ظریف و طبیعی خود، یک قدم به شبیهسازی دقیق حرکات انسان نزدیکتر شده
شرکت سازنده این ربات، Figure Robotics نام داره. این شرکت از حمایت شرکتهای بزرگی مانند OpenAI، انویدیا، مایکروسافت و حتی جف بزوس (بنیانگذار آمازون) برخورداره
در کارخانهی BMW، چه بلند کردن قطعات فولادی باشه چه مونتاژ ابزارآلات، این ربات از پس همه برمیاد
طبق اطلاعات ارائه شده، این ربات دارای 16 درجه آزادی در دستهای خودش هست که به اون اجازه میده وزنی معادل یک انسان را تحمل کنه
این ربات قادر به انجام انواع کارهای سخت و خستهکننده ست علاوه بر این، مدیرعامل شرکت سازنده، ادعا میکنه که این ربات میتونه تا 20 ساعت به طور مداوم کار کنه
با بهرهگیری از مدلهای بزرگ زبانی OpenAI، توانایی این ربات در مکالمه و گفتگو به سطح بسیار بالایی رسیده
این ربات حالا قادره به صورت روان و مستقیم با انسانها صحبت کنه. این ویژگی به لطف تواناییهای پیشرفتهی پردازش زبان طبیعی هست که از مدلهای زبانی بزرگ OpenAI نشأت میگیره
این ربات با نام Figure 02 معرفی شده و با حرکات ظریف و طبیعی خود، یک قدم به شبیهسازی دقیق حرکات انسان نزدیکتر شده
شرکت سازنده این ربات، Figure Robotics نام داره. این شرکت از حمایت شرکتهای بزرگی مانند OpenAI، انویدیا، مایکروسافت و حتی جف بزوس (بنیانگذار آمازون) برخورداره
در کارخانهی BMW، چه بلند کردن قطعات فولادی باشه چه مونتاژ ابزارآلات، این ربات از پس همه برمیاد
طبق اطلاعات ارائه شده، این ربات دارای 16 درجه آزادی در دستهای خودش هست که به اون اجازه میده وزنی معادل یک انسان را تحمل کنه
این ربات قادر به انجام انواع کارهای سخت و خستهکننده ست علاوه بر این، مدیرعامل شرکت سازنده، ادعا میکنه که این ربات میتونه تا 20 ساعت به طور مداوم کار کنه
با بهرهگیری از مدلهای بزرگ زبانی OpenAI، توانایی این ربات در مکالمه و گفتگو به سطح بسیار بالایی رسیده
این ربات حالا قادره به صورت روان و مستقیم با انسانها صحبت کنه. این ویژگی به لطف تواناییهای پیشرفتهی پردازش زبان طبیعی هست که از مدلهای زبانی بزرگ OpenAI نشأت میگیره
Tensorflow(@CVision)
ربات انساننمایی که ادعا میشه قدرتمندترین در جهان است، معرفی شد. این ربات با نام Figure 02 معرفی شده و با حرکات ظریف و طبیعی خود، یک قدم به شبیهسازی دقیق حرکات انسان نزدیکتر شده شرکت سازنده این ربات، Figure Robotics نام داره. این شرکت از حمایت شرکتهای…
طبق اعلام رسمی، ربات Figure 02 از نظر سختافزار و نرمافزار دستخوش تغییرات اساسی شده. برخی از مهمترین ویژگیهای جدید این ربات عبارتند از:
سیستم بینایی پیشرفته: مجهز به 6 دوربین باکیفیت و هوش مصنوعی برای درک بهتر محیط اطراف.
باتری قدرتمندتر: عمر باتری 50 درصد افزایش یافته
قدرت محاسباتی بیشتر: توانایی پردازش اطلاعات و یادگیری ماشینی سه برابر شده
دستهای ماهرتر: نسل چهارم دستهای ربات با ظرفیت حمل 25 کیلوگرم
طراحی بهبودیافته: سیمکشی داخلی بهینه شده و ظاهر ربات زیباتر و قابل اعتمادتر شده
ساختار مستحکمتر: استفاده از ساختار بیرونی (اگزواسکلتون) برای افزایش استحکام و پایداری.
گفتگوی صوتی مستقیم: امکان برقراری ارتباط صوتی روان و بدون واسطه با ربات.
در قسمت سر، تنهی جلو و تنهی عقب در مجموع 6 دوربین مجهز شده که همراه با یک مدل زبانی بصری روی خود ربات کار میکنه
این ربات با استفاده از سیستم بینایی مبتنی بر هوش مصنوعی، قادره که دنیای فیزیکی را درک کنه و موقعیت اشیاء را تشخیص بده و استدلالهای بصری ساده را انجام بده
سیستم بینایی پیشرفته: مجهز به 6 دوربین باکیفیت و هوش مصنوعی برای درک بهتر محیط اطراف.
باتری قدرتمندتر: عمر باتری 50 درصد افزایش یافته
قدرت محاسباتی بیشتر: توانایی پردازش اطلاعات و یادگیری ماشینی سه برابر شده
دستهای ماهرتر: نسل چهارم دستهای ربات با ظرفیت حمل 25 کیلوگرم
طراحی بهبودیافته: سیمکشی داخلی بهینه شده و ظاهر ربات زیباتر و قابل اعتمادتر شده
ساختار مستحکمتر: استفاده از ساختار بیرونی (اگزواسکلتون) برای افزایش استحکام و پایداری.
گفتگوی صوتی مستقیم: امکان برقراری ارتباط صوتی روان و بدون واسطه با ربات.
در قسمت سر، تنهی جلو و تنهی عقب در مجموع 6 دوربین مجهز شده که همراه با یک مدل زبانی بصری روی خود ربات کار میکنه
این ربات با استفاده از سیستم بینایی مبتنی بر هوش مصنوعی، قادره که دنیای فیزیکی را درک کنه و موقعیت اشیاء را تشخیص بده و استدلالهای بصری ساده را انجام بده
Tensorflow(@CVision)
طبق اعلام رسمی، ربات Figure 02 از نظر سختافزار و نرمافزار دستخوش تغییرات اساسی شده. برخی از مهمترین ویژگیهای جدید این ربات عبارتند از: سیستم بینایی پیشرفته: مجهز به 6 دوربین باکیفیت و هوش مصنوعی برای درک بهتر محیط اطراف. باتری قدرتمندتر: عمر باتری 50…
شرکت Figure AI در سال 2022 تأسیس شد و در سال 2023 اولین محصول خود یعنی Figure 01 را معرفی کرد. طبق ادعای شرکت Figure 01 اولین ربات انساننمای تجاری در جهانه
در ماه فوریهی امسال، این شرکت موفق شد مبلغ 6.75 میلیارد دلار را از سرمایهگذاران بزرگی مثل OpenAI، مایکروسافت، انویدیا و جف بزوس جذب کنه، با این سرمایهگذاری، ارزش این شرکت به 26 میلیارد دلار رسید و به یکی از جذابترین شرکتهای فعال در حوزه رباتهای انساننما تبدیل شد
تنها چند هفته بعد، ربات Figure 01 با بهرهگیری از مدلهای زبانی بزرگ OpenAI به نمایش گذاشته شد. این ربات به لطف این ارتقاء، توانایی شنیدن، صحبت کردن و انجام حرکات پیچیده را پیدا کرده بود و همه را شگفتزده کرده
در ماه فوریهی امسال، این شرکت موفق شد مبلغ 6.75 میلیارد دلار را از سرمایهگذاران بزرگی مثل OpenAI، مایکروسافت، انویدیا و جف بزوس جذب کنه، با این سرمایهگذاری، ارزش این شرکت به 26 میلیارد دلار رسید و به یکی از جذابترین شرکتهای فعال در حوزه رباتهای انساننما تبدیل شد
تنها چند هفته بعد، ربات Figure 01 با بهرهگیری از مدلهای زبانی بزرگ OpenAI به نمایش گذاشته شد. این ربات به لطف این ارتقاء، توانایی شنیدن، صحبت کردن و انجام حرکات پیچیده را پیدا کرده بود و همه را شگفتزده کرده
Tensorflow(@CVision)
اکثر عموم جامعه درگیر مسایل عام و روزمره ای مثل تورم، مسایل مربوط به سلامتی، دنبال کردن اخبار جنگ، سیاستمداران و ... هستند اما جنگ اصلی در بکارگیری قدرت هوش مصنوعی خلاصه شده بخوابم بپذیریم یا نه اکثر مردم از دیدگاه گردانندگان قدرت موجوداتی مصرف گرا و هزینه…
قبلا در این مورد بحث کرده بودیم، کارگران انسانی شغل خودشون رو به دو دلیل عمده در دنیای مبتنی بر هوش مصنوعی از دست خواهند داد
یک: نبود مهارت
دو : سرعت پایین تطبیق پذیری
کسی که نتونه مهارت هاش رو با هوش مصنوعی تلفیق کنه در طوفان پیشرفت های هوش مصنوعی محو خواهد شد. در واقع کسی برنده هست که بتونه قدرت هوش مصنوعی رو به عنوان ابزار کارامند در کسب و کارش به کار ببنده، اما چرا ؟
یک افزایش سود دو کاهش هزینه های انسانی!
همینطور که مطلعید شرکت اینتل چند روز پیش اعلام کرد که بیش از ۱۰ هزار نفر از کارمندان خودش رو اخراج خواهد کرد و هزینههای خود را ۱۰ میلیارد دلار کاهش خواهد داد.
این کار با سه هدف عمده انجام شد
کاهش سود و درآمد: اینتل در ماههای اخیر با کاهش قابل توجه سود و درآمد روبرو بوده
افزایش هزینهها: هزینههای عملیاتی اینتل به دلیل رقابت شدید در بازار و سرمایهگذاریهای سنگین، افزایش یافته
نیاز به بازنگری در استراتژی: اینتل در تلاشه تا با تغییر استراتژی خود و کاهش هزینهها، به سودآوری برسه
این موضوع رو به دولت ها خصوصا دولت ایران که یک ساختار اداری بسیار ناکارآمد با کارمندان زیاد داره بسط بدید. دولت بزرگ یعنی هزینه های زیاد، هزینه های زیاد در جایی که درآمد و سود در خروجی ساختار بی معناست منجر به افزایش اعتبار در سیستم بانکی و در نهایت خلق پول بدون پشتوانه میشود . خلق پول بدون پشتوانه در نهایت منجر به تورم و تورم ریشه تمام فساد های انسانی در بعد فرهنگی، اخلاقی، اقتصادی و ... در دنیای نوین هست
یک: نبود مهارت
دو : سرعت پایین تطبیق پذیری
کسی که نتونه مهارت هاش رو با هوش مصنوعی تلفیق کنه در طوفان پیشرفت های هوش مصنوعی محو خواهد شد. در واقع کسی برنده هست که بتونه قدرت هوش مصنوعی رو به عنوان ابزار کارامند در کسب و کارش به کار ببنده، اما چرا ؟
یک افزایش سود دو کاهش هزینه های انسانی!
همینطور که مطلعید شرکت اینتل چند روز پیش اعلام کرد که بیش از ۱۰ هزار نفر از کارمندان خودش رو اخراج خواهد کرد و هزینههای خود را ۱۰ میلیارد دلار کاهش خواهد داد.
این کار با سه هدف عمده انجام شد
کاهش سود و درآمد: اینتل در ماههای اخیر با کاهش قابل توجه سود و درآمد روبرو بوده
افزایش هزینهها: هزینههای عملیاتی اینتل به دلیل رقابت شدید در بازار و سرمایهگذاریهای سنگین، افزایش یافته
نیاز به بازنگری در استراتژی: اینتل در تلاشه تا با تغییر استراتژی خود و کاهش هزینهها، به سودآوری برسه
این موضوع رو به دولت ها خصوصا دولت ایران که یک ساختار اداری بسیار ناکارآمد با کارمندان زیاد داره بسط بدید. دولت بزرگ یعنی هزینه های زیاد، هزینه های زیاد در جایی که درآمد و سود در خروجی ساختار بی معناست منجر به افزایش اعتبار در سیستم بانکی و در نهایت خلق پول بدون پشتوانه میشود . خلق پول بدون پشتوانه در نهایت منجر به تورم و تورم ریشه تمام فساد های انسانی در بعد فرهنگی، اخلاقی، اقتصادی و ... در دنیای نوین هست
👍14
This media is not supported in your browser
VIEW IN TELEGRAM
شرکت ژیژو AI برای اولین بار یک مدل متن به ویدیو رو به صورت متنباز منتشر کرد
شرکت های چینی با سرعت بسیار زیادی در حال رقابت با مدل های آمریکایی مثل Sora هستند که در یک ماه اخیر مدل های بسیار خوبی رو عرضه کردن
این اولین مدل هوش مصنوعی تولید ویدیو هست که برای استفاده تجاری آزاده .در عرض 5 ساعت، این پروژه در گیتهاب بیش از ۴ هزار ستاره گرفته
لازم به ذکر که مدل CogVideoX شرکت ژیژو AI در چندین اندازه مختلف ارائه میشه و مدلی که این بار به صورت متنباز منتشر شده، CogVideoX-2B هست
این مدل برای inference با دقت FP-16 تنها به 18 گیگابایت حافظه گرافیکی نیاز داره، البته خروجی که من با اجرای مدل روی کارت گرافیک RTX 4090 گرفتم زیاد قابل قبول نبود
متن پرامتی که برای ویدیو بالا وارد وارد کردم:
Achaemenid soldiers are playing football. A number of spectators dressed in ancient Iranian clothing are cheering them on. The camera pans around the filed
https://github.com/THUDM/CogVideo
شرکت های چینی با سرعت بسیار زیادی در حال رقابت با مدل های آمریکایی مثل Sora هستند که در یک ماه اخیر مدل های بسیار خوبی رو عرضه کردن
این اولین مدل هوش مصنوعی تولید ویدیو هست که برای استفاده تجاری آزاده .در عرض 5 ساعت، این پروژه در گیتهاب بیش از ۴ هزار ستاره گرفته
لازم به ذکر که مدل CogVideoX شرکت ژیژو AI در چندین اندازه مختلف ارائه میشه و مدلی که این بار به صورت متنباز منتشر شده، CogVideoX-2B هست
این مدل برای inference با دقت FP-16 تنها به 18 گیگابایت حافظه گرافیکی نیاز داره، البته خروجی که من با اجرای مدل روی کارت گرافیک RTX 4090 گرفتم زیاد قابل قبول نبود
متن پرامتی که برای ویدیو بالا وارد وارد کردم:
Achaemenid soldiers are playing football. A number of spectators dressed in ancient Iranian clothing are cheering them on. The camera pans around the filed
https://github.com/THUDM/CogVideo
❤12👍3😁1😢1
به طور کلی، برای استفاده از مدلهای زبانی بزرگ روی دستگاههای شخصی مثل گوشی، کامپیوتر یا دستگاههای کوچک مثل رزبری پای، باید دو مشکل اصلی رو حل کنیم: مشکل فضای ذخیره سازی و مشکل محاسبات.
یکی از روشهای معمول برای حل این مشکل، کاهش دقت مدل هست. یعنی اینکه اعداد داخل مدل رو به جای اینکه با دقت خیلی بالا ذخیره کنیم، با دقت کمتری ذخیره میکنیم. مثلاً به جای اینکه هر عدد رو با 32 بیت ذخیره کنیم، با 4 یا 3 بیت ذخیرهش میکنیم. این کار باعث میشه که حجم مدل خیلی کمتر بشه و محاسبات هم سادهتر و سریعتر انجام بشن.
اما این به این معنیه که در هنگام انجام محاسبات، ما نیاز به انجام یک نوع خاص از ضرب ماتریس داریم که در آن از اعداد با دقتهای مختلف استفاده میشه. این نوع ضرب ماتریس، ضرب ماتریس با دقت مختلط (mpGEMM) نامیده میشه. در این نوع ضرب، وزنهای مدل از دقت کمتری برخوردار هستند، در حالی که مقادیر فعالسازی (که نتایج محاسبات قبلی هستند) از دقت بالاتری برخوردارند.
https://www.tensorflow.org/guide/mixed_precision
یکی از روشهای معمول برای حل این مشکل، کاهش دقت مدل هست. یعنی اینکه اعداد داخل مدل رو به جای اینکه با دقت خیلی بالا ذخیره کنیم، با دقت کمتری ذخیره میکنیم. مثلاً به جای اینکه هر عدد رو با 32 بیت ذخیره کنیم، با 4 یا 3 بیت ذخیرهش میکنیم. این کار باعث میشه که حجم مدل خیلی کمتر بشه و محاسبات هم سادهتر و سریعتر انجام بشن.
اما این به این معنیه که در هنگام انجام محاسبات، ما نیاز به انجام یک نوع خاص از ضرب ماتریس داریم که در آن از اعداد با دقتهای مختلف استفاده میشه. این نوع ضرب ماتریس، ضرب ماتریس با دقت مختلط (mpGEMM) نامیده میشه. در این نوع ضرب، وزنهای مدل از دقت کمتری برخوردار هستند، در حالی که مقادیر فعالسازی (که نتایج محاسبات قبلی هستند) از دقت بالاتری برخوردارند.
https://www.tensorflow.org/guide/mixed_precision
TensorFlow
Mixed precision | TensorFlow Core
👍9😁1
Tensorflow(@CVision)
به طور کلی، برای استفاده از مدلهای زبانی بزرگ روی دستگاههای شخصی مثل گوشی، کامپیوتر یا دستگاههای کوچک مثل رزبری پای، باید دو مشکل اصلی رو حل کنیم: مشکل فضای ذخیره سازی و مشکل محاسبات. یکی از روشهای معمول برای حل این مشکل، کاهش دقت مدل هست. یعنی اینکه…
با این حال، سیستمها و سختافزارهای موجود به طور طبیعی از این نوع ضرب ماتریس پشتیبانی نمیکنند. بنابراین، معمولاً وزنهای مدل با دقت پایین رو به دقت بالاتر تبدیل میکنند تا بتوان از اونها در محاسبات استفاده کرد. این فرایند رو "کوانتیزاسیون معکوس" مینامند.
برای حل این مشکل، تکنولوژی جدیدی به نام T-MAC از یک روش محاسباتی جدید استفاده میکنه که بر اساس "جدول جستجو" هست. با استفاده از این روش، نیازی به تبدیل وزنها به دقت بالاتر نیست و میتونیم مستقیماً ضرب ماتریس با دقت مختلط رو انجام داد.
به این ترتیب، T-MAC نه تنها عملکرد استنتاج (inference) رو بهبود میبخشه، بلکه مدل رو یکپارچهتر و قابل توسعهتر میکند. به خصوص برای دستگاههای کممصرف و با منابع محدود بسیار مناسب است.
علاوه بر این، T-MAC به شتابدهندههای سختافزاری خاصی مانند NPU یا GPU وابسته نیست و میتونه فقط با استفاده از CPU مدل رو اجرا کنه. حتی در برخی موارد، سرعت استنتاج اون میتونه از شتابدهندههای تخصصی هم بیشتر باشه.
وقتی مدل llama-2-7B-4bit را اجرا میکنیم، حتی با استفاده از پردازندههای تخصصی هوش مصنوعی (NPU) هم میتوانیم حداکثر 10.4 توکن در ثانیه تولید کنیم. اما با استفاده از پردازنده معمولی (CPU) و تکنولوژی T-MAC، با تنها دو هسته پردازنده میتونیم به سرعت 12.6 توکن در ثانیه برسیم و در بهترین حالت، این سرعت تا 22 توکن در ثانیه هم میرسه
حتی روی دستگاهی با مشخصات پایین مثل رزبری پای 5، تکنولوژی T-MAC میتونه مدل 3B BitNet-b1.58 رو با سرعت 11 توکن در ثانیه اجرا کنه
https://github.com/microsoft/T-MAC
برای حل این مشکل، تکنولوژی جدیدی به نام T-MAC از یک روش محاسباتی جدید استفاده میکنه که بر اساس "جدول جستجو" هست. با استفاده از این روش، نیازی به تبدیل وزنها به دقت بالاتر نیست و میتونیم مستقیماً ضرب ماتریس با دقت مختلط رو انجام داد.
به این ترتیب، T-MAC نه تنها عملکرد استنتاج (inference) رو بهبود میبخشه، بلکه مدل رو یکپارچهتر و قابل توسعهتر میکند. به خصوص برای دستگاههای کممصرف و با منابع محدود بسیار مناسب است.
علاوه بر این، T-MAC به شتابدهندههای سختافزاری خاصی مانند NPU یا GPU وابسته نیست و میتونه فقط با استفاده از CPU مدل رو اجرا کنه. حتی در برخی موارد، سرعت استنتاج اون میتونه از شتابدهندههای تخصصی هم بیشتر باشه.
وقتی مدل llama-2-7B-4bit را اجرا میکنیم، حتی با استفاده از پردازندههای تخصصی هوش مصنوعی (NPU) هم میتوانیم حداکثر 10.4 توکن در ثانیه تولید کنیم. اما با استفاده از پردازنده معمولی (CPU) و تکنولوژی T-MAC، با تنها دو هسته پردازنده میتونیم به سرعت 12.6 توکن در ثانیه برسیم و در بهترین حالت، این سرعت تا 22 توکن در ثانیه هم میرسه
حتی روی دستگاهی با مشخصات پایین مثل رزبری پای 5، تکنولوژی T-MAC میتونه مدل 3B BitNet-b1.58 رو با سرعت 11 توکن در ثانیه اجرا کنه
https://github.com/microsoft/T-MAC
GitHub
GitHub - microsoft/T-MAC: Low-bit LLM inference on CPU/NPU with lookup table
Low-bit LLM inference on CPU/NPU with lookup table - microsoft/T-MAC
👍14
مدل زبانی جدیدی به نام Falcon Mamba 7B معرفی شده که خیلی قدرتمنده! این مدل میتونه متنهای خیلی بلند رو بدون اینکه نیاز به سختافزار خیلی قوی داشته باشه، پردازش کنه. این یعنی میتونه کارهای خلاقانهای مثل نوشتن داستان یا مقاله انجام بده
این مدل بر پایه نسل اول Mamba ساخته شده
Mamba
یک مدل فضای حالته (State Space Model) که ویژگیهای شبکههای عصبی بازگشتی (RNN) و شبکههای عصبی کانولوشنی (CNN) را در خود جای داده . با استفاده از یک مکانیزم انتخابی، این مدل میتوانه بسته به ورودی فعلی، اطلاعات را به طور انتخابی حفظ یا فراموش کنه و به این ترتیب، کارایی پردازش متن را بهبود بخشه
علاوه بر این، Mamba از یک الگوریتم موازی طراحی شده برای سختافزار استفاده میکنه که به صورت بازگشتی اجرا میشه و از دسترسیهای ورودی/خروجی بین سطوح حافظه GPU جلوگیری میکنه، در نتیجه باعث افزایش کارایی محاسباتی میشه
با حذف مکانیزم attention، به طور موثر مشکل کندی محاسبات مدل در پردازش دنبالههای طولانی را برطرف کرده از طرفی این مدل میتوانه دنبالههایی با طول نامحدود را پردازش کنه، بدون اینکه نیاز به حافظه بیشتری داشته باشه
صرف نظر از طول متن زمینه، زمان تولید هر توکن تقریباً ثابت هستش!
https://huggingface.co/blog/falconmamba#hardware-performance
این مدل بر پایه نسل اول Mamba ساخته شده
Mamba
یک مدل فضای حالته (State Space Model) که ویژگیهای شبکههای عصبی بازگشتی (RNN) و شبکههای عصبی کانولوشنی (CNN) را در خود جای داده . با استفاده از یک مکانیزم انتخابی، این مدل میتوانه بسته به ورودی فعلی، اطلاعات را به طور انتخابی حفظ یا فراموش کنه و به این ترتیب، کارایی پردازش متن را بهبود بخشه
علاوه بر این، Mamba از یک الگوریتم موازی طراحی شده برای سختافزار استفاده میکنه که به صورت بازگشتی اجرا میشه و از دسترسیهای ورودی/خروجی بین سطوح حافظه GPU جلوگیری میکنه، در نتیجه باعث افزایش کارایی محاسباتی میشه
با حذف مکانیزم attention، به طور موثر مشکل کندی محاسبات مدل در پردازش دنبالههای طولانی را برطرف کرده از طرفی این مدل میتوانه دنبالههایی با طول نامحدود را پردازش کنه، بدون اینکه نیاز به حافظه بیشتری داشته باشه
صرف نظر از طول متن زمینه، زمان تولید هر توکن تقریباً ثابت هستش!
https://huggingface.co/blog/falconmamba#hardware-performance
huggingface.co
Welcome Falcon Mamba: The first strong attention-free 7B model
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍19❤2
doubao
قابلیت تولید موسیقی را راه اندازی کرد: کاربران میتونن با یک کلیک، شعر و موسیقی تولید کنن
هوش مصنوعی "دو بائو" متعلق به شرکت بایتدنس، قابلیت تولید موسیقی را راه اندازی کرده. کاربران میتوانن با وارد کردن یک موضوع یا متن ترانهای که خودشان نوشتهان در بخش "تولید موسیقی" دو بائو، سبک، احساس و صدای موسیقی را انتخاب کنن و در عرض حدود یک دقیقه، یک آهنگ کامل تولید کنن. به این ترتیب، هر کسی میتوانه لذت خلق و بیان موسیقیایی را تجربه کنه!
در حال حاضر، این مدل قابلیت تولید موسیقی در 11 سبک مختلف مانند فولک، هیپ هاپ، آر اند بی و همچنین سبکهای کمتر شناخته شدهای مانند جاز، رگی و موسیقی الکترونیک را ارائه میده. کاربران میتونن صدای خواننده را به صورت مردانه یا زنانه انتخاب کنن. صدای تولید شده، از نظر وضوح کلمات و روان بودن بسیار خوب عمل میکنه. همچنین، برای اینکه موسیقی تولید شده توسط هوش مصنوعی بتونه احساسات کاربران را بهتر بیان کنه، این مدل حالات احساسی مختلفی مانند شادی، غم و ... را به صورت پیشفرض تنظیم کرده. با استفاده از doubao، کاربران میتونند موسیقیهایی با ویژگیهای شخصی خودشون بسازن
https://www.doubao.com/chat/?from_logout=1
قابلیت تولید موسیقی را راه اندازی کرد: کاربران میتونن با یک کلیک، شعر و موسیقی تولید کنن
هوش مصنوعی "دو بائو" متعلق به شرکت بایتدنس، قابلیت تولید موسیقی را راه اندازی کرده. کاربران میتوانن با وارد کردن یک موضوع یا متن ترانهای که خودشان نوشتهان در بخش "تولید موسیقی" دو بائو، سبک، احساس و صدای موسیقی را انتخاب کنن و در عرض حدود یک دقیقه، یک آهنگ کامل تولید کنن. به این ترتیب، هر کسی میتوانه لذت خلق و بیان موسیقیایی را تجربه کنه!
در حال حاضر، این مدل قابلیت تولید موسیقی در 11 سبک مختلف مانند فولک، هیپ هاپ، آر اند بی و همچنین سبکهای کمتر شناخته شدهای مانند جاز، رگی و موسیقی الکترونیک را ارائه میده. کاربران میتونن صدای خواننده را به صورت مردانه یا زنانه انتخاب کنن. صدای تولید شده، از نظر وضوح کلمات و روان بودن بسیار خوب عمل میکنه. همچنین، برای اینکه موسیقی تولید شده توسط هوش مصنوعی بتونه احساسات کاربران را بهتر بیان کنه، این مدل حالات احساسی مختلفی مانند شادی، غم و ... را به صورت پیشفرض تنظیم کرده. با استفاده از doubao، کاربران میتونند موسیقیهایی با ویژگیهای شخصی خودشون بسازن
https://www.doubao.com/chat/?from_logout=1
Doubao
豆包
豆包是你的 AI 聊天智能对话问答助手,写作文案翻译编程全能工具。豆包为你答疑解惑,提供灵感,辅助创作,也可以和你畅聊任何你感兴趣的话题。
👌3👍1
Tensorflow(@CVision)
doubao قابلیت تولید موسیقی را راه اندازی کرد: کاربران میتونن با یک کلیک، شعر و موسیقی تولید کنن هوش مصنوعی "دو بائو" متعلق به شرکت بایتدنس، قابلیت تولید موسیقی را راه اندازی کرده. کاربران میتوانن با وارد کردن یک موضوع یا متن ترانهای که خودشان نوشتهان…
به عنوان مثال، اگر عبارت "یک نفر در عصر تابستان در حال دوچرخهسواری است و غروب خورشید نارنجی رنگ را در دوردست میبیند" را وارد کنین و سبک موسیقی را روی "آر اند بی" و احساس را روی "عاشقانه" تنظیم کنید، این مدل به طور خودکار یک قطعه موسیقی و متن ترانه مرتبط با آن را مینویسه و میسازه و بر اساس متن ترانه، کاور آهنگ را نیز به طور خودکار طراحی میکنه
❤7👍1
این هوش مصنوعی نه تنها کد مینویسه، بلکه میتونه مشکلات را حل کنه و تصمیمات منطقی بگیره، درست مانند یک برنامهنویس انسانی اون هم فقط در عرض ۸۴ ثانیه و تیم توسعه دهنده این مدل فقط از پنج نفر تشکیل شده. این مدل که
Genie
نام داره و ادعا میکنه که در حال حاضر قدرتمندترین هوش مصنوعی روی زمینه و میتونه مانند انسان فکر و عمل کنه
به چهار روش مختلف میتونید Genie را به کار بگیرین که یکی از اون روشهای جالب توجه دادن لینک issue در گیتهاب به مدل هست
به عنوان مثال، برای حل یک Issue در گیتهاب، ابتدا لینک یک مخزن (repo) را به Genie میدهم. پس از اون، Genie به طور خودکار شروع به تحلیل اون مسئله میکنه
تصور کنین شما به Genie بگین که یک باگ در برنامتون وجود داره. Genie شروع میکنه به بررسی کدهای شما، فایلهای تنظیمات و هر چیز دیگری که فکر کنه که ممکنه به اون کمک کنه تا مشکل را پیدا کنه. این مدل این کار را تا زمانی ادامه میده که به خط کد مشکلدار برسه
Genie
پس از انجام تحلیلهای لازم، به طور خودکار شروع به تولید کد و اجرای اون میکنه تا ببینه که آیا مشکل حل شده یا خیر
اگر در حین اجرای کد، خطایی رخ بده، Genie تنها به بخشهایی که مشکل دارن برمیگرده و دوباره اونها را تحلیل، کدنویسی و اجرا میکنه تا زمانی که کد بدون هیچ مشکلی اجرا شه و تمام این کارها فقط 84 ثانیه طول میکشه!
سرعت تحولات اینقدر در این حوزه بالاست که واقعا بروز بودن غیر ممکنه!
https://cosine.sh/blog/genie-technical-report
Genie
نام داره و ادعا میکنه که در حال حاضر قدرتمندترین هوش مصنوعی روی زمینه و میتونه مانند انسان فکر و عمل کنه
به چهار روش مختلف میتونید Genie را به کار بگیرین که یکی از اون روشهای جالب توجه دادن لینک issue در گیتهاب به مدل هست
به عنوان مثال، برای حل یک Issue در گیتهاب، ابتدا لینک یک مخزن (repo) را به Genie میدهم. پس از اون، Genie به طور خودکار شروع به تحلیل اون مسئله میکنه
تصور کنین شما به Genie بگین که یک باگ در برنامتون وجود داره. Genie شروع میکنه به بررسی کدهای شما، فایلهای تنظیمات و هر چیز دیگری که فکر کنه که ممکنه به اون کمک کنه تا مشکل را پیدا کنه. این مدل این کار را تا زمانی ادامه میده که به خط کد مشکلدار برسه
Genie
پس از انجام تحلیلهای لازم، به طور خودکار شروع به تولید کد و اجرای اون میکنه تا ببینه که آیا مشکل حل شده یا خیر
اگر در حین اجرای کد، خطایی رخ بده، Genie تنها به بخشهایی که مشکل دارن برمیگرده و دوباره اونها را تحلیل، کدنویسی و اجرا میکنه تا زمانی که کد بدون هیچ مشکلی اجرا شه و تمام این کارها فقط 84 ثانیه طول میکشه!
سرعت تحولات اینقدر در این حوزه بالاست که واقعا بروز بودن غیر ممکنه!
https://cosine.sh/blog/genie-technical-report
🔥18👍7❤4