Telegram Web Link
Tensorflow(@CVision)
بنظر اگه تا سال ۲۰۳۰‌به طور معجزه آسایی زنده بمونم دنیای بسیار متفاوتی از الان رو تجربه خواهیم کرد. دیشب داریو آمودی، یکی از بنیان‌گذاران و مدیرعامل Anthropic توی مصاحبش گفت که عامل هوش مصنوعی عمومی (AGI) مانند یک ذهن جمعی عمل خواهد کرد، یعنی نه تنها ۱۰۰۰…
در مقابل، آدمها با محدودیت‌های بیولوژیکی مانند نیاز به خواب، محدودیت‌های ظرفیت حافظه و سرعت یادگیری مواجه هستن، در حالی که AGI می‌تونه بدون چنین محدودیت‌هایی عمل کنه.

به همین دلیل، مقایسه هوش انسانی و AGI نابرابر و حتی بی‌معنیه.

مفهوم «جهش سریع» به این اشاره داره که با به‌دست آوردن توانایی‌های پیشرفته توسط AGI، تغییرات در توانایی‌های هوش مصنوعی می‌تونه به‌صورت ناگهانی و با سرعت زیاد اتفاق بیفته، و پیامدهای غیرقابل‌پیش‌بینی برای جوامع بشری به همراه داشته باشه

https://www.businessinsider.com/how-anthropic-ceo-dario-amodei-defines-artificial-general-intelligence-2024-10
👍93
This media is not supported in your browser
VIEW IN TELEGRAM
پروژه متن باز Transformer Lab  
قابلیت مصورسازی توکن‌ ها رو فعال کرد

اگه با Transformer Lab کارنکردین بایستی خدمتتون عرض کنم که یه ابزار جالب برای کار با مدل‌های زبانی بزرگ هست. این برنامه در حقیقت یه محیط آزمایشگاهه که در اون می‌تونید مدل‌های مختلف هوش مصنوعی رو امتحان کنین، تنظیماتشون رو عوض کنید و حتی مدل‌های جدید آموزش یا فاین تیون کنید.

 Transformer Lab
 یه ابزار همه کاره برای کار با مدل‌های زبانیه که هم برای افراد مبتدی و هم برای متخصصین مفیده.

ویدیوی آموزشی نحوه عملکرد:

https://youtu.be/tY5TAvKviLo

https://transformerlab.ai/
👍142
This media is not supported in your browser
VIEW IN TELEGRAM
cellpose: a generalist algorithm for cellular segmentation with human-in-the-loop capabilities

روش Cellpose یه الگوریتمه که در ابتدا برای تقسیم‌بندی سلول‌ها ساخته شد و بدون نیاز به تنظیمات پیچیده می‌تونه انواع تصاویر سلولی رو به خوبی تحلیل کنه. نسخه جدیدش یعنی Cellpose 3 حتی اگه تصویر پر از نویز باشه یا کیفیتش پایین باشه، می‌تونه اون رو درست کنه و بعدش هم خیلی خوب تقسیم‌بندی کنه.


https://github.com/MouseLand/cellpose
👍5
مدل‌های زبانی بزرگ باعث می‌شن که اشتراک‌گذاری دانش عمومی توی پلتفرم‌ های پرسش و پاسخ آنلاین کمتر بشه


مدل‌های زبانی بزرگ (LLMs) می‌تونن جایگزین خوبی برای داده‌ها و اطلاعاتی باشن که آدم‌ها تولید می‌کنن. ولی این جایگزینی یه مشکل اساسی داره. اگه باعث بشه محتوایی که آدم‌ها تولید می‌کنن کمتر بشه، اون‌وقت داده‌های آموزشی که برای ساخت مدل‌های جدید لازم داریم، کم می‌شه. 

توی این تحقیق، کاهش فعالیت توی سایت Stack Overflow هم‌زمان با انتشار ChatGPT، رو بررسی کردن. 

برای اینکه ببینن این کاهش فعالیت واقعاً به ChatGPT ربط داره یا نه، از منابع مشابهی استفاده کردن که نباید اینقدر تحت تأثیر ChatGPT قرار گرفته باشن.

توی شش ماه بعد از انتشار ChatGPT، فعالیت توی Stack overflow نسبت به نسخه‌های روسی و چینی ، که دسترسی به ChatGPT اونجا محدودتره و انجمن‌های مشابه برای ریاضی، که ChatGPT توشون زیاد قوی نیست، ۲۵ درصد کاهش داشته

 این آمار رو به‌ عنوان حداقل تأثیر ChatGPT روی Stack overflow در نظر گرفتن. این کاهش بیشتر توی پست‌هایی دیده شد که مربوط به زبان‌های برنامه‌نویسی پرطرفدار بودن. 

تغییری توی کیفیت پست‌ها، با توجه به نظر کاربران دیگه، مشاهده نشده و هم کاربران با تجربه و هم تازه‌ کارها به‌طور مشابه فعالیتشون کم شده، پس مدل‌های زبانی بزرگ فقط محتواهای تکراری، کم‌کیفیت، یا مخصوص مبتدی‌ها رو حذف نکردن. 

نتیجه اینه که استفاده سریع از مدل‌های زبانی بزرگ باعث می‌شه داده‌های عمومی که برای آموزش اون‌ها نیاز داریم، کمتر تولید بشه و این می‌تونه پیامدهای مهمی داشته باشه.

https://academic.oup.com/pnasnexus/article/3/9/pgae400/7754871
👍27
This media is not supported in your browser
VIEW IN TELEGRAM
ایچیکو-لاما نسخه ۳.۱، هوش مصنوعی صوتی بلادرنگ

این پروژه تحقیقاتی و متن باز هست، دمویی که میبینید روی یک کارت گرافیک NVIDIA 3090 اجرا شده.

ایچیکو-لاما در واقع یک مدل چند وجهی  multimodalبا ادغام اولیه (early-fusion) برای صوت و متنه.

 early-fusion 
یعنی داده‌های صوتی و متنی قبل از اینکه مدل بخواد پردازش اصلی رو انجام بده، با هم ترکیب میشن، برخلاف ادغام ثانویه یا late-fusion که تو اون، داده‌ها اول جدا جدا پردازش می‌شن و بعد نتایج با هم  ترکیب میشن.

استفاده از ادغام اولیه باعث میشه که مدل بتونه تو همون مراحل اول، ارتباط بین صوت و متن رو بفهمه و از ترکیب این داده‌ها نتیجه بهتری بده.

https://homebrew.ltd/blog/llama-learns-to-talk
👍163
Tensorflow(@CVision)
کورس جدید دانشگاه برکلی CS294/194-196 Large Language Model Agents https://rdi.berkeley.edu/llm-agents/f24
اگه به مفاهیم پشت پرده o1 علاقه‌مندید گذراندن این کورس پیشنهاد میشه، مخصوصا مقالاتی که در خلال اسلاید ها معرفی میشه.

توی سالهای اخیر روشهای مختلفی برای بالا بردن قدرت استدلال مدل های زبانی بوجود اومده که عمدتا بر مبنای پرامپت بودن.

اگر این مفهوم رو به روشهای پرسشگری ترجمه کنیم، تولید مراحل میانی برای پاسخ دادن به سوالات توسط عامل انسانی از طریق پرسشگری در مراحل چندگانه عملکرد مدل های زبانی رو به صورت قابل توجهی بهبود می‌ بخشه.

اینکار مدل زبانی رو ملزم می‌کنه که از طریق ورودی استدلال گام به گام با بررسی و اصلاح پاسخ‌های خودش، به نتایج دقیق‌تری دست پیدا کنه.

این روشهای پرسشگری هر چند باعث بالارفتن استدلال مدل میشه اما استفاده از این روشهای پرسشگری ممکنه منجر به در نظر گرفتن زمینه‌های نامرتبط، خوداصلاحی بیش از حد و ترتیب نادرست بشه.
👍3
Tensorflow(@CVision)
اگه به مفاهیم پشت پرده o1 علاقه‌مندید گذراندن این کورس پیشنهاد میشه، مخصوصا مقالاتی که در خلال اسلاید ها معرفی میشه. توی سالهای اخیر روشهای مختلفی برای بالا بردن قدرت استدلال مدل های زبانی بوجود اومده که عمدتا بر مبنای پرامپت بودن. اگر این مفهوم رو به…
به عنوان نمونه این مورد رو در هر دو مدل زبانی chatgpt و Gemini تست میکنم.

در این مثال با وارد کردن زمینه نامرتبطی مثل «اجاره ماهیانه مری ۱۰ دلار است» مدل زبانی Gemini  پاسخ درستی رو نمیده اما chatgpt  پاسخ درست رو میده و در پایان توضیح میده که این قسمت مربوط به متن زمینه نیست 

اما دلیلش چیه ؟
👏12🤔1
Tensorflow(@CVision)
Photo
روش‌های پرسشگری، اگرچه موثرن، اغلب تعصبات خاص انسان رو رمزگذاری می‌کنه و در نتیجه ارزیابی توانایی‌های استدلال ذاتی یک مدل زبانی رو دشوار می‌کنه

در حالت ایده‌آل، یه مدل زبانی باید بتونه به طور مستقل استدلال کنه و پاسخ بهینه رو ارائه بده، بدون اینکه نیاز به انسان‌ها برای تنظیم پرسش‌ها یا اصلاح مکرر در صورت نامطلوب بودن پاسخ اولیه داشته باشه.


تنظیم مدل می‌تونه هزینه‌بر باشه و به مقدار قابل توجهی داده‌های نظارت شده نیاز داره. کاری که در مدل زبانی chatgpt از طریق یادگیری تقویتی انجام شده، بدون نیاز به پرسشگری اضافی نظارت شده

https://arxiv.org/abs/2402.10200
👍71
🎓 دانشکده مدیریت و اقتصاد دانشگاه صنعتی شریف

📚 «تحول اقتصاد دیجیتال: نقش پلتفرم، داده و AI»

🔸 اقتصاد امروز به سرعت درحال تغییر است و مدل‌های سنتی اغلب توان پاسخگویی به چالش‌های حاضر را ندارد. کسب‌وکارهایی که نتوانند همراه شوند؛ در خطر حذف قرار می‌گیرند. مدیران و کارآفرینان موفق برای بقا و توسعه سازمان، نیازمند درک عمیق تحولات دیجیتال و تطبیق با آن هستند.

این‌ دوره به بررسی موشکافانه کیس‌های موفق روز دنیا می‌پردازد. در این دوره روش بهره‌گیری استراتژیک از ابزارهای دیجیتال در کسب‌وکار و استفاده حداکثری از فرصت‌های نوظهور آموزش داده می‌شود.

📌 ویژه کارشناسان و مدیران ارشد کسب‌وکارها و سازمان‌ها

👤 استاد دوره: دکتر مهدی انصاری (عضو هیئت علمی دانشکده مدیریت و اقتصاد دانشگاه شریف)

👥 میهمانان صنعت:
مجید حسینی‌نژاد (بنیان‌گذار و رئیس هیئت مدیره هلدینگ علی‌بابا)

مهرداد ترابیان (عضو سابق هیئت مدیره شرکت ارتباطات زیرساخت)

📖
مطالعه بروشور دوره

📌 لینکپیش‌ثبت‌نام

📞 در صورت نیاز به اطلاعات بیشتر، فرم تماس و درخواست مشاوره را تکمیل نمایید.

@Sharif_Executive_Education
👍53🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
مدل Sana-0.6B می‌تونه با مدل‌های بزرگتر و پیشرفته مثل Flux-12B رقابت کنه، در حالی که ۲۰ برابر کوچکتر و ۱۰۰ برابر سریع‌ تره. این مدل رو می‌ شه روی کارت گرافیک لپ‌ تاپ ۱۶ گیگا بایتی اجرا کرد و برای تولید یه عکس 1024 × 1024 کمتر از ۱ ثانیه زمان می‌ بره. سانا امکان تولید محتوا با هزینه پایین رو فراهم می‌ کنه.  

https://arxiv.org/pdf/2410.10629

معرفی یه اتواینکدر جدید که فشرده‌ سازی تصاویر رو به میزان 32 برابر انجام میده (در مقایسه با روش‌های قبلی با فشرده سازی 8 برابری) و باعث کاهش تعداد توکن‌های پنهان و در نتیجه افزایش سرعت و کارایی مدل در تولید تصاویر با وضوح بالا مثل 4K میشه

استفاده از توجه خطی(Linear DiT) که نسخه بهینه‌ شده‌ مکانیسم توجه استاندارده و برای بهبود کارایی در تولید تصاویر با وضوح بالا طراحی شده. مکانیسم توجه استاندارد به صورت معمولی پیچیدگی محاسباتی  O(N2) رو داره ، به این معنی که وقتی اندازه تصویر افزایش پیدا میکنه، مقدار محاسبات هم به صورت نمایی افزایش پیدا میکنه.

این موضوع به‌خصوص در پردازش تصاویر با وضوح بالا مشکل‌سازه. توجه خطی پیشنهاد شده پیچیدگی محاسبات رو از O(N2) به O(N) کاهش می‌ ده.
🔥12👍8
مقاله جدید انویدیا به موضوع نرمال‌سازی در معماری‌های شبکه عصبی پرداخته و تمرکز اصلی اون بر روی مدل ترانسفورمر نرمال‌سازی‌شده (nGPT) هست که از یادگیری نمایشی روی هایپراسفر استفاده میکنه.

هدف اصلی این مدل، حل مشکل نا مساعد بودن یا بد وضعی اعداد در embeddingهای ورودی مدل‌های ترانسفورمر سنتی هست.

یادآوری ماتریس های بد وضع(نامساعد):

به ماتریسی گفته میشه که دارای نسبت وضع (condition number) بالایی هست. این نسبت نشون دهنده حساسیت پاسخ‌ های یه سیستم خطی به تغییرات در ورودی ‌های اونه.

اگه ماتریسی بد وضع باشه، کوچک ‌ترین تغییر در ورودی میتونه باعث تغییرات بزرگی در خروجی بشه، که در نتیجه باعث ناپایداری و مشکلات محاسباتی میشه.

در محاسبات عددی، اگه از ماتریس‌های بد وضع استفاده شه، خطاهای گرد کردن میتونه باعث تغییرات بزرگ در نتایج بشه همچنین در یادگیری ماشین، بد وضعی میتونه باعث بشه که مدل به خوبی نتونه یاد بگیره و دقت آن کاهش پیدا کنه.

توضیحات بیشتر در مورد ماتریس های بد وضع:

 https://emtiyaz.github.io/pcml15/illconditioned.pdf

به عبارت ساده وقتی میگیم که یه ماتریس بد وضعه، یعنی اعداد بزرگ و کوچک بسیار زیادی در آن وجود داره که باعث میشه محاسبات ناپایدار و یادگیری دشوارتر شه.

در مدل‌های ترانسفورمر سنتی، ماتریس‌های مربوط به توجه (Attention) و MLP ممکنه دچار این مشکل بشن، بطوری که یادگیری مدل کارآمد نیست و دقت یادگیری کاهش پیدا میکنه.


مدل nGPT با استفاده از نرمال‌سازی هایپراسفر این مشکل رو کاهش میده. یعنی همه‌ ی بردارها از جمله embeddingها و ماتریس‌های توجه و ...  طوری تنظیم میشن که طولشان برابر با یک باشه و روی سطح یک کره چندبعدی (هایپراسفر) قرار بگیرن.

این نرمال‌سازی باعث میشه که اعداد در ماتریس‌ها بهتر توزیع بشن و مشکلات بد وضعی کاهش پیدا کنه.

مقاله ادعا میکنه که با این نرمال سازی پیشنهادی ، آموزش ترنسفورمرها به طور قابل توجهی بین ۴ تا ۲۰ برابر بسته به طول دنباله وردی کاهش پیدا کنه

https://arxiv.org/pdf/2410.01131
👍132
آدما از طریق مشاهده دنیای بیرونی و همچنین درونگری، دانش کسب می‌کنن.

درونگری به آدما اجازه میده که به حالت ذهنی خودشون (مثل افکار و احساسات) دسترسی داشته باشن که برای دیگران قابل مشاهده نیست.

آیا مدل‌های زبان بزرگ هم می‌تونن خوداندیشی کنن؟ ما درونگری رو به‌ عنوان کسب دانش از حالت‌ های درونی ذهن تعریف می‌کنیم که در داده ‌های آموزشی نیست.

این توانایی می‌تونه به ما کمک کنه تا مدل‌ها رو بهتر درک کنیم. به‌جای اینکه بخوایم عملکرد داخلی مدل رو به  ‌دقت تحلیل کنیم، می‌تونیم از خودش بپرسیم که چه باوری داره یا چه هدف‌هایی رو دنبال می ‌کنه. شاید یک مدل درونگر بتونه درباره احساسات یا خواسته‌ های درونی خودش گزارش بده.

در این مقاله جدید، به بررسی و پاسخ به یه سوال بسیار جالب پرداخته شده که آیا مدل های زبانی میتونن از طریق درونگری، درباره خودشون دانش کسب کنن؟

https://arxiv.org/pdf/2410.13787
👍9👌21🔥1💯1
This media is not supported in your browser
VIEW IN TELEGRAM
مایکروسافت اولین تکنیک برای بازسازی کامل بدن انسان بدون نشانگر، با کیفیت بالا را رونمایی کرد. این تکنیک شامل بازسازی چشم‌ها و زبان نیز می‌شود و نیازی به کالیبراسیون، مداخله دستی یا سخت‌افزار خاص ندارد.

Novel SOTA holistic 3D human reconstruction
Body shape/pose + face shape/expression
Hand & tongue articulation + eye gaze
Suitable for mono & multi-view scenario
Data pipeline for generating synthetic data
Body, face and hands dataset released!


🔗https://microsoft.github.io/SynthMoCap/

🔗https://github.com/microsoft/SynthMoCap
👍7🔥1
Zero shot pdf OCR with gpt-4o-mini

یه راه ساده برای OCR اسناد با GPT
دمو
🔗https://getomni.ai/ocr-demo
کد
🔗https://github.com/getomni-ai/zerox
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos

روی ویدیو یه نقطه بزارید و اونو با دقت خیلی عالی ترک کنید...

دمو
https://huggingface.co/spaces/facebook/cotracker

کد:
https://github.com/facebookresearch/co-tracker

مقاله

https://arxiv.org/abs/2410.11831
1👍7🤯2
PocketPal AI
منتشر شد

یه دستیار هوش مصنوعی متن باز برای اجرای مدل های زبانی مثل Phi, Gemma 2,Qwen و Lama به صورت آفلاین روی گوشی همراه هست.

این دستیار برای هر دو سیستم‌عامل iOS و اندروید طراحی شده و به شما این امکان رو میده بدون نیاز اتصال به اینترنت با مدل‌های زبانی مختلف تعامل داشته باشین

نمونه خروجی LIama. سرعت تولید 20 توکن در ثانیه. گوشی سامسونگ s22


https://github.com/a-ghorbani/pocketpal-ai
👍17
تصور کنیم که جنگ های مدرن آینده با ربات های خودمختار هدایت شن.

مدل‌های زبانی بزرگ (LLM) تحول بزرگی در زمینه رباتیک ایجاد کردن و امکان استدلال مبتنی بر زمینه و تعامل طبیعی بین انسان و ربات رو در حوزه‌های مختلفی مانند کنترل، حرکت و خودروهای خودران فراهم کردن.

اما، مدل‌های زبانی بزرگ به تنهایی در برابر حملات موسوم به "جیل‌بریک" آسیب‌پذیری بالایی دارن.

توی این مقاله که سه روز پیش منتشر شد نشون میده که افراد مخرب میتونن با دور زدن تدابیر ایمنی مدل های زبانی مثل ChatGPT، متن‌های مضر تولید کنن.

 برای ارزیابی خطرات استفاده از مدل های زبانی در رباتیک، در این مقاله الگوریتم RoboPAIR معرفی شده، که اولین الگوریتم طراحی‌ شده برای جیل ‌بریک ربات‌های کنترل‌شده توسط مدل های زبانیه.

برخلاف حملات متنی موجود بر چت ‌بات‌ها، RoboPAIR  میتونه ربات‌ها رو به انجام اقدامات فیزیکی خطرناک وادار کنه.

نتایج نشون میده که RoboPAIR میتونه حملات موفقیت ‌آمیزی را با نرخ موفقیت 100 درصد انجام بده. این یافته ‌ها برای اولین بار نشون میده که خطرات جیل ‌بریک مدل‌های زبانی فراتر از تولید متن بوده و میتونه به آسیب‌های فیزیکی منجر بشه!

https://arxiv.org/pdf/2410.13691
 
👍1
2025/07/12 19:23:55
Back to Top
HTML Embed Code: