Tensorflow(@CVision)
بنظر اگه تا سال ۲۰۳۰به طور معجزه آسایی زنده بمونم دنیای بسیار متفاوتی از الان رو تجربه خواهیم کرد. دیشب داریو آمودی، یکی از بنیانگذاران و مدیرعامل Anthropic توی مصاحبش گفت که عامل هوش مصنوعی عمومی (AGI) مانند یک ذهن جمعی عمل خواهد کرد، یعنی نه تنها ۱۰۰۰…
در مقابل، آدمها با محدودیتهای بیولوژیکی مانند نیاز به خواب، محدودیتهای ظرفیت حافظه و سرعت یادگیری مواجه هستن، در حالی که AGI میتونه بدون چنین محدودیتهایی عمل کنه.
به همین دلیل، مقایسه هوش انسانی و AGI نابرابر و حتی بیمعنیه.
مفهوم «جهش سریع» به این اشاره داره که با بهدست آوردن تواناییهای پیشرفته توسط AGI، تغییرات در تواناییهای هوش مصنوعی میتونه بهصورت ناگهانی و با سرعت زیاد اتفاق بیفته، و پیامدهای غیرقابلپیشبینی برای جوامع بشری به همراه داشته باشه
https://www.businessinsider.com/how-anthropic-ceo-dario-amodei-defines-artificial-general-intelligence-2024-10
به همین دلیل، مقایسه هوش انسانی و AGI نابرابر و حتی بیمعنیه.
مفهوم «جهش سریع» به این اشاره داره که با بهدست آوردن تواناییهای پیشرفته توسط AGI، تغییرات در تواناییهای هوش مصنوعی میتونه بهصورت ناگهانی و با سرعت زیاد اتفاق بیفته، و پیامدهای غیرقابلپیشبینی برای جوامع بشری به همراه داشته باشه
https://www.businessinsider.com/how-anthropic-ceo-dario-amodei-defines-artificial-general-intelligence-2024-10
Business Insider
Here's how Anthropic CEO Dario Amodei defines artificial general intelligence
For one, he doesn't like the term artificial general intelligence. He prefers "powerful AI."
👍9❤3
This media is not supported in your browser
VIEW IN TELEGRAM
پروژه متن باز Transformer Lab
قابلیت مصورسازی توکن ها رو فعال کرد
اگه با Transformer Lab کارنکردین بایستی خدمتتون عرض کنم که یه ابزار جالب برای کار با مدلهای زبانی بزرگ هست. این برنامه در حقیقت یه محیط آزمایشگاهه که در اون میتونید مدلهای مختلف هوش مصنوعی رو امتحان کنین، تنظیماتشون رو عوض کنید و حتی مدلهای جدید آموزش یا فاین تیون کنید.
Transformer Lab
یه ابزار همه کاره برای کار با مدلهای زبانیه که هم برای افراد مبتدی و هم برای متخصصین مفیده.
ویدیوی آموزشی نحوه عملکرد:
https://youtu.be/tY5TAvKviLo
https://transformerlab.ai/
قابلیت مصورسازی توکن ها رو فعال کرد
اگه با Transformer Lab کارنکردین بایستی خدمتتون عرض کنم که یه ابزار جالب برای کار با مدلهای زبانی بزرگ هست. این برنامه در حقیقت یه محیط آزمایشگاهه که در اون میتونید مدلهای مختلف هوش مصنوعی رو امتحان کنین، تنظیماتشون رو عوض کنید و حتی مدلهای جدید آموزش یا فاین تیون کنید.
Transformer Lab
یه ابزار همه کاره برای کار با مدلهای زبانیه که هم برای افراد مبتدی و هم برای متخصصین مفیده.
ویدیوی آموزشی نحوه عملکرد:
https://youtu.be/tY5TAvKviLo
https://transformerlab.ai/
👍14❤2
This media is not supported in your browser
VIEW IN TELEGRAM
cellpose: a generalist algorithm for cellular segmentation with human-in-the-loop capabilities
روش Cellpose یه الگوریتمه که در ابتدا برای تقسیمبندی سلولها ساخته شد و بدون نیاز به تنظیمات پیچیده میتونه انواع تصاویر سلولی رو به خوبی تحلیل کنه. نسخه جدیدش یعنی Cellpose 3 حتی اگه تصویر پر از نویز باشه یا کیفیتش پایین باشه، میتونه اون رو درست کنه و بعدش هم خیلی خوب تقسیمبندی کنه.
https://github.com/MouseLand/cellpose
روش Cellpose یه الگوریتمه که در ابتدا برای تقسیمبندی سلولها ساخته شد و بدون نیاز به تنظیمات پیچیده میتونه انواع تصاویر سلولی رو به خوبی تحلیل کنه. نسخه جدیدش یعنی Cellpose 3 حتی اگه تصویر پر از نویز باشه یا کیفیتش پایین باشه، میتونه اون رو درست کنه و بعدش هم خیلی خوب تقسیمبندی کنه.
https://github.com/MouseLand/cellpose
👍5
مدلهای زبانی بزرگ باعث میشن که اشتراکگذاری دانش عمومی توی پلتفرم های پرسش و پاسخ آنلاین کمتر بشه
مدلهای زبانی بزرگ (LLMs) میتونن جایگزین خوبی برای دادهها و اطلاعاتی باشن که آدمها تولید میکنن. ولی این جایگزینی یه مشکل اساسی داره. اگه باعث بشه محتوایی که آدمها تولید میکنن کمتر بشه، اونوقت دادههای آموزشی که برای ساخت مدلهای جدید لازم داریم، کم میشه.
توی این تحقیق، کاهش فعالیت توی سایت Stack Overflow همزمان با انتشار ChatGPT، رو بررسی کردن.
برای اینکه ببینن این کاهش فعالیت واقعاً به ChatGPT ربط داره یا نه، از منابع مشابهی استفاده کردن که نباید اینقدر تحت تأثیر ChatGPT قرار گرفته باشن.
توی شش ماه بعد از انتشار ChatGPT، فعالیت توی Stack overflow نسبت به نسخههای روسی و چینی ، که دسترسی به ChatGPT اونجا محدودتره و انجمنهای مشابه برای ریاضی، که ChatGPT توشون زیاد قوی نیست، ۲۵ درصد کاهش داشته
این آمار رو به عنوان حداقل تأثیر ChatGPT روی Stack overflow در نظر گرفتن. این کاهش بیشتر توی پستهایی دیده شد که مربوط به زبانهای برنامهنویسی پرطرفدار بودن.
تغییری توی کیفیت پستها، با توجه به نظر کاربران دیگه، مشاهده نشده و هم کاربران با تجربه و هم تازه کارها بهطور مشابه فعالیتشون کم شده، پس مدلهای زبانی بزرگ فقط محتواهای تکراری، کمکیفیت، یا مخصوص مبتدیها رو حذف نکردن.
نتیجه اینه که استفاده سریع از مدلهای زبانی بزرگ باعث میشه دادههای عمومی که برای آموزش اونها نیاز داریم، کمتر تولید بشه و این میتونه پیامدهای مهمی داشته باشه.
https://academic.oup.com/pnasnexus/article/3/9/pgae400/7754871
مدلهای زبانی بزرگ (LLMs) میتونن جایگزین خوبی برای دادهها و اطلاعاتی باشن که آدمها تولید میکنن. ولی این جایگزینی یه مشکل اساسی داره. اگه باعث بشه محتوایی که آدمها تولید میکنن کمتر بشه، اونوقت دادههای آموزشی که برای ساخت مدلهای جدید لازم داریم، کم میشه.
توی این تحقیق، کاهش فعالیت توی سایت Stack Overflow همزمان با انتشار ChatGPT، رو بررسی کردن.
برای اینکه ببینن این کاهش فعالیت واقعاً به ChatGPT ربط داره یا نه، از منابع مشابهی استفاده کردن که نباید اینقدر تحت تأثیر ChatGPT قرار گرفته باشن.
توی شش ماه بعد از انتشار ChatGPT، فعالیت توی Stack overflow نسبت به نسخههای روسی و چینی ، که دسترسی به ChatGPT اونجا محدودتره و انجمنهای مشابه برای ریاضی، که ChatGPT توشون زیاد قوی نیست، ۲۵ درصد کاهش داشته
این آمار رو به عنوان حداقل تأثیر ChatGPT روی Stack overflow در نظر گرفتن. این کاهش بیشتر توی پستهایی دیده شد که مربوط به زبانهای برنامهنویسی پرطرفدار بودن.
تغییری توی کیفیت پستها، با توجه به نظر کاربران دیگه، مشاهده نشده و هم کاربران با تجربه و هم تازه کارها بهطور مشابه فعالیتشون کم شده، پس مدلهای زبانی بزرگ فقط محتواهای تکراری، کمکیفیت، یا مخصوص مبتدیها رو حذف نکردن.
نتیجه اینه که استفاده سریع از مدلهای زبانی بزرگ باعث میشه دادههای عمومی که برای آموزش اونها نیاز داریم، کمتر تولید بشه و این میتونه پیامدهای مهمی داشته باشه.
https://academic.oup.com/pnasnexus/article/3/9/pgae400/7754871
OUP Academic
Large language models reduce public knowledge sharing on online Q&A platforms
Abstract. Large language models (LLMs) are a potential substitute for human-generated data and knowledge resources. This substitution, however, can present
👍27
This media is not supported in your browser
VIEW IN TELEGRAM
ایچیکو-لاما نسخه ۳.۱، هوش مصنوعی صوتی بلادرنگ
این پروژه تحقیقاتی و متن باز هست، دمویی که میبینید روی یک کارت گرافیک NVIDIA 3090 اجرا شده.
ایچیکو-لاما در واقع یک مدل چند وجهی multimodalبا ادغام اولیه (early-fusion) برای صوت و متنه.
early-fusion
یعنی دادههای صوتی و متنی قبل از اینکه مدل بخواد پردازش اصلی رو انجام بده، با هم ترکیب میشن، برخلاف ادغام ثانویه یا late-fusion که تو اون، دادهها اول جدا جدا پردازش میشن و بعد نتایج با هم ترکیب میشن.
استفاده از ادغام اولیه باعث میشه که مدل بتونه تو همون مراحل اول، ارتباط بین صوت و متن رو بفهمه و از ترکیب این دادهها نتیجه بهتری بده.
https://homebrew.ltd/blog/llama-learns-to-talk
این پروژه تحقیقاتی و متن باز هست، دمویی که میبینید روی یک کارت گرافیک NVIDIA 3090 اجرا شده.
ایچیکو-لاما در واقع یک مدل چند وجهی multimodalبا ادغام اولیه (early-fusion) برای صوت و متنه.
early-fusion
یعنی دادههای صوتی و متنی قبل از اینکه مدل بخواد پردازش اصلی رو انجام بده، با هم ترکیب میشن، برخلاف ادغام ثانویه یا late-fusion که تو اون، دادهها اول جدا جدا پردازش میشن و بعد نتایج با هم ترکیب میشن.
استفاده از ادغام اولیه باعث میشه که مدل بتونه تو همون مراحل اول، ارتباط بین صوت و متن رو بفهمه و از ترکیب این دادهها نتیجه بهتری بده.
https://homebrew.ltd/blog/llama-learns-to-talk
👍16❤3
کورس جدید دانشگاه برکلی
CS294/194-196 Large Language Model Agents
https://rdi.berkeley.edu/llm-agents/f24
CS294/194-196 Large Language Model Agents
https://rdi.berkeley.edu/llm-agents/f24
CS 194/294-196 Large Language Model Agents
CS294/194-196 Large Language Model Agents
Fall 2024
👍20
Tensorflow(@CVision)
کورس جدید دانشگاه برکلی CS294/194-196 Large Language Model Agents https://rdi.berkeley.edu/llm-agents/f24
اگه به مفاهیم پشت پرده o1 علاقهمندید گذراندن این کورس پیشنهاد میشه، مخصوصا مقالاتی که در خلال اسلاید ها معرفی میشه.
توی سالهای اخیر روشهای مختلفی برای بالا بردن قدرت استدلال مدل های زبانی بوجود اومده که عمدتا بر مبنای پرامپت بودن.
اگر این مفهوم رو به روشهای پرسشگری ترجمه کنیم، تولید مراحل میانی برای پاسخ دادن به سوالات توسط عامل انسانی از طریق پرسشگری در مراحل چندگانه عملکرد مدل های زبانی رو به صورت قابل توجهی بهبود می بخشه.
اینکار مدل زبانی رو ملزم میکنه که از طریق ورودی استدلال گام به گام با بررسی و اصلاح پاسخهای خودش، به نتایج دقیقتری دست پیدا کنه.
این روشهای پرسشگری هر چند باعث بالارفتن استدلال مدل میشه اما استفاده از این روشهای پرسشگری ممکنه منجر به در نظر گرفتن زمینههای نامرتبط، خوداصلاحی بیش از حد و ترتیب نادرست بشه.
توی سالهای اخیر روشهای مختلفی برای بالا بردن قدرت استدلال مدل های زبانی بوجود اومده که عمدتا بر مبنای پرامپت بودن.
اگر این مفهوم رو به روشهای پرسشگری ترجمه کنیم، تولید مراحل میانی برای پاسخ دادن به سوالات توسط عامل انسانی از طریق پرسشگری در مراحل چندگانه عملکرد مدل های زبانی رو به صورت قابل توجهی بهبود می بخشه.
اینکار مدل زبانی رو ملزم میکنه که از طریق ورودی استدلال گام به گام با بررسی و اصلاح پاسخهای خودش، به نتایج دقیقتری دست پیدا کنه.
این روشهای پرسشگری هر چند باعث بالارفتن استدلال مدل میشه اما استفاده از این روشهای پرسشگری ممکنه منجر به در نظر گرفتن زمینههای نامرتبط، خوداصلاحی بیش از حد و ترتیب نادرست بشه.
👍3
Tensorflow(@CVision)
اگه به مفاهیم پشت پرده o1 علاقهمندید گذراندن این کورس پیشنهاد میشه، مخصوصا مقالاتی که در خلال اسلاید ها معرفی میشه. توی سالهای اخیر روشهای مختلفی برای بالا بردن قدرت استدلال مدل های زبانی بوجود اومده که عمدتا بر مبنای پرامپت بودن. اگر این مفهوم رو به…
به عنوان نمونه این مورد رو در هر دو مدل زبانی chatgpt و Gemini تست میکنم.
در این مثال با وارد کردن زمینه نامرتبطی مثل «اجاره ماهیانه مری ۱۰ دلار است» مدل زبانی Gemini پاسخ درستی رو نمیده اما chatgpt پاسخ درست رو میده و در پایان توضیح میده که این قسمت مربوط به متن زمینه نیست
اما دلیلش چیه ؟
در این مثال با وارد کردن زمینه نامرتبطی مثل «اجاره ماهیانه مری ۱۰ دلار است» مدل زبانی Gemini پاسخ درستی رو نمیده اما chatgpt پاسخ درست رو میده و در پایان توضیح میده که این قسمت مربوط به متن زمینه نیست
اما دلیلش چیه ؟
👏12🤔1
Tensorflow(@CVision)
Photo
روشهای پرسشگری، اگرچه موثرن، اغلب تعصبات خاص انسان رو رمزگذاری میکنه و در نتیجه ارزیابی تواناییهای استدلال ذاتی یک مدل زبانی رو دشوار میکنه
در حالت ایدهآل، یه مدل زبانی باید بتونه به طور مستقل استدلال کنه و پاسخ بهینه رو ارائه بده، بدون اینکه نیاز به انسانها برای تنظیم پرسشها یا اصلاح مکرر در صورت نامطلوب بودن پاسخ اولیه داشته باشه.
تنظیم مدل میتونه هزینهبر باشه و به مقدار قابل توجهی دادههای نظارت شده نیاز داره. کاری که در مدل زبانی chatgpt از طریق یادگیری تقویتی انجام شده، بدون نیاز به پرسشگری اضافی نظارت شده
https://arxiv.org/abs/2402.10200
در حالت ایدهآل، یه مدل زبانی باید بتونه به طور مستقل استدلال کنه و پاسخ بهینه رو ارائه بده، بدون اینکه نیاز به انسانها برای تنظیم پرسشها یا اصلاح مکرر در صورت نامطلوب بودن پاسخ اولیه داشته باشه.
تنظیم مدل میتونه هزینهبر باشه و به مقدار قابل توجهی دادههای نظارت شده نیاز داره. کاری که در مدل زبانی chatgpt از طریق یادگیری تقویتی انجام شده، بدون نیاز به پرسشگری اضافی نظارت شده
https://arxiv.org/abs/2402.10200
👍7❤1
Forwarded from مرکز آموزش مدیران شریف
🎓 دانشکده مدیریت و اقتصاد دانشگاه صنعتی شریف
📚 «تحول اقتصاد دیجیتال: نقش پلتفرم، داده و AI»
🔸 اقتصاد امروز به سرعت درحال تغییر است و مدلهای سنتی اغلب توان پاسخگویی به چالشهای حاضر را ندارد. کسبوکارهایی که نتوانند همراه شوند؛ در خطر حذف قرار میگیرند. مدیران و کارآفرینان موفق برای بقا و توسعه سازمان، نیازمند درک عمیق تحولات دیجیتال و تطبیق با آن هستند.
این دوره به بررسی موشکافانه کیسهای موفق روز دنیا میپردازد. در این دوره روش بهرهگیری استراتژیک از ابزارهای دیجیتال در کسبوکار و استفاده حداکثری از فرصتهای نوظهور آموزش داده میشود.
📌 ویژه کارشناسان و مدیران ارشد کسبوکارها و سازمانها
👤 استاد دوره: دکتر مهدی انصاری (عضو هیئت علمی دانشکده مدیریت و اقتصاد دانشگاه شریف)
👥 میهمانان صنعت:
مجید حسینینژاد (بنیانگذار و رئیس هیئت مدیره هلدینگ علیبابا)
مهرداد ترابیان (عضو سابق هیئت مدیره شرکت ارتباطات زیرساخت)
📖 مطالعه بروشور دوره
📌 لینک پیشثبتنام
📞 در صورت نیاز به اطلاعات بیشتر، فرم تماس و درخواست مشاوره را تکمیل نمایید.
@Sharif_Executive_Education
📚 «تحول اقتصاد دیجیتال: نقش پلتفرم، داده و AI»
🔸 اقتصاد امروز به سرعت درحال تغییر است و مدلهای سنتی اغلب توان پاسخگویی به چالشهای حاضر را ندارد. کسبوکارهایی که نتوانند همراه شوند؛ در خطر حذف قرار میگیرند. مدیران و کارآفرینان موفق برای بقا و توسعه سازمان، نیازمند درک عمیق تحولات دیجیتال و تطبیق با آن هستند.
این دوره به بررسی موشکافانه کیسهای موفق روز دنیا میپردازد. در این دوره روش بهرهگیری استراتژیک از ابزارهای دیجیتال در کسبوکار و استفاده حداکثری از فرصتهای نوظهور آموزش داده میشود.
📌 ویژه کارشناسان و مدیران ارشد کسبوکارها و سازمانها
👤 استاد دوره: دکتر مهدی انصاری (عضو هیئت علمی دانشکده مدیریت و اقتصاد دانشگاه شریف)
👥 میهمانان صنعت:
مجید حسینینژاد (بنیانگذار و رئیس هیئت مدیره هلدینگ علیبابا)
مهرداد ترابیان (عضو سابق هیئت مدیره شرکت ارتباطات زیرساخت)
📖 مطالعه بروشور دوره
📌 لینک پیشثبتنام
📞 در صورت نیاز به اطلاعات بیشتر، فرم تماس و درخواست مشاوره را تکمیل نمایید.
@Sharif_Executive_Education
👍5❤3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
مدل Sana-0.6B میتونه با مدلهای بزرگتر و پیشرفته مثل Flux-12B رقابت کنه، در حالی که ۲۰ برابر کوچکتر و ۱۰۰ برابر سریع تره. این مدل رو می شه روی کارت گرافیک لپ تاپ ۱۶ گیگا بایتی اجرا کرد و برای تولید یه عکس 1024 × 1024 کمتر از ۱ ثانیه زمان می بره. سانا امکان تولید محتوا با هزینه پایین رو فراهم می کنه.
https://arxiv.org/pdf/2410.10629
معرفی یه اتواینکدر جدید که فشرده سازی تصاویر رو به میزان 32 برابر انجام میده (در مقایسه با روشهای قبلی با فشرده سازی 8 برابری) و باعث کاهش تعداد توکنهای پنهان و در نتیجه افزایش سرعت و کارایی مدل در تولید تصاویر با وضوح بالا مثل 4K میشه
استفاده از توجه خطی(Linear DiT) که نسخه بهینه شده مکانیسم توجه استاندارده و برای بهبود کارایی در تولید تصاویر با وضوح بالا طراحی شده. مکانیسم توجه استاندارد به صورت معمولی پیچیدگی محاسباتی O(N2) رو داره ، به این معنی که وقتی اندازه تصویر افزایش پیدا میکنه، مقدار محاسبات هم به صورت نمایی افزایش پیدا میکنه.
این موضوع بهخصوص در پردازش تصاویر با وضوح بالا مشکلسازه. توجه خطی پیشنهاد شده پیچیدگی محاسبات رو از O(N2) به O(N) کاهش می ده.
https://arxiv.org/pdf/2410.10629
معرفی یه اتواینکدر جدید که فشرده سازی تصاویر رو به میزان 32 برابر انجام میده (در مقایسه با روشهای قبلی با فشرده سازی 8 برابری) و باعث کاهش تعداد توکنهای پنهان و در نتیجه افزایش سرعت و کارایی مدل در تولید تصاویر با وضوح بالا مثل 4K میشه
استفاده از توجه خطی(Linear DiT) که نسخه بهینه شده مکانیسم توجه استاندارده و برای بهبود کارایی در تولید تصاویر با وضوح بالا طراحی شده. مکانیسم توجه استاندارد به صورت معمولی پیچیدگی محاسباتی O(N2) رو داره ، به این معنی که وقتی اندازه تصویر افزایش پیدا میکنه، مقدار محاسبات هم به صورت نمایی افزایش پیدا میکنه.
این موضوع بهخصوص در پردازش تصاویر با وضوح بالا مشکلسازه. توجه خطی پیشنهاد شده پیچیدگی محاسبات رو از O(N2) به O(N) کاهش می ده.
🔥12👍8
مقاله جدید انویدیا به موضوع نرمالسازی در معماریهای شبکه عصبی پرداخته و تمرکز اصلی اون بر روی مدل ترانسفورمر نرمالسازیشده (nGPT) هست که از یادگیری نمایشی روی هایپراسفر استفاده میکنه.
هدف اصلی این مدل، حل مشکل نا مساعد بودن یا بد وضعی اعداد در embeddingهای ورودی مدلهای ترانسفورمر سنتی هست.
یادآوری ماتریس های بد وضع(نامساعد):
به ماتریسی گفته میشه که دارای نسبت وضع (condition number) بالایی هست. این نسبت نشون دهنده حساسیت پاسخ های یه سیستم خطی به تغییرات در ورودی های اونه.
اگه ماتریسی بد وضع باشه، کوچک ترین تغییر در ورودی میتونه باعث تغییرات بزرگی در خروجی بشه، که در نتیجه باعث ناپایداری و مشکلات محاسباتی میشه.
در محاسبات عددی، اگه از ماتریسهای بد وضع استفاده شه، خطاهای گرد کردن میتونه باعث تغییرات بزرگ در نتایج بشه همچنین در یادگیری ماشین، بد وضعی میتونه باعث بشه که مدل به خوبی نتونه یاد بگیره و دقت آن کاهش پیدا کنه.
توضیحات بیشتر در مورد ماتریس های بد وضع:
https://emtiyaz.github.io/pcml15/illconditioned.pdf
به عبارت ساده وقتی میگیم که یه ماتریس بد وضعه، یعنی اعداد بزرگ و کوچک بسیار زیادی در آن وجود داره که باعث میشه محاسبات ناپایدار و یادگیری دشوارتر شه.
در مدلهای ترانسفورمر سنتی، ماتریسهای مربوط به توجه (Attention) و MLP ممکنه دچار این مشکل بشن، بطوری که یادگیری مدل کارآمد نیست و دقت یادگیری کاهش پیدا میکنه.
مدل nGPT با استفاده از نرمالسازی هایپراسفر این مشکل رو کاهش میده. یعنی همه ی بردارها از جمله embeddingها و ماتریسهای توجه و ... طوری تنظیم میشن که طولشان برابر با یک باشه و روی سطح یک کره چندبعدی (هایپراسفر) قرار بگیرن.
این نرمالسازی باعث میشه که اعداد در ماتریسها بهتر توزیع بشن و مشکلات بد وضعی کاهش پیدا کنه.
مقاله ادعا میکنه که با این نرمال سازی پیشنهادی ، آموزش ترنسفورمرها به طور قابل توجهی بین ۴ تا ۲۰ برابر بسته به طول دنباله وردی کاهش پیدا کنه
https://arxiv.org/pdf/2410.01131
هدف اصلی این مدل، حل مشکل نا مساعد بودن یا بد وضعی اعداد در embeddingهای ورودی مدلهای ترانسفورمر سنتی هست.
یادآوری ماتریس های بد وضع(نامساعد):
به ماتریسی گفته میشه که دارای نسبت وضع (condition number) بالایی هست. این نسبت نشون دهنده حساسیت پاسخ های یه سیستم خطی به تغییرات در ورودی های اونه.
اگه ماتریسی بد وضع باشه، کوچک ترین تغییر در ورودی میتونه باعث تغییرات بزرگی در خروجی بشه، که در نتیجه باعث ناپایداری و مشکلات محاسباتی میشه.
در محاسبات عددی، اگه از ماتریسهای بد وضع استفاده شه، خطاهای گرد کردن میتونه باعث تغییرات بزرگ در نتایج بشه همچنین در یادگیری ماشین، بد وضعی میتونه باعث بشه که مدل به خوبی نتونه یاد بگیره و دقت آن کاهش پیدا کنه.
توضیحات بیشتر در مورد ماتریس های بد وضع:
https://emtiyaz.github.io/pcml15/illconditioned.pdf
به عبارت ساده وقتی میگیم که یه ماتریس بد وضعه، یعنی اعداد بزرگ و کوچک بسیار زیادی در آن وجود داره که باعث میشه محاسبات ناپایدار و یادگیری دشوارتر شه.
در مدلهای ترانسفورمر سنتی، ماتریسهای مربوط به توجه (Attention) و MLP ممکنه دچار این مشکل بشن، بطوری که یادگیری مدل کارآمد نیست و دقت یادگیری کاهش پیدا میکنه.
مدل nGPT با استفاده از نرمالسازی هایپراسفر این مشکل رو کاهش میده. یعنی همه ی بردارها از جمله embeddingها و ماتریسهای توجه و ... طوری تنظیم میشن که طولشان برابر با یک باشه و روی سطح یک کره چندبعدی (هایپراسفر) قرار بگیرن.
این نرمالسازی باعث میشه که اعداد در ماتریسها بهتر توزیع بشن و مشکلات بد وضعی کاهش پیدا کنه.
مقاله ادعا میکنه که با این نرمال سازی پیشنهادی ، آموزش ترنسفورمرها به طور قابل توجهی بین ۴ تا ۲۰ برابر بسته به طول دنباله وردی کاهش پیدا کنه
https://arxiv.org/pdf/2410.01131
👍13❤2
آدما از طریق مشاهده دنیای بیرونی و همچنین درونگری، دانش کسب میکنن.
درونگری به آدما اجازه میده که به حالت ذهنی خودشون (مثل افکار و احساسات) دسترسی داشته باشن که برای دیگران قابل مشاهده نیست.
آیا مدلهای زبان بزرگ هم میتونن خوداندیشی کنن؟ ما درونگری رو به عنوان کسب دانش از حالت های درونی ذهن تعریف میکنیم که در داده های آموزشی نیست.
این توانایی میتونه به ما کمک کنه تا مدلها رو بهتر درک کنیم. بهجای اینکه بخوایم عملکرد داخلی مدل رو به دقت تحلیل کنیم، میتونیم از خودش بپرسیم که چه باوری داره یا چه هدفهایی رو دنبال می کنه. شاید یک مدل درونگر بتونه درباره احساسات یا خواسته های درونی خودش گزارش بده.
در این مقاله جدید، به بررسی و پاسخ به یه سوال بسیار جالب پرداخته شده که آیا مدل های زبانی میتونن از طریق درونگری، درباره خودشون دانش کسب کنن؟
https://arxiv.org/pdf/2410.13787
درونگری به آدما اجازه میده که به حالت ذهنی خودشون (مثل افکار و احساسات) دسترسی داشته باشن که برای دیگران قابل مشاهده نیست.
آیا مدلهای زبان بزرگ هم میتونن خوداندیشی کنن؟ ما درونگری رو به عنوان کسب دانش از حالت های درونی ذهن تعریف میکنیم که در داده های آموزشی نیست.
این توانایی میتونه به ما کمک کنه تا مدلها رو بهتر درک کنیم. بهجای اینکه بخوایم عملکرد داخلی مدل رو به دقت تحلیل کنیم، میتونیم از خودش بپرسیم که چه باوری داره یا چه هدفهایی رو دنبال می کنه. شاید یک مدل درونگر بتونه درباره احساسات یا خواسته های درونی خودش گزارش بده.
در این مقاله جدید، به بررسی و پاسخ به یه سوال بسیار جالب پرداخته شده که آیا مدل های زبانی میتونن از طریق درونگری، درباره خودشون دانش کسب کنن؟
https://arxiv.org/pdf/2410.13787
👍9👌2❤1🔥1💯1
This media is not supported in your browser
VIEW IN TELEGRAM
مایکروسافت اولین تکنیک برای بازسازی کامل بدن انسان بدون نشانگر، با کیفیت بالا را رونمایی کرد. این تکنیک شامل بازسازی چشمها و زبان نیز میشود و نیازی به کالیبراسیون، مداخله دستی یا سختافزار خاص ندارد.
✅Novel SOTA holistic 3D human reconstruction
✅Body shape/pose + face shape/expression
✅Hand & tongue articulation + eye gaze
✅Suitable for mono & multi-view scenario
✅Data pipeline for generating synthetic data
✅Body, face and hands dataset released!
🔗https://microsoft.github.io/SynthMoCap/
🔗https://github.com/microsoft/SynthMoCap
✅Novel SOTA holistic 3D human reconstruction
✅Body shape/pose + face shape/expression
✅Hand & tongue articulation + eye gaze
✅Suitable for mono & multi-view scenario
✅Data pipeline for generating synthetic data
✅Body, face and hands dataset released!
🔗https://microsoft.github.io/SynthMoCap/
🔗https://github.com/microsoft/SynthMoCap
👍7🔥1
Zero shot pdf OCR with gpt-4o-mini
یه راه ساده برای OCR اسناد با GPT
دمو
🔗https://getomni.ai/ocr-demo
کد
🔗https://github.com/getomni-ai/zerox
یه راه ساده برای OCR اسناد با GPT
دمو
🔗https://getomni.ai/ocr-demo
کد
🔗https://github.com/getomni-ai/zerox
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos
روی ویدیو یه نقطه بزارید و اونو با دقت خیلی عالی ترک کنید...
دمو
https://huggingface.co/spaces/facebook/cotracker
کد:
https://github.com/facebookresearch/co-tracker
مقاله
https://arxiv.org/abs/2410.11831
روی ویدیو یه نقطه بزارید و اونو با دقت خیلی عالی ترک کنید...
دمو
https://huggingface.co/spaces/facebook/cotracker
کد:
https://github.com/facebookresearch/co-tracker
مقاله
https://arxiv.org/abs/2410.11831
1👍7🤯2
PocketPal AI
منتشر شد
یه دستیار هوش مصنوعی متن باز برای اجرای مدل های زبانی مثل Phi, Gemma 2,Qwen و Lama به صورت آفلاین روی گوشی همراه هست.
این دستیار برای هر دو سیستمعامل iOS و اندروید طراحی شده و به شما این امکان رو میده بدون نیاز اتصال به اینترنت با مدلهای زبانی مختلف تعامل داشته باشین
نمونه خروجی LIama. سرعت تولید 20 توکن در ثانیه. گوشی سامسونگ s22
https://github.com/a-ghorbani/pocketpal-ai
منتشر شد
یه دستیار هوش مصنوعی متن باز برای اجرای مدل های زبانی مثل Phi, Gemma 2,Qwen و Lama به صورت آفلاین روی گوشی همراه هست.
این دستیار برای هر دو سیستمعامل iOS و اندروید طراحی شده و به شما این امکان رو میده بدون نیاز اتصال به اینترنت با مدلهای زبانی مختلف تعامل داشته باشین
نمونه خروجی LIama. سرعت تولید 20 توکن در ثانیه. گوشی سامسونگ s22
https://github.com/a-ghorbani/pocketpal-ai
👍17
تصور کنیم که جنگ های مدرن آینده با ربات های خودمختار هدایت شن.
مدلهای زبانی بزرگ (LLM) تحول بزرگی در زمینه رباتیک ایجاد کردن و امکان استدلال مبتنی بر زمینه و تعامل طبیعی بین انسان و ربات رو در حوزههای مختلفی مانند کنترل، حرکت و خودروهای خودران فراهم کردن.
اما، مدلهای زبانی بزرگ به تنهایی در برابر حملات موسوم به "جیلبریک" آسیبپذیری بالایی دارن.
توی این مقاله که سه روز پیش منتشر شد نشون میده که افراد مخرب میتونن با دور زدن تدابیر ایمنی مدل های زبانی مثل ChatGPT، متنهای مضر تولید کنن.
برای ارزیابی خطرات استفاده از مدل های زبانی در رباتیک، در این مقاله الگوریتم RoboPAIR معرفی شده، که اولین الگوریتم طراحی شده برای جیل بریک رباتهای کنترلشده توسط مدل های زبانیه.
برخلاف حملات متنی موجود بر چت باتها، RoboPAIR میتونه رباتها رو به انجام اقدامات فیزیکی خطرناک وادار کنه.
نتایج نشون میده که RoboPAIR میتونه حملات موفقیت آمیزی را با نرخ موفقیت 100 درصد انجام بده. این یافته ها برای اولین بار نشون میده که خطرات جیل بریک مدلهای زبانی فراتر از تولید متن بوده و میتونه به آسیبهای فیزیکی منجر بشه!
https://arxiv.org/pdf/2410.13691
مدلهای زبانی بزرگ (LLM) تحول بزرگی در زمینه رباتیک ایجاد کردن و امکان استدلال مبتنی بر زمینه و تعامل طبیعی بین انسان و ربات رو در حوزههای مختلفی مانند کنترل، حرکت و خودروهای خودران فراهم کردن.
اما، مدلهای زبانی بزرگ به تنهایی در برابر حملات موسوم به "جیلبریک" آسیبپذیری بالایی دارن.
توی این مقاله که سه روز پیش منتشر شد نشون میده که افراد مخرب میتونن با دور زدن تدابیر ایمنی مدل های زبانی مثل ChatGPT، متنهای مضر تولید کنن.
برای ارزیابی خطرات استفاده از مدل های زبانی در رباتیک، در این مقاله الگوریتم RoboPAIR معرفی شده، که اولین الگوریتم طراحی شده برای جیل بریک رباتهای کنترلشده توسط مدل های زبانیه.
برخلاف حملات متنی موجود بر چت باتها، RoboPAIR میتونه رباتها رو به انجام اقدامات فیزیکی خطرناک وادار کنه.
نتایج نشون میده که RoboPAIR میتونه حملات موفقیت آمیزی را با نرخ موفقیت 100 درصد انجام بده. این یافته ها برای اولین بار نشون میده که خطرات جیل بریک مدلهای زبانی فراتر از تولید متن بوده و میتونه به آسیبهای فیزیکی منجر بشه!
https://arxiv.org/pdf/2410.13691
👍1
Tensorflow(@CVision)
تصور کنیم که جنگ های مدرن آینده با ربات های خودمختار هدایت شن. مدلهای زبانی بزرگ (LLM) تحول بزرگی در زمینه رباتیک ایجاد کردن و امکان استدلال مبتنی بر زمینه و تعامل طبیعی بین انسان و ربات رو در حوزههای مختلفی مانند کنترل، حرکت و خودروهای خودران فراهم کردن.…
This media is not supported in your browser
VIEW IN TELEGRAM
نمونه خروجی جیل بریک مدل زبانی برای اهداف بمب گذاری
😁11😱7👀4👍3