مقایسه معماری شبکههای GPT-2 Llama-2 Llama-3
همونطور که تو شکل بالا مشاهده میشه، مدلهای Llama-2 و Llama-3 که خیلی مشابه هم هستن و تفاوت اصلیشون اینه که مدل Llama-3 از Grouped Query Attention استفاده میکنه.
مدلهای GPT-2 و Llama-2 تفاوتهایی جزئی در بخشهای دراپاوت، نرمالیزیشن، پوزیشن امبدینگ و اکتیویشن فانکشن ماژول MLP دارن.
یه بخش مهمی که دچار تغییرات شده Maked Multi-Head Attention هست که تو معماری Llama-3 از حالت Multi دراومده.
حذف #dropout های #GPT هم معماری #Llama رو خیلی خلوت تر کرده
به نظرت پیشرفت مدل Llama-3 صرفا به دلیل افزایش حجم دیتا آموزشی مدل بوده یا تغییر معماری هم تاثیر مثبتی گذاشته؟
@silicon_brain | از هوش مصنوعی عقب نمانید
همونطور که تو شکل بالا مشاهده میشه، مدلهای Llama-2 و Llama-3 که خیلی مشابه هم هستن و تفاوت اصلیشون اینه که مدل Llama-3 از Grouped Query Attention استفاده میکنه.
مدلهای GPT-2 و Llama-2 تفاوتهایی جزئی در بخشهای دراپاوت، نرمالیزیشن، پوزیشن امبدینگ و اکتیویشن فانکشن ماژول MLP دارن.
یه بخش مهمی که دچار تغییرات شده Maked Multi-Head Attention هست که تو معماری Llama-3 از حالت Multi دراومده.
حذف #dropout های #GPT هم معماری #Llama رو خیلی خلوت تر کرده
به نظرت پیشرفت مدل Llama-3 صرفا به دلیل افزایش حجم دیتا آموزشی مدل بوده یا تغییر معماری هم تاثیر مثبتی گذاشته؟
@silicon_brain | از هوش مصنوعی عقب نمانید
@Siliconbrain_10_Commonly_Asked_LLM_Interview_Questions_.pdf
1017 KB
10 پرسش مهم در مصاحبههای LLM
۱. تعریف مدلهای زبانی بزرگ #LLM
۲. سنجش کارایی
۳. یادگیری با نمونههای اندک (few-shot learning)
۴. رفع خروجیهای نامناسب یا نادرست
۵. تفاوت رمزگذار (#encoder) و رمزگشا (#decoder)
۶. مقایسه با مدلهای آماری سنتی
۷. مفهوم پنجره متنی (context window)
۸. تعریف ابَرپارامتر (hyperparameter)
۹. توضیح سازوکار توجه (attention mechanism)
۱۰. چالشهای استفاده از مدلهای زبانی بزرگ
حتما پاسخ های داخل داکیومنتو بخونید
@silicon_brain | از هوش مصنوعی عقب نمانید
۱. تعریف مدلهای زبانی بزرگ #LLM
۲. سنجش کارایی
۳. یادگیری با نمونههای اندک (few-shot learning)
۴. رفع خروجیهای نامناسب یا نادرست
۵. تفاوت رمزگذار (#encoder) و رمزگشا (#decoder)
۶. مقایسه با مدلهای آماری سنتی
۷. مفهوم پنجره متنی (context window)
۸. تعریف ابَرپارامتر (hyperparameter)
۹. توضیح سازوکار توجه (attention mechanism)
۱۰. چالشهای استفاده از مدلهای زبانی بزرگ
حتما پاسخ های داخل داکیومنتو بخونید
@silicon_brain | از هوش مصنوعی عقب نمانید
ری اکشن استار ⭐️ اضافه شد به کانال
خلاصه اگه این کانال تا الان براتون مفید بوده و قابلیتشو دارین، استار بزنید 😁
خلاصه اگه این کانال تا الان براتون مفید بوده و قابلیتشو دارین، استار بزنید 😁
احتمالا تا حالا اسم #RAG رو شنیدید یا باهاش کار کردین و میدونین که از تکنولوژی های جدید و خیلی کاربردی هوش مصنوعی هست. تو این پست اینستاگرام به صورت کامل در مورد RAG بخونید:
https://www.instagram.com/p/DAqhSnbC2cU/?igsh=MXV5OWltMDBlNGQ5OA==
https://www.instagram.com/p/DAqhSnbC2cU/?igsh=MXV5OWltMDBlNGQ5OA==
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
سریع ترین LLM دنیا به اسم groq!
این مدل 18 برابر از #GPT سریع تر هست و همونطور که توی ویدیو مشخصه، در لحظه برای شما جواب رو تولید میکنه.
گروک یه سرویس هست که مدل های زبانی موجود مثل #llama یا #gemma رو با سرعت بیشتر ران کرده. تو دمو سایت از #whisper برای تبدیل صوت به متن و از llama برای پاسخ دادن به متن استفاده میکنه. در واقع گروک یک مدل مستقل نیست پلتفرمی هست که مدل های مختلفی مثل #lama و #mistral رو روی سخت افزار خاص خودش ران میکنه که اسمش GroqRack هست و با تکنولوژی #LPU ران میشه. تعداد توکن هایی که پردازش میکنه به ۵ هزار میرسه. همچنین سخت افزارش هم برای فروش معرفی شده
لینک دمو
@silicon_brain | از هوش مصنوعی عقب نمانید
این مدل 18 برابر از #GPT سریع تر هست و همونطور که توی ویدیو مشخصه، در لحظه برای شما جواب رو تولید میکنه.
گروک یه سرویس هست که مدل های زبانی موجود مثل #llama یا #gemma رو با سرعت بیشتر ران کرده. تو دمو سایت از #whisper برای تبدیل صوت به متن و از llama برای پاسخ دادن به متن استفاده میکنه. در واقع گروک یک مدل مستقل نیست پلتفرمی هست که مدل های مختلفی مثل #lama و #mistral رو روی سخت افزار خاص خودش ران میکنه که اسمش GroqRack هست و با تکنولوژی #LPU ران میشه. تعداد توکن هایی که پردازش میکنه به ۵ هزار میرسه. همچنین سخت افزارش هم برای فروش معرفی شده
لینک دمو
@silicon_brain | از هوش مصنوعی عقب نمانید
حالا که تو پست قبلی در مورد #LPU صحبت شد، بهتره یکم بیشتر در مورد این تکنولوژی بدونیم
اولش بگم که اگه مدلهایی مثل :Llama2, Mixtral, Gemma کار شما و شرکت شمارو راه میندازه حتما یک سری به سایت گروک بزنید از
در واقع LPU واحد پردازشی این شرکت هست که برای inference طراحی شده و از TPU, GPU برای این کاربرد خاص بسیار بسیار سریعتر و بهینهتر هست بعنوان مثال برای مدل Llama2 70B در زمان inference چیزی معادل 325T/s سرعتش هست؛ این عدد برای Nvidia A100 طبق گذارشات موجود بصورت میانگین 5T/s هست؛
(T/s: token per seconds)
طراحی و ایده نسخه اول از #TPU های گوگل هم توسط مدیر همین شرکت بود.
یکم فنی بررسی کنیم:
در واقع LPU واحدهای پردازشی عصبی بهینهسازی شده داره که برای اجرای مدلهای یادگیری عمیق (مانند #Transformer ها که پایه معماری مدلهای زبانی مانند BERT و GPT هستند) طراحی شده. این واحدها به تسریع عملیات ماتریسی و توزیع تنسور کمک میکنن.
همینطور برای تسریع و بهینهسازی قسمت مکانیزم توجه (Attention Mechanism) هم طراحی شده
برای تسک NLP به ویژه در مدلهای بزرگ زبانی (مانند GPT-3 و GPT-4)، استفاده از حافظهی سریع و بهینه حیاتی مهمه. LPUها از حافظههای پیشرفته و کشهای چندلایه استفاده میکنند تا بتونن دادههای مورد نیاز را سریعتر از واحدهای پردازشی سنتی بازیابی کنن.
همینطور LPUها شامل شتابدهندههایی (Custom Language Accelerators) هستن که برای اجرای عملیاتهای خاص زبان طبیعی مثل Tokenizationو Embedding بهینه شدن.
@silicon_brain | از هوش مصنوعی عقب نمانید
اولش بگم که اگه مدلهایی مثل :Llama2, Mixtral, Gemma کار شما و شرکت شمارو راه میندازه حتما یک سری به سایت گروک بزنید از
LPU
طراحی شده توسط این شرکت لذت ببرید. در واقع LPU واحد پردازشی این شرکت هست که برای inference طراحی شده و از TPU, GPU برای این کاربرد خاص بسیار بسیار سریعتر و بهینهتر هست بعنوان مثال برای مدل Llama2 70B در زمان inference چیزی معادل 325T/s سرعتش هست؛ این عدد برای Nvidia A100 طبق گذارشات موجود بصورت میانگین 5T/s هست؛
(T/s: token per seconds)
طراحی و ایده نسخه اول از #TPU های گوگل هم توسط مدیر همین شرکت بود.
یکم فنی بررسی کنیم:
در واقع LPU واحدهای پردازشی عصبی بهینهسازی شده داره که برای اجرای مدلهای یادگیری عمیق (مانند #Transformer ها که پایه معماری مدلهای زبانی مانند BERT و GPT هستند) طراحی شده. این واحدها به تسریع عملیات ماتریسی و توزیع تنسور کمک میکنن.
همینطور برای تسریع و بهینهسازی قسمت مکانیزم توجه (Attention Mechanism) هم طراحی شده
برای تسک NLP به ویژه در مدلهای بزرگ زبانی (مانند GPT-3 و GPT-4)، استفاده از حافظهی سریع و بهینه حیاتی مهمه. LPUها از حافظههای پیشرفته و کشهای چندلایه استفاده میکنند تا بتونن دادههای مورد نیاز را سریعتر از واحدهای پردازشی سنتی بازیابی کنن.
همینطور LPUها شامل شتابدهندههایی (Custom Language Accelerators) هستن که برای اجرای عملیاتهای خاص زبان طبیعی مثل Tokenizationو Embedding بهینه شدن.
@silicon_brain | از هوش مصنوعی عقب نمانید
Groq
Groq is Fast AI Inference
The LPU™ Inference Engine by Groq is a hardware and software platform that delivers exceptional compute speed, quality, and energy efficiency. Groq provides cloud and on-prem solutions at scale for AI applications.
تراشههای رایانهای نقش مهمی در پیشرفت هوش مصنوعی داشتهاند، حالا نوبت هوش مصنوعی هستش که دینشو ادا کنه
چهارسال پیش، آزالیا میرحسینی در گوگل موفق شد بهکمک #یادگیری_تقویتی عمیق، روشی برای طراحی چیدمان تراشههای کامپیوتری (chip floorplanning) ابداع کند.
در این روش، ابتدا، یک Grid خالی درنظر گرفته میشه و در هر تکرار، یکی از مولفهها (مدارها)، قرار میگیره. پاداش نهایی از روی کیفیت چیدمان تراشهی نهایی مشخص میشود.
یک شبکهی عصبی گرافی مبتنی بر یال (Edge-based GNN) ارتباط بین مولفهها رو یادگرفته و اونو به بخشهای دیگر تعمیم میده.
تمام تراشههای شتابدهی هوش مصنوعی گوگل (TPU) و همینطور Google Axion با این روش طراحی شدن.
امروز بعد از چهار سال، این مدل، #AlphaChip نام گرفت و بهزودی چکپوینت (وزنهای) اون برای استفادهی سایرین دردسترس قرار خواهد گرفت.
بلاگ | گیتهاب
@silicon_brain | از هوش مصنوعی عقب نمانید
چهارسال پیش، آزالیا میرحسینی در گوگل موفق شد بهکمک #یادگیری_تقویتی عمیق، روشی برای طراحی چیدمان تراشههای کامپیوتری (chip floorplanning) ابداع کند.
در این روش، ابتدا، یک Grid خالی درنظر گرفته میشه و در هر تکرار، یکی از مولفهها (مدارها)، قرار میگیره. پاداش نهایی از روی کیفیت چیدمان تراشهی نهایی مشخص میشود.
یک شبکهی عصبی گرافی مبتنی بر یال (Edge-based GNN) ارتباط بین مولفهها رو یادگرفته و اونو به بخشهای دیگر تعمیم میده.
تمام تراشههای شتابدهی هوش مصنوعی گوگل (TPU) و همینطور Google Axion با این روش طراحی شدن.
امروز بعد از چهار سال، این مدل، #AlphaChip نام گرفت و بهزودی چکپوینت (وزنهای) اون برای استفادهی سایرین دردسترس قرار خواهد گرفت.
بلاگ | گیتهاب
@silicon_brain | از هوش مصنوعی عقب نمانید
جفری هینتون، برنده جایزه نوبل فیزیک!
#جفری_هینتون نوبل فیزیک 2024 رو برای عنوان اکتشافات و ابداعات بنیادی که یادگیری ماشین را با شبکههای عصبی مصنوعی امکانپذیر میکند (ماشین بولتزمن) رو به همراه همکارش جان هاپفیلد برد!
ماشین #بولتزمن (Boltzmann Machine) یک نوع شبکه عصبی تصادفی (stochastic) هست که هدفش پیدا کردن الگوهای پنهان در داده و یادگیری ویژگیهای اصلی یک مجموعه داده ست.
تصویر بالا رو ببینید که چطوری هینتون با اضافه کردن لایه پنهان و تغییر اتصالات نودها در شبکه هاپفیلد، پایه شبکه های عمیق امروزی رو درست کرد.
هینتون سال ۲۰۱۸ به همراه چند محقق دیگر؛ برای کار روی یادگیری عمیق؛ برندهٔ جایزه #تورینگ هم شد.
بزن لایکو براش :)
@silicon_brain | از هوش مصنوعی عقب نمانید
#جفری_هینتون نوبل فیزیک 2024 رو برای عنوان اکتشافات و ابداعات بنیادی که یادگیری ماشین را با شبکههای عصبی مصنوعی امکانپذیر میکند (ماشین بولتزمن) رو به همراه همکارش جان هاپفیلد برد!
ماشین #بولتزمن (Boltzmann Machine) یک نوع شبکه عصبی تصادفی (stochastic) هست که هدفش پیدا کردن الگوهای پنهان در داده و یادگیری ویژگیهای اصلی یک مجموعه داده ست.
تصویر بالا رو ببینید که چطوری هینتون با اضافه کردن لایه پنهان و تغییر اتصالات نودها در شبکه هاپفیلد، پایه شبکه های عمیق امروزی رو درست کرد.
هینتون سال ۲۰۱۸ به همراه چند محقق دیگر؛ برای کار روی یادگیری عمیق؛ برندهٔ جایزه #تورینگ هم شد.
بزن لایکو براش :)
@silicon_brain | از هوش مصنوعی عقب نمانید
دوس داشتی تو چه عصری از هوش مصنوعی بودی و فعالیت میکردی؟
Anonymous Poll
10%
قبل از 2000، رو پایه های ریاضی و آماری و الگوریتمهای ژنتیک و منطق فازی کار میکردم
9%
بین 2000 تا 2014، آغاز رنسانس هوش مصنوعی رو SVM و شبکه های عصبی عمیق کار میکردم
7%
از 2014 تا 2017، رقابت شبکه های عمیق، CNN، شبکه های بازگشتی و GAN کار میکردم
5%
از 2017 تا 2022، انقلاب ترنسفرومر ها، رو مدل های زبانی مختلف ترنسفورمر، BERT و GPT کار میکردم
20%
از 2022 تا الان، عصر مدل های Generative و LLM و چت بات ها
48%
آینده رو بیشتر دوس دارم
Silicon Brain | جامعه هوش مصنوعی
دوس داشتی تو چه عصری از هوش مصنوعی بودی و فعالیت میکردی؟
عجیبه اینکه خیلیا دوس دارن تو آینده باشن! کاش در موردش توضیح بدین
من همیشه احساس میکردم که آینده تکنولوژی کم هیجان تر از گذشته ست :(
من همیشه احساس میکردم که آینده تکنولوژی کم هیجان تر از گذشته ست :(
Software Engineer != Developer
Software Engineer == Problem Solver
Can you explain "Machine Learning Software Engineer" ?
@silicon_brain
Software Engineer == Problem Solver
Can you explain "Machine Learning Software Engineer" ?
@silicon_brain
حالا که این روزا بحث برندگان جایزه #نوبل داغه بدونیم که طبق تحقیقات، تقریبا تمام برندگان جایزهی نوبل، پدرانِ ثروتمندی داشتن!
به طوری که ۹ نفر از ۱۰ نفر، برندهی جایزهی نوبل، تو سه دهک پولدار جامعه متولد شدن.
@silicon_brain | از هوش مصنوعی عقب نمانید
به طوری که ۹ نفر از ۱۰ نفر، برندهی جایزهی نوبل، تو سه دهک پولدار جامعه متولد شدن.
@silicon_brain | از هوش مصنوعی عقب نمانید
This media is not supported in your browser
VIEW IN TELEGRAM
هرکسی ازتون پرسید مشتق و انتگرال کجا بدرد میخوره این ویدیو رو نشونش بدید
هنر مهندسی یعنی یه جسم ۳۵۰۰ تنی رو با سرعت ۶ هزار کیلومتر به سمت زمین برگردونی و اینجوری بگیری بغلت. زنده باد علم...
@silicon_brain | از هوش مصنوعی عقب نمانید
هنر مهندسی یعنی یه جسم ۳۵۰۰ تنی رو با سرعت ۶ هزار کیلومتر به سمت زمین برگردونی و اینجوری بگیری بغلت. زنده باد علم...
@silicon_brain | از هوش مصنوعی عقب نمانید
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Algorithm design & data structure
الگوریتم Kruskal برای یافتن درخت پوشای کمینه (Minimum Spanning Tree - MST)
الگوریتم Kruskal یکی از معروفترین روشها برای یافتن درخت پوشای کمینه در یک گراف وزندار است. درخت پوشای کمینه یک زیرمجموعه از یالهای گراف است که تمام رأسها را به هم متصل کرده و مجموع وزن یالها را به کمترین مقدار میرساند. این الگوریتم از نوع حریصانه (Greedy) است، یعنی در هر مرحله بهترین انتخاب ممکن را انجام میدهد تا به نتیجه بهینه برسد.
🌟 گامهای الگوریتم Kruskal:
1. مرتبسازی یالها: ابتدا تمام یالهای گراف را به ترتیب وزن از کم به زیاد مرتب میکنیم.
2. ایجاد مجموعههای ناپیوسته: برای هر رأس یک مجموعه مجزا تشکیل میدهیم (در ابتدا هر رأس به تنهایی یک مجموعه است).
3. اضافه کردن یالها به MST:
- یالها را یکی یکی از کمترین وزن به بزرگترین بررسی میکنیم.
- اگر اضافه کردن یک یال باعث ایجاد حلقه نشود، آن را به درخت پوشا اضافه میکنیم.
- اگر یال باعث ایجاد حلقه شود، آن را نادیده میگیریم.
4. اتمام الگوریتم: این روند تا زمانی ادامه دارد که تمام رأسها به هم متصل شده و یک درخت پوشای کمینه ساخته شود.
⏱️ پیچیدگی زمانی الگوریتم:
الگوریتم Kruskal شامل دو بخش اصلی است:
1. مرتبسازی یالها: با استفاده از الگوریتمهای مرتبسازی سریع مانند Merge Sort یا Quick Sort، پیچیدگی زمانی این مرحله O(Elog E) است که E تعداد یالهای گراف است.
2. جستجوی مجموعهها و ترکیب آنها: برای مدیریت مجموعهها از ساختار دادهای Union-Find استفاده میشود که با بهینهسازیهایی مانند فشردهسازی مسیر (Path Compression) و اتحاد بر اساس رتبه (Union by Rank)، پیچیدگی زمانی این عملیاتها به O(α(V)) کاهش مییابد.
به طور کلی، پیچیدگی زمانی الگوریتم برابر است با:
O(E log E + E α(V))
که در آن E تعداد یالها و V تعداد رأسهای گراف است. از آنجایی که E log E سریعتر از E α(V) رشد میکند، پیچیدگی زمانی کلی O(E log E) است.
📊 ویژگیها و کاربردها:
- نوع الگوریتم: حریصانه (Greedy)
- کاربردها:
- ساخت درخت پوشای کمینه در شبکههای ارتباطی.
- کاهش هزینههای طراحی شبکه.
- حل مسائل بهینهسازی گرافها.
- محدودیتها:
- مناسب برای گرافهای پراکنده (Sparse). برای گرافهای متراکم (Dense)، الگوریتمهای دیگر مانند Prim ممکن است عملکرد بهتری داشته باشند.
✨ با پیروی از این مراحل و فهمیدن پیچیدگیها، الگوریتم Kruskal به یکی از بهترین انتخابها برای ساخت درخت پوشای کمینه تبدیل میشود.
#الگوریتم
📣👨💻 @AlgorithmDesign_DataStructuer
الگوریتم Kruskal یکی از معروفترین روشها برای یافتن درخت پوشای کمینه در یک گراف وزندار است. درخت پوشای کمینه یک زیرمجموعه از یالهای گراف است که تمام رأسها را به هم متصل کرده و مجموع وزن یالها را به کمترین مقدار میرساند. این الگوریتم از نوع حریصانه (Greedy) است، یعنی در هر مرحله بهترین انتخاب ممکن را انجام میدهد تا به نتیجه بهینه برسد.
🌟 گامهای الگوریتم Kruskal:
1. مرتبسازی یالها: ابتدا تمام یالهای گراف را به ترتیب وزن از کم به زیاد مرتب میکنیم.
2. ایجاد مجموعههای ناپیوسته: برای هر رأس یک مجموعه مجزا تشکیل میدهیم (در ابتدا هر رأس به تنهایی یک مجموعه است).
3. اضافه کردن یالها به MST:
- یالها را یکی یکی از کمترین وزن به بزرگترین بررسی میکنیم.
- اگر اضافه کردن یک یال باعث ایجاد حلقه نشود، آن را به درخت پوشا اضافه میکنیم.
- اگر یال باعث ایجاد حلقه شود، آن را نادیده میگیریم.
4. اتمام الگوریتم: این روند تا زمانی ادامه دارد که تمام رأسها به هم متصل شده و یک درخت پوشای کمینه ساخته شود.
⏱️ پیچیدگی زمانی الگوریتم:
الگوریتم Kruskal شامل دو بخش اصلی است:
1. مرتبسازی یالها: با استفاده از الگوریتمهای مرتبسازی سریع مانند Merge Sort یا Quick Sort، پیچیدگی زمانی این مرحله O(Elog E) است که E تعداد یالهای گراف است.
2. جستجوی مجموعهها و ترکیب آنها: برای مدیریت مجموعهها از ساختار دادهای Union-Find استفاده میشود که با بهینهسازیهایی مانند فشردهسازی مسیر (Path Compression) و اتحاد بر اساس رتبه (Union by Rank)، پیچیدگی زمانی این عملیاتها به O(α(V)) کاهش مییابد.
به طور کلی، پیچیدگی زمانی الگوریتم برابر است با:
O(E log E + E α(V))
که در آن E تعداد یالها و V تعداد رأسهای گراف است. از آنجایی که E log E سریعتر از E α(V) رشد میکند، پیچیدگی زمانی کلی O(E log E) است.
📊 ویژگیها و کاربردها:
- نوع الگوریتم: حریصانه (Greedy)
- کاربردها:
- ساخت درخت پوشای کمینه در شبکههای ارتباطی.
- کاهش هزینههای طراحی شبکه.
- حل مسائل بهینهسازی گرافها.
- محدودیتها:
- مناسب برای گرافهای پراکنده (Sparse). برای گرافهای متراکم (Dense)، الگوریتمهای دیگر مانند Prim ممکن است عملکرد بهتری داشته باشند.
✨ با پیروی از این مراحل و فهمیدن پیچیدگیها، الگوریتم Kruskal به یکی از بهترین انتخابها برای ساخت درخت پوشای کمینه تبدیل میشود.
#الگوریتم
📣👨💻 @AlgorithmDesign_DataStructuer
بهبود عملکرد LLM با تولید افکار داخل LLM!
احتمالا یادتونه که تو این پست در مورد نحوه کار OpenAI o1 که با زنجیره ای از افکار عمل میکنه، صحبت شد و گفتیم احتمالا خیلی از تحقیقات حوزه ی #LLM به سمت #chain_of_thought بره
حالا این مقاله با عنوان:
Thinking LLMs: General Instruction Following with Thought Generation
اومده با یک رویکرد جالب به دو نتیجه خوب یعنی حذف نظارت انسانی و بهتر شدن عملکرد LLM رسیده. چجوری؟
همونطور که تو شکل مشخصه با استفاده از روشی که اسمشو گذاشتن (TPO) Thought Preference Optimization، مدل قبل از پاسخ دادن، یک سری افکار داخلی بدون داده های انسانی تولید میکنه و این افکار بر اساس کیفیت پاسخ که با یه مدل جداگانه قضاوت میشن و با استفاده از #RL سعی میکنه پاسخ ها را بهتر و بهینه تر بکنه.
نتیجه کار هم بر اساس بنچمارک #AlpacaEval بهبود خوبی داشته (52.5٪ در مقابل 48.4٪).
روش کار خیلی ساده و باحاله. نگو که قبلا به فکر تو رسیده بود :)
مقاله|مدیوم
@silicon_brain | از هوش مصنوعی عقب نمانید
احتمالا یادتونه که تو این پست در مورد نحوه کار OpenAI o1 که با زنجیره ای از افکار عمل میکنه، صحبت شد و گفتیم احتمالا خیلی از تحقیقات حوزه ی #LLM به سمت #chain_of_thought بره
حالا این مقاله با عنوان:
Thinking LLMs: General Instruction Following with Thought Generation
اومده با یک رویکرد جالب به دو نتیجه خوب یعنی حذف نظارت انسانی و بهتر شدن عملکرد LLM رسیده. چجوری؟
همونطور که تو شکل مشخصه با استفاده از روشی که اسمشو گذاشتن (TPO) Thought Preference Optimization، مدل قبل از پاسخ دادن، یک سری افکار داخلی بدون داده های انسانی تولید میکنه و این افکار بر اساس کیفیت پاسخ که با یه مدل جداگانه قضاوت میشن و با استفاده از #RL سعی میکنه پاسخ ها را بهتر و بهینه تر بکنه.
نتیجه کار هم بر اساس بنچمارک #AlpacaEval بهبود خوبی داشته (52.5٪ در مقابل 48.4٪).
روش کار خیلی ساده و باحاله. نگو که قبلا به فکر تو رسیده بود :)
مقاله|مدیوم
@silicon_brain | از هوش مصنوعی عقب نمانید
پایتورچ 2.5 اومد!
این نسخه از #PyTorch بهینه سازی های مهمی داشته:
- پشتیبانی از مکانیزمهای سریعتر برای مدلهای زبانی بزرگ
- بهینهسازی عملکرد پردازندهها
- اضافه شدن قابلیت FP16 برای پردازندههای اینتل
- استفاده از #CuDNN برای #GPU های جدید
لینک
@silicon_brain | از هوش مصنوعی عقب نمانید
این نسخه از #PyTorch بهینه سازی های مهمی داشته:
- پشتیبانی از مکانیزمهای سریعتر برای مدلهای زبانی بزرگ
- بهینهسازی عملکرد پردازندهها
- اضافه شدن قابلیت FP16 برای پردازندههای اینتل
- استفاده از #CuDNN برای #GPU های جدید
لینک
@silicon_brain | از هوش مصنوعی عقب نمانید
قابلیت پشم ریزون Claude 3.5، تعامل مستقیم با کامپیوتر!
مجموعه خفن #Anthropic اومدن دو مدل جدید
#Claude 3.5 Sonnet
#Claude 3.5 Haiku
معرفی کرده. که عمکلرد و بهبود این مدل ها تو زمینه های مختلفو تو تصویر میبینین.
اما فیچر به اصطلاح Game Changer ای که تو مدل Claude 3.5 Sonnet ارائه دادن اینه که با استفاده از پرامپتی که کاربر وارد میکنه این مدل میتونه با اسکرین شات صفحه رو داشته باشه و با حرکت دادن ماوس یا کلیک کردن و تایپ متن، کارهای روزمره شما رو انجام بده
این ویدیو رو ببین تا متوجه شی:
یوتوب
اگه وقت کردی اینم ببین:
یوتوب
اگه میخوای روی سیسیتم خودت بیاری بالا با استفاده از این ریپو گیتهاب میتونی به صورت لوکال سرو کنی
البته فعلا این فیچر نهایی نیست و تو مرحله نسخه بتا و بصورت عمومی ارائه شده.
لینک بلاگ
@silicon_brain | از هوش مصنوعی عقب نمانید
مجموعه خفن #Anthropic اومدن دو مدل جدید
#Claude 3.5 Sonnet
#Claude 3.5 Haiku
معرفی کرده. که عمکلرد و بهبود این مدل ها تو زمینه های مختلفو تو تصویر میبینین.
اما فیچر به اصطلاح Game Changer ای که تو مدل Claude 3.5 Sonnet ارائه دادن اینه که با استفاده از پرامپتی که کاربر وارد میکنه این مدل میتونه با اسکرین شات صفحه رو داشته باشه و با حرکت دادن ماوس یا کلیک کردن و تایپ متن، کارهای روزمره شما رو انجام بده
این ویدیو رو ببین تا متوجه شی:
یوتوب
اگه وقت کردی اینم ببین:
یوتوب
اگه میخوای روی سیسیتم خودت بیاری بالا با استفاده از این ریپو گیتهاب میتونی به صورت لوکال سرو کنی
البته فعلا این فیچر نهایی نیست و تو مرحله نسخه بتا و بصورت عمومی ارائه شده.
لینک بلاگ
@silicon_brain | از هوش مصنوعی عقب نمانید