تیم
دقت به سایز مدل دارید ؟
و اینکه تمام مدلهای رقیب که بسیار هم عملکرد خوبی داشتند (البته تا دیروز)
مهمترین قابلیتی که داره؛
با این روش به راحتی
این برخلاف مدلهای دیگه هست که یا باید ازشون سوال بپرسید و در جواب سوال بهتون کد بدهند؛ یا اینکه بخش اول کد رو بزنید و باقی اون رو کامل کنند. هر چند که
چیزی که برام مهم هست ؛
اضافه کنم بیش از
کد زدن
و البته تست نویسی بسیار قدرت خوبی داره
اما ۲ تا نکته جالب توی مدل دیدم؛
۱- بصورت دیفالت کامنت؛ داک استرینگ و ... رو از کدهای شما کنار میذاره و اصل کد رو فقط بهتون نشون میده + توضیحاتی که در انتها میده (که قطعا عالیه)
۲- توی اجرای اول و درصورتی که ازش نخواهید؛ کد رو به سادهترین حالت ممکن پیادهسازی میکنه که بسیار قابل درک هست.
mistral
برای اولین بار وارد بازی مدلهای مخصوص کد نویسی شده و مدل Codestral
رو معرفی مکرده یک مدل 22
میلیارد پارامتری با context length
گزارش شده 32k
اما بخش جالب ماجرا اینه که این مدل به راحتی توی زبان برنامه نویسی Python
تمام مدلهای opensource
رو شکست میده deepseek coder 33B
Llama3 70B
CodeLlama 70B
دقت به سایز مدل دارید ؟
و اینکه تمام مدلهای رقیب که بسیار هم عملکرد خوبی داشتند (البته تا دیروز)
context length
هایی کمتر از 16K
دارند.مهمترین قابلیتی که داره؛
Fill in the middle
هست یعنی pseudo code
بهش بدید؛ یا بخشی از کد رو بطوری که شما اسم توابع و کلاسهاتون رو نوشتید و برای هرکدوم DocString
و جایی که باید return
کنه رو هم کد زدید (حتی میتونه شامل اسم متغییرها و بخشی از پیادهسازی هم باشه) و باقی رو به مدل بسپارید تا براتون پیادهسازی کنه.با این روش به راحتی
structure, ...
پروژه شما بطور کامل حفظ میشه.این برخلاف مدلهای دیگه هست که یا باید ازشون سوال بپرسید و در جواب سوال بهتون کد بدهند؛ یا اینکه بخش اول کد رو بزنید و باقی اون رو کامل کنند. هر چند که
Codestral
هر ۲ این قابلیتها رو هم داره.چیزی که برام مهم هست ؛
multi-file reasoning
هست که کار سادهای هم نیست همونطور که احتمالا میدونید؛ توی مدلهای موجود Gpt4
همچنان بهترین مدل روی این بحث هست و Gpt4-o
اما داستان متفاوتی داره و عملکردش از Gpt4
توی این مورد ضعیفتر هست.اضافه کنم بیش از
۸۰
زبان برنامهنویسی توسط این مدل پشتیبانی میشه و بطور میانگین هم از باقی روقبا یک سر و گردن بالاتر هست.کد زدن
fill in the middle
و البته تست نویسی بسیار قدرت خوبی داره
اما ۲ تا نکته جالب توی مدل دیدم؛
۱- بصورت دیفالت کامنت؛ داک استرینگ و ... رو از کدهای شما کنار میذاره و اصل کد رو فقط بهتون نشون میده + توضیحاتی که در انتها میده (که قطعا عالیه)
۲- توی اجرای اول و درصورتی که ازش نخواهید؛ کد رو به سادهترین حالت ممکن پیادهسازی میکنه که بسیار قابل درک هست.
👍31❤9
به لحظات ملکوتی ارتحالیدی نزدیگ میشیم و خبرهای نفوذ یکی پس از دیگری که میرسه
سازمان حج و زیارت
بلو بانک (من مشکل برق دیتاسنتر رو واقعی نمیدونم مگه میشه کار به این بزرگی replication , ... نداشته باشه؟)
خبر نفوذ رو با توجه به اینکه شخص درخو.است پول کرده و ... واقعی تر میبینم
اختارها رو جدی بگیرید؛
پول برنامهنویس و متخصص امنیت و ... رو هم بدید.
معماری و سیستم دیزاین رو هم از اینگاره بپرسید.
فقط این وسط نفهمیدیم چرا
سازمان حج و زیارت
بلو بانک (من مشکل برق دیتاسنتر رو واقعی نمیدونم مگه میشه کار به این بزرگی replication , ... نداشته باشه؟)
خبر نفوذ رو با توجه به اینکه شخص درخو.است پول کرده و ... واقعی تر میبینم
اختارها رو جدی بگیرید؛
پول برنامهنویس و متخصص امنیت و ... رو هم بدید.
معماری و سیستم دیزاین رو هم از اینگاره بپرسید.
فقط این وسط نفهمیدیم چرا
GODMODE GPT
رو توی این روزها زدند ؟👍40❤1
دستاوردهای یادگیری عمیق(InTec)
به لحظات ملکوتی ارتحالیدی نزدیگ میشیم و خبرهای نفوذ یکی پس از دیگری که میرسه سازمان حج و زیارت بلو بانک (من مشکل برق دیتاسنتر رو واقعی نمیدونم مگه میشه کار به این بزرگی replication , ... نداشته باشه؟) خبر نفوذ رو با توجه به اینکه شخص درخو.است پول کرده و ...…
#خارج_از_بحث
امروز صبح که سرعت اینترنتم به نهایتا ۲۵۶ کیلوبایت هم رسید برای چندین ساعت؛ جوری که ترجیح دادم بجای وقت تلف کردن بخوابم و انرژیم رو ذخیره کنم برای ساعتهای پایانی شب ( ۱ هفتهاس اوضاع اینترنت اینطوری هست)
داشتم به این فکر میکردم چرا برای خطوط تلفن و ... از ماهوارهها استفاده نمیشه ؟
سرچ کردم دنبال همچین چیزی :
Youtube Video
خیلی جالب هست که خیلی شرکتها قبل از این اینکار رو شروع کردند؛ عدم استفاده از ماهواره ها هم دلایل خودش رو داره؛ یک ویدئو دیگه از پروژه ناسا هم هست که سال ۱۹۸۳ یک ماهواره رو به فضا میفرسته (سطح پایین) هدف این بوده از مواد مختلف استفاده کنه تا تاثیر low orbit رو ببینه اما بنا به دلایلی تا ۷ سال بعد نمیتونه اون رو برگردونه؛ سال ۱۹۹۰ وقتی بر میگردونه اصلا اوضاع خوبی نداره ماهواره.
این یکی از دلایلی هست که نمیشه از ماهواره برای اینکار استفاده کرد ولی این aircraft داستان دیگری هست؛ بنظرم خیلی جالب بود حتما ببینید.
ما همچنان درگیر خطوط مسی تلفن هستیم.
امروز صبح که سرعت اینترنتم به نهایتا ۲۵۶ کیلوبایت هم رسید برای چندین ساعت؛ جوری که ترجیح دادم بجای وقت تلف کردن بخوابم و انرژیم رو ذخیره کنم برای ساعتهای پایانی شب ( ۱ هفتهاس اوضاع اینترنت اینطوری هست)
داشتم به این فکر میکردم چرا برای خطوط تلفن و ... از ماهوارهها استفاده نمیشه ؟
سرچ کردم دنبال همچین چیزی :
Youtube Video
خیلی جالب هست که خیلی شرکتها قبل از این اینکار رو شروع کردند؛ عدم استفاده از ماهواره ها هم دلایل خودش رو داره؛ یک ویدئو دیگه از پروژه ناسا هم هست که سال ۱۹۸۳ یک ماهواره رو به فضا میفرسته (سطح پایین) هدف این بوده از مواد مختلف استفاده کنه تا تاثیر low orbit رو ببینه اما بنا به دلایلی تا ۷ سال بعد نمیتونه اون رو برگردونه؛ سال ۱۹۹۰ وقتی بر میگردونه اصلا اوضاع خوبی نداره ماهواره.
این یکی از دلایلی هست که نمیشه از ماهواره برای اینکار استفاده کرد ولی این aircraft داستان دیگری هست؛ بنظرم خیلی جالب بود حتما ببینید.
ما همچنان درگیر خطوط مسی تلفن هستیم.
YouTube
The solar-powered aircraft flying high in the atmosphere | BBC News
The Zephyr is not your usual aircraft.
It only travels at 40mph, it is launched by hand and it is completely solar-powered.
The unmanned craft flies high in the atmosphere, to avoid commercial air traffic and adverse weather.
So, what exactly is it used…
It only travels at 40mph, it is launched by hand and it is completely solar-powered.
The unmanned craft flies high in the atmosphere, to avoid commercial air traffic and adverse weather.
So, what exactly is it used…
👍27❤4
#Quick
دوتا ترکیب برنده بدم و برم؛
1)
2)
دیگه ببینم چیکار میکنید.
دوتا ترکیب برنده بدم و برم؛
1)
phi3-vision + llama3
2)
phi3-vision + codestral
دیگه ببینم چیکار میکنید.
👍28❤10
۱۹ ساعت قبل پیاده سازی رسمی xLSTM روی گیتهاب کامل شد :
Github
از این کد برای تست ایدهها استفاده کنید.
Github
از این کد برای تست ایدهها استفاده کنید.
GitHub
GitHub - NX-AI/xlstm: Official repository of the xLSTM.
Official repository of the xLSTM. Contribute to NX-AI/xlstm development by creating an account on GitHub.
👍19❤10
مدل Qwen2 منتشر شد، قبلا راجب مدل اولش گفتم و واقعاً عملکرد خوبی داشت
اما چندتا نکته قابل توجه داره این مدل:
1- عملکرد بهتر از Llama3
2- سایز بزرگتر برای Context-length
3- انتشار مدل در ۵ سایز از 0.5B تا 72B پارامتر
4- و البته از همه مهمتر پشتیبانی از 29 زبان
اما چیزی که بسیار توجه جلب میکنه؛ امتیازش روی تست
هست که :
Blog Post
مدل ۷۲ میلیارد پارامتری دمو هم داره در حال حاضر.
اضافه کنم :
فراموش نکنید Phi3 فقط زبان انگلیسی رو پشتیبانی میکنه.
برای همین توی این لیست راجبش چیزی نگفتم.
اما چندتا نکته قابل توجه داره این مدل:
1- عملکرد بهتر از Llama3
2- سایز بزرگتر برای Context-length
3- انتشار مدل در ۵ سایز از 0.5B تا 72B پارامتر
4- و البته از همه مهمتر پشتیبانی از 29 زبان
اما چیزی که بسیار توجه جلب میکنه؛ امتیازش روی تست
MMLU-Pro
هست که :
ChatGpt4o : 72.2
Claude 3 Opus : 68.4
Qwen2 : 64.4
Llama3 : 56.2
Blog Post
مدل ۷۲ میلیارد پارامتری دمو هم داره در حال حاضر.
اضافه کنم :
فراموش نکنید Phi3 فقط زبان انگلیسی رو پشتیبانی میکنه.
برای همین توی این لیست راجبش چیزی نگفتم.
Qwen
Hello Qwen2
GITHUB HUGGING FACE MODELSCOPE DEMO DISCORD
Introduction After months of efforts, we are pleased to announce the evolution from Qwen1.5 to Qwen2. This time, we bring to you:
Pretrained and instruction-tuned models of 5 sizes, including Qwen2-0.5B, Qwen2-1.5B…
Introduction After months of efforts, we are pleased to announce the evolution from Qwen1.5 to Qwen2. This time, we bring to you:
Pretrained and instruction-tuned models of 5 sizes, including Qwen2-0.5B, Qwen2-1.5B…
👍19❤7
واقعا آدم نمیدونه بخوابه یا بشینه ویدئو جدید
Let's reproduce GPT-2 (124M)
Andrej Karpathy
رو ببینه :Let's reproduce GPT-2 (124M)
YouTube
Let's reproduce GPT-2 (124M)
We reproduce the GPT-2 (124M) from scratch. This video covers the whole process: First we build the GPT-2 network, then we optimize its training to be really fast, then we set up the training run following the GPT-2 and GPT-3 paper and their hyperparameters…
❤36👍11
Forwarded from دستاوردهای یادگیری عمیق(InTec)
یکی از دوستان اشاره کرده که تبلیغاتی از دورههای ایرانی کانالهای دیگه پایین پستهای کانال میاد.
همین اول بگم؛
اما تبلیغات تلگرام، دست ما نیست.
تلاش کردم خاموش کنم این موارد رو ولی تلگرام میگه باید 50 لول Boost داشته باشیم تا اجازه غیرفعال کردن بده بهمون
پس صرف اینکه تبلیغات تلگرام رو پایین هرکدوم از کانال های ما دید، فکر نکنید که ما تایید کردیم اون دوره رو
دورههای تایید شده :
https://www.tg-me.com/pytens/1444
این پست برای مدتی، بعنوان پست آخر دائماً ارسال خواهد شد. (تا کانالها هدف تبلیغات نباشند)
پ.ن :
کانال یوتیوب با حمایت شما، به آموزشهای رایگان و البته مناسب بیزینس در زمینههای مختلف ادامه خواهد داد قطعا.
http://youtube.com/@pyhints
همین اول بگم؛
هیچکدوم از دورههای فارسی پولی مورد تأیید ما نیست
و تقریباً هیچکدوم هم مناسب بیزینس نیست، دورهای نیست که شمارو وارد بازار کار کنه.
اما تبلیغات تلگرام، دست ما نیست.
تلاش کردم خاموش کنم این موارد رو ولی تلگرام میگه باید 50 لول Boost داشته باشیم تا اجازه غیرفعال کردن بده بهمون
پس صرف اینکه تبلیغات تلگرام رو پایین هرکدوم از کانال های ما دید، فکر نکنید که ما تایید کردیم اون دوره رو
دورههای تایید شده :
https://www.tg-me.com/pytens/1444
این پست برای مدتی، بعنوان پست آخر دائماً ارسال خواهد شد. (تا کانالها هدف تبلیغات نباشند)
پ.ن :
کانال یوتیوب با حمایت شما، به آموزشهای رایگان و البته مناسب بیزینس در زمینههای مختلف ادامه خواهد داد قطعا.
http://youtube.com/@pyhints
Telegram
دستاوردهای یادگیری عمیق(InTec)
بالاخره دوره Deep Generative Models های استنفورد هم آپدیت شد.
واقعا نباید بهونه آورد بهترین منابع یادگیری دنیا در دسترس نسل جدید هست :
Stanford CS236: Deep Generative Models (2023)
پس با اضافه شدن این دوره محموع دورهها شد :
1) Standford university: Prof.…
واقعا نباید بهونه آورد بهترین منابع یادگیری دنیا در دسترس نسل جدید هست :
Stanford CS236: Deep Generative Models (2023)
پس با اضافه شدن این دوره محموع دورهها شد :
1) Standford university: Prof.…
👍19❤4
گفتم ویدئو
Andrej Karpathy
رو برای دومین بار ببینم، که یکی از دوستان کتاب
Mastering NLP from Foundation to LLMs
برام فرستاد،
کتاب حدوداً 300 صفحه هست همراه با سوالات و جوابهای آخرش
دعوتم کرد به یک چالش؛ تا ساعت ۴ صبح (منتظر آماده شدن یک مدل experimental هستم و کاری با سیستم نکنم بهتره)
حداقل ۵ فصل اول رو بخونم و به سوالات این دوستمون جواب بدم برای تایید اینکه کتاب رو خوندم واقعاً
نمیدونم چطوری پیش میره
ولی اگر واقعاً تونستم انجامش بدم برای روی جمعه نظرم راجب این کتاب رو میذارم و اینکه ارزش خوندن داره یا نه ...
اگر شما هم کتاب خوبی میشناسید بهم بگید (بهتره برای اواخر ۲۰۲۳ - ۲۰۲۴ باشه باقی رو اکثراً خوندم)
@abbasi_ai
پ.ن : تو دنیای موازی باید همین چالش هم ویدئو گرفته میشد میرفت یوتیوب
بعد ۲۰۰-۳۰۰ هزار نفر میومدن نحوه کتاب خوندن من رو میدیدند.
ولی خب من خیلی ویدئویی و تمیز کتاب نمیخونم
ماهم تو دنیای موازی نیستیم 😂🤣😂
::::::::::
۱- پایان فصل اول، بسیار مختصر و بسیار مفید مفاهیم مهم مثل
Stemming, Lemmatization, ...
بسیار ساده و روان و در حد نیم خطی تعریف شدند.
(تا اینجا خوشحالم)
۲- پایان فصل دوم، ریاضیات بسیار مهم و کاربردی البته برای کسی که با این مفاهیم آشنا نیست اصلاً خوب نیست و بنظرم فقط یک رفرنس هست که چه مفاهیمی رو لازم داریم
ازین به بعد کسی بپرسه ریاضی چی باید بلد باشم، قطعاً فصل دوم این کتاب رو بهش معرفی میکنم و میگم تمام مفاهیم رو بطور کامل بلد باشه
۳- تقریباً به انتهای فصل سوم رسیدم (باید برگردم پای کد، هرچند نهایتا میتونم به فصل ۴ برسم تا قبل از ساعت ۴)
فصل ۳ پر هست از مفاهیم و اصطلاحات مهم و تکنیکهای بسیار مهم توی machine learning
شخصاً ترکیب فصل ۱ و ۳ رو برای آماده کردن cheat sheet و مصاحبه پیشنهاد میکنم.
نکته بعدی؛ تا اینجای کتاب میتونه خودش یک roadmap عالی برای یادگیری مباحث پر اهمیت باشه :
با فصل ۲ شروع کنید، هرچیزی که بلد نیستید رو جستجو کنید و یاد بگیرید برای ریاضیات.
فصل ۳،برای یادگیری مفاهیم اصلی و اصطلاحات Machine learning فوقالعاده هست و تقریباً نگاهی به تمامی مفاهیم و تکنیکهای مهم داشته
بعد از اون برگردید به فصل ۱ تا با اسمها و مفاهیم ساده پردازش داده متنی آشنا بشید
به ترتیب فصل ۴-۵ رو میتونید بعدش ادامه بدید (چون قبل از شروع به خوندن نگاهی به سرفصلها داشتم میگم)
حتماً سعی میکنم کتاب رو توی آخر هفته ادامه بدم.
Andrej Karpathy
رو برای دومین بار ببینم، که یکی از دوستان کتاب
Mastering NLP from Foundation to LLMs
برام فرستاد،
کتاب حدوداً 300 صفحه هست همراه با سوالات و جوابهای آخرش
دعوتم کرد به یک چالش؛ تا ساعت ۴ صبح (منتظر آماده شدن یک مدل experimental هستم و کاری با سیستم نکنم بهتره)
حداقل ۵ فصل اول رو بخونم و به سوالات این دوستمون جواب بدم برای تایید اینکه کتاب رو خوندم واقعاً
نمیدونم چطوری پیش میره
ولی اگر واقعاً تونستم انجامش بدم برای روی جمعه نظرم راجب این کتاب رو میذارم و اینکه ارزش خوندن داره یا نه ...
اگر شما هم کتاب خوبی میشناسید بهم بگید (بهتره برای اواخر ۲۰۲۳ - ۲۰۲۴ باشه باقی رو اکثراً خوندم)
@abbasi_ai
پ.ن : تو دنیای موازی باید همین چالش هم ویدئو گرفته میشد میرفت یوتیوب
بعد ۲۰۰-۳۰۰ هزار نفر میومدن نحوه کتاب خوندن من رو میدیدند.
ولی خب من خیلی ویدئویی و تمیز کتاب نمیخونم
ماهم تو دنیای موازی نیستیم 😂🤣😂
::::::::::
۱- پایان فصل اول، بسیار مختصر و بسیار مفید مفاهیم مهم مثل
Stemming, Lemmatization, ...
بسیار ساده و روان و در حد نیم خطی تعریف شدند.
(تا اینجا خوشحالم)
۲- پایان فصل دوم، ریاضیات بسیار مهم و کاربردی البته برای کسی که با این مفاهیم آشنا نیست اصلاً خوب نیست و بنظرم فقط یک رفرنس هست که چه مفاهیمی رو لازم داریم
ازین به بعد کسی بپرسه ریاضی چی باید بلد باشم، قطعاً فصل دوم این کتاب رو بهش معرفی میکنم و میگم تمام مفاهیم رو بطور کامل بلد باشه
۳- تقریباً به انتهای فصل سوم رسیدم (باید برگردم پای کد، هرچند نهایتا میتونم به فصل ۴ برسم تا قبل از ساعت ۴)
فصل ۳ پر هست از مفاهیم و اصطلاحات مهم و تکنیکهای بسیار مهم توی machine learning
شخصاً ترکیب فصل ۱ و ۳ رو برای آماده کردن cheat sheet و مصاحبه پیشنهاد میکنم.
نکته بعدی؛ تا اینجای کتاب میتونه خودش یک roadmap عالی برای یادگیری مباحث پر اهمیت باشه :
با فصل ۲ شروع کنید، هرچیزی که بلد نیستید رو جستجو کنید و یاد بگیرید برای ریاضیات.
فصل ۳،برای یادگیری مفاهیم اصلی و اصطلاحات Machine learning فوقالعاده هست و تقریباً نگاهی به تمامی مفاهیم و تکنیکهای مهم داشته
بعد از اون برگردید به فصل ۱ تا با اسمها و مفاهیم ساده پردازش داده متنی آشنا بشید
به ترتیب فصل ۴-۵ رو میتونید بعدش ادامه بدید (چون قبل از شروع به خوندن نگاهی به سرفصلها داشتم میگم)
حتماً سعی میکنم کتاب رو توی آخر هفته ادامه بدم.
👍53❤22
راجب codestral گفتم که واقعا عملکرد خوبی هم داشت
اما نتایج جدیدی که برای deep-seekcoder v2 منتشر شده واقعا فوق العاده هست بعلاوه همه هم از عملکرد بهترش صحبت میکنند
تو اولین فرصت تست خواهم کرد
(گفتم اگر کسی خواست دانلود کنه این رو جایگزین codestral کنه)
context-length: 128K
gpt-4o
رو هم این هفته با چند نفر از دوستان تست کردیم؛ توی مبحث coding واقعا نتایج خیلی بدی داره
اگر ازش فقط ۱ کد بخواید یک تابع یا یک کلاس خیلی خوب جواب میده
اما اگر چندین کد یا پروژه ای ازش سوال بپرسید کاملا چرت و پرت میگه.
خیلی وقتا حتی گم میکنه کجا بود.
اما نتایج جدیدی که برای deep-seekcoder v2 منتشر شده واقعا فوق العاده هست بعلاوه همه هم از عملکرد بهترش صحبت میکنند
تو اولین فرصت تست خواهم کرد
(گفتم اگر کسی خواست دانلود کنه این رو جایگزین codestral کنه)
context-length: 128K
gpt-4o
رو هم این هفته با چند نفر از دوستان تست کردیم؛ توی مبحث coding واقعا نتایج خیلی بدی داره
اگر ازش فقط ۱ کد بخواید یک تابع یا یک کلاس خیلی خوب جواب میده
اما اگر چندین کد یا پروژه ای ازش سوال بپرسید کاملا چرت و پرت میگه.
خیلی وقتا حتی گم میکنه کجا بود.
👍20❤7
دستاوردهای یادگیری عمیق(InTec)
راجب codestral گفتم که واقعا عملکرد خوبی هم داشت اما نتایج جدیدی که برای deep-seekcoder v2 منتشر شده واقعا فوق العاده هست بعلاوه همه هم از عملکرد بهترش صحبت میکنند تو اولین فرصت تست خواهم کرد (گفتم اگر کسی خواست دانلود کنه این رو جایگزین codestral کنه)…
همین اول بگم عملکرد فوقالعاده رضایت بخش هست
بدون شک جایگزین codestral خواهد بود برای من توی بخش local؛ با وجود حجم کمتر به راحتی پرفورمنس بهتری از codestral بهتون میده
مخصوصا وقتی پروژه :
۱- جند زبان برنامه نویسی مختلف داره
۲- استراکچر پیچیدهای داره (توی این مورد
۳- با توجه به
و توی گفتگوهای کاراکترهای مختلف نیازمندیهای برنامه در میومد
هر ۳ بخشی رو تونستند پیاده کنند؛ اما این مدل با کمی کمک تمام فیچرها رو پیادهسازی کرد (البته این کمک رو به ۴ مورد دیگر هم کردم)
مورد ۳ یکی از بنچمارکهای اختصاصی هست که توی تیم خودم برای
در نهایت اگر خواستی مدل بزرگتر رو بصورت رایگان استفاده کنید (تا ۵ میلیون توکن رایگان بهتون میده)
deepseekcoder-v2 free api
رو وارد بشید.
بدون شک جایگزین codestral خواهد بود برای من توی بخش local؛ با وجود حجم کمتر به راحتی پرفورمنس بهتری از codestral بهتون میده
مخصوصا وقتی پروژه :
۱- جند زبان برنامه نویسی مختلف داره
۲- استراکچر پیچیدهای داره (توی این مورد
chatgpt 4o
هیچ جواب درستی نمیداد و وقتی هم که بهش سمپل میدادم شروع میکرد همون سمپل رو بهبود دادن بدون در نظر گرفتن history
و حتی با پرامپت بهتر دادن هم نتیجه نمیداد)۳- با توجه به
context-length
طولانی که داره یک تریک دیگه زدم؛ داستانی رو نوشتم که وسطش یکی از کاراکتر ها توضیح میده اگر یک برنامه نویس بین ما بود حتما میتونست کمک کنه و ....و توی گفتگوهای کاراکترهای مختلف نیازمندیهای برنامه در میومد
Gpt4o - Codestral - Llama3 - Phi3
هر ۳ بخشی رو تونستند پیاده کنند؛ اما این مدل با کمی کمک تمام فیچرها رو پیادهسازی کرد (البته این کمک رو به ۴ مورد دیگر هم کردم)
مورد ۳ یکی از بنچمارکهای اختصاصی هست که توی تیم خودم برای
fine-tune, training
استفاده میکنم؛ چون راهکارهای قویتر پیدا کردم گفتم بد نیست اینو بگم (نوعی آموزش هم هست دیگه)در نهایت اگر خواستی مدل بزرگتر رو بصورت رایگان استفاده کنید (تا ۵ میلیون توکن رایگان بهتون میده)
deepseekcoder-v2 free api
رو وارد بشید.
کارت گرافیک :
برای 64K context-length به 24GB گرافیک نیاز هست برای مدل 16B پارامتری.
با context-length کمتر به راحتی روی 12GB اجرا خواهد شد
👍20❤8
یک خبر دیگه از ماکروسافت :
مدلهای Florence-v2 منتشر شد، زیر ۱ میلیارد پارامتر (مدل بیس هست)
پیشرفت انقدر زیاد بوده توی این ۱ سال که همچین مدلی نتایج بهتری از مدل Flamingo با ۸۰ میلیارد پارامتر داره 🤯
تسکهای vision, vision-language رو به خوبی انجام میده
شخصاً تست خواهم کرد و اطلاع میدم راجبش.
مدلهای Florence-v2 منتشر شد، زیر ۱ میلیارد پارامتر (مدل بیس هست)
پیشرفت انقدر زیاد بوده توی این ۱ سال که همچین مدلی نتایج بهتری از مدل Flamingo با ۸۰ میلیارد پارامتر داره 🤯
تسکهای vision, vision-language رو به خوبی انجام میده
شخصاً تست خواهم کرد و اطلاع میدم راجبش.
👍35❤11
دستاوردهای یادگیری عمیق(InTec)
همین اول بگم عملکرد فوقالعاده رضایت بخش هست بدون شک جایگزین codestral خواهد بود برای من توی بخش local؛ با وجود حجم کمتر به راحتی پرفورمنس بهتری از codestral بهتون میده مخصوصا وقتی پروژه : ۱- جند زبان برنامه نویسی مختلف داره ۲- استراکچر پیچیدهای داره…
به انتهای پست قبل هم اضافه خواهم کرد:
چون خیلی سوال شد؛ ازین به بعد سعی میکنم فراموش نکنم و میزان GPU رو هم بگم
این مدل روی گرافیک ۱۲ گیگ به خوبی اجرا میشه (نهایتا روی کولب اجرا بذارید) اما نه با context-length 128K
شخصا روی context-length 64K (یعنی نصف توانایی مدل تست کردم و کانفیگ کردم مدل رو برای لوکال) و همین میزان 23.8GB کارت گرافیک رو استفاده میکنه حدود 500MB دیگه کارت گرافیک ارور میده و مدل رو unload میکنه
چون خیلی سوال شد؛ ازین به بعد سعی میکنم فراموش نکنم و میزان GPU رو هم بگم
این مدل روی گرافیک ۱۲ گیگ به خوبی اجرا میشه (نهایتا روی کولب اجرا بذارید) اما نه با context-length 128K
شخصا روی context-length 64K (یعنی نصف توانایی مدل تست کردم و کانفیگ کردم مدل رو برای لوکال) و همین میزان 23.8GB کارت گرافیک رو استفاده میکنه حدود 500MB دیگه کارت گرافیک ارور میده و مدل رو unload میکنه
👍14❤1
دستاوردهای یادگیری عمیق(InTec)
یک خبر دیگه از ماکروسافت : مدلهای Florence-v2 منتشر شد، زیر ۱ میلیارد پارامتر (مدل بیس هست) پیشرفت انقدر زیاد بوده توی این ۱ سال که همچین مدلی نتایج بهتری از مدل Flamingo با ۸۰ میلیارد پارامتر داره 🤯 تسکهای vision, vision-language رو به خوبی انجام میده…
مدل لارج رو تست کردم؛ بهترین ویژگی که داره multi-task بودنش هست و روی تسکهای کلی و تصاویر روزمره بسیار عملکرد خوبی داره
اما حتی با اینکه مدل کوچیکی هست به نسبت ولی شخصا با همین حالت ازش استفاده نمیکنم
کاربردی که همین الان براش میبینم حتی این هست که بعنوان ابزاری برای لیبل زدن دیتا ازش استفاده کنم و بعد دیتایی که توسط این مدل لیبل شده رو برای ترین مدل کوچکتر استفاده کنم
همونطور که گفتم مدل زیر ۱ میلیارد پارامتر داره و توی اکثر تسکهایی که پشتیبانی میکنه
دقت خیلی خوب یا قابل قبولی رو میده.
اما حتی با اینکه مدل کوچیکی هست به نسبت ولی شخصا با همین حالت ازش استفاده نمیکنم
کاربردی که همین الان براش میبینم حتی این هست که بعنوان ابزاری برای لیبل زدن دیتا ازش استفاده کنم و بعد دیتایی که توسط این مدل لیبل شده رو برای ترین مدل کوچکتر استفاده کنم
همونطور که گفتم مدل زیر ۱ میلیارد پارامتر داره و توی اکثر تسکهایی که پشتیبانی میکنه
image to caption, object detection, segmentation, regional version, ...
.دقت خیلی خوب یا قابل قبولی رو میده.
👍20❤5
Forwarded from Python Hints
توی سالهای مختلف زندگیم
خیلی قشنگ درک کردم،
رییس جمهوری هم همینه
۱ ماه دنبال گرفتن یک قرارداد بودم، شنبه قرار بود امضا کنم (یک استارتاپ ایرانی توی آمریکا).
خودشون بهم پیام دادند، ولی کل پروسه مصاحبه و ... همه چیز به دقت و حتی بدون رحم جلو رفت.
دیروز دیدم، مدیرعامل (استارتاپ برای خودش هست) با کلی چرت و پرت و چرندیات زده که برید و رأی بدید و ...
یک جستجو زدم، دیدم سر خریتش تو آخور نظام هست.
پیام دادم به مدیر HR شرکت و گفتم که امکان ادامه همکاری نداریم تا وقتی ایشون قرار هست مدیرعامل باشند،
شریک آمریکایی طرف پیام داد (چون خیلی فنی با سواد هستند) و براش توضیح دادم.
با اینکه ۲ برابر دستمزد فعلی من بهم پرداخت میکرد، اما هرجور حساب کردم دیدم نمیتونم پله واسه صدای یک احمق باشم.
نزدیک انتخاب شده،
خواستم بگم توی این سالها نه رأی دادم، نه رأی میدم.
هر کی سمت گرفت توی این مملکت، هم دزدید هم کشت.
خلاصه که من فراموشکار نیستم.
#رای_نمیدم
از خیر سود شخصی هم میگذرم به امید آینده بهتر برای ایران و نسل بعدی.
اضافه کنم :
راجب
خیلی قشنگ درک کردم،
خر همون خره، فقط پالونش عوض میشه
رییس جمهوری هم همینه
۱ ماه دنبال گرفتن یک قرارداد بودم، شنبه قرار بود امضا کنم (یک استارتاپ ایرانی توی آمریکا).
خودشون بهم پیام دادند، ولی کل پروسه مصاحبه و ... همه چیز به دقت و حتی بدون رحم جلو رفت.
دیروز دیدم، مدیرعامل (استارتاپ برای خودش هست) با کلی چرت و پرت و چرندیات زده که برید و رأی بدید و ...
یک جستجو زدم، دیدم سر خریتش تو آخور نظام هست.
پیام دادم به مدیر HR شرکت و گفتم که امکان ادامه همکاری نداریم تا وقتی ایشون قرار هست مدیرعامل باشند،
شریک آمریکایی طرف پیام داد (چون خیلی فنی با سواد هستند) و براش توضیح دادم.
با اینکه ۲ برابر دستمزد فعلی من بهم پرداخت میکرد، اما هرجور حساب کردم دیدم نمیتونم پله واسه صدای یک احمق باشم.
نزدیک انتخاب شده،
خواستم بگم توی این سالها نه رأی دادم، نه رأی میدم.
هر کی سمت گرفت توی این مملکت، هم دزدید هم کشت.
خلاصه که من فراموشکار نیستم.
#رای_نمیدم
از خیر سود شخصی هم میگذرم به امید آینده بهتر برای ایران و نسل بعدی.
اگر ازین دسته هستید، هم گروها هم کانالها
هم لینکدین و هم هرجای دیگر
لطفاً آنفالو و ریمو کانکشن کنید.
اضافه کنم :
راجب
concurrency
و ... هم تصمیم گرفتم یک سری پست بذارم (شاید حتی کمی مبتدی).👍78❤46
از لینکدین دیدم و برام جالب بود
چرا نتایج انتخابات همشون مضرب ۳ هست ؟
برای دیتاساینتیست ها و دیتا آنالیز درسی داخلش نهفته هست .
چرا نتایج انتخابات همشون مضرب ۳ هست ؟
برای دیتاساینتیست ها و دیتا آنالیز درسی داخلش نهفته هست .
👍62❤1
این ابزار واقعا عالیه؛
چندسال قبل راجب ایدهاش صحبت کردم و چندتا پیادهسازی ساده هم گذاشتم
ولی خب اون موقع هوش مصنوع
این قابلیت رو نداشت.
موضوع چیه ؟ یک ابزار خلاصه سازی؛ ساخت فلشکارت و البته quiz
بدینصورت که شما یک ویئو یوتیوب یا یک فایل صوتی بهش تحویل بدی و خروجیهایی که گفتم رو تحویل بگیری
شخصا برای جمع بندی ریسرچ - جزوه و ... ازش استفاده میکنم
https://coconote.app/signup
توی این ۲ روزی که پیداش کردم؛ حدودا ۲۰ دلار هست ماهانه ولی توی آفری که الان داده ۹ دلار داره میده اگر سالانه پرداخت کنید.
شخصا خرید نکردم؛ چون یک سری ویدئو رو که میخواستم به رایگان برام خلاصه کرد؛ ولی اگر توی فلو کاری و زندگیم کمک بکنه (بتونم جاش رو باز کنم) بنظرم ارزش خرید داره کاملا.
فلو کد یا کاریش هم اینطوری چنین چیزی هست؛ تست کردم درکی از تصویر و ویدئو نداره :
چندسال قبل راجب ایدهاش صحبت کردم و چندتا پیادهسازی ساده هم گذاشتم
ولی خب اون موقع هوش مصنوع
LSTM, RNN, GRU, ...
این قابلیت رو نداشت.
موضوع چیه ؟ یک ابزار خلاصه سازی؛ ساخت فلشکارت و البته quiz
بدینصورت که شما یک ویئو یوتیوب یا یک فایل صوتی بهش تحویل بدی و خروجیهایی که گفتم رو تحویل بگیری
شخصا برای جمع بندی ریسرچ - جزوه و ... ازش استفاده میکنم
https://coconote.app/signup
توی این ۲ روزی که پیداش کردم؛ حدودا ۲۰ دلار هست ماهانه ولی توی آفری که الان داده ۹ دلار داره میده اگر سالانه پرداخت کنید.
شخصا خرید نکردم؛ چون یک سری ویدئو رو که میخواستم به رایگان برام خلاصه کرد؛ ولی اگر توی فلو کاری و زندگیم کمک بکنه (بتونم جاش رو باز کنم) بنظرم ارزش خرید داره کاملا.
فلو کد یا کاریش هم اینطوری چنین چیزی هست؛ تست کردم درکی از تصویر و ویدئو نداره :
Speech to Text
Text to Knowledge
Knowledge Embedding
Context RAG + LLM to summarize
coconote.app
AI note taker with study guides, quizzes, and flashcards
👍28❤1
اگر شما هم مثل ما توی پروداکشن مشکل context دارید (با مدلهای بزرگ که امکان ترین و ... نیست)
حتما به این مقاله نگاه کنید
Arxiv Link
ادعای بزرگ و جذابی هست
حتما به این مقاله نگاه کنید
Arxiv Link
16K —> 256K
ادعای بزرگ و جذابی هست
👍13❤1