Telegram Web Link
تیم mistral برای اولین بار وارد بازی مدل‌های مخصوص کد نویسی شده و مدل Codestral رو معرفی مکرده یک مدل 22 میلیارد پارامتری با context length گزارش شده 32k اما بخش جالب ماجرا اینه که این مدل به راحتی توی زبان برنامه نویسی Python تمام مدل‌های opensource رو شکست میده
deepseek coder 33B
Llama3 70B
CodeLlama 70B

دقت به سایز مدل دارید ؟
و اینکه تمام مدل‌های رقیب که بسیار هم عملکرد خوبی داشتند (البته تا دیروز) context length هایی کمتر از 16K دارند.

مهمترین قابلیتی که داره؛ Fill in the middle هست یعنی pseudo code بهش بدید؛ یا بخشی از کد رو بطوری که شما اسم توابع و کلاس‌هاتون رو نوشتید و برای هرکدوم DocString و جایی که باید return کنه رو هم کد زدید (حتی می‌تونه شامل اسم متغییرها و بخشی از پیاده‌سازی هم باشه) و باقی رو به مدل بسپارید تا براتون پیاده‌سازی کنه.
با این روش به راحتی structure, ... پروژه شما بطور کامل حفظ می‌شه.
این برخلاف مدل‌های دیگه هست که یا باید ازشون سوال بپرسید و در جواب سوال بهتون کد بدهند؛ یا اینکه بخش اول کد رو بزنید و باقی اون رو کامل کنند. هر چند که Codestral هر ۲ این قابلیت‌ها رو هم داره.

چیزی که برام مهم هست ؛ multi-file reasoning هست که کار ساده‌ای هم نیست همونطور که احتمالا می‌دونید؛ توی مدل‌های موجود Gpt4 همچنان بهترین مدل روی این بحث هست و Gpt4-o اما داستان متفاوتی داره و عملکردش از Gpt4 توی این مورد ضعیفتر هست.


اضافه کنم بیش از ۸۰ زبان برنامه‌نویسی توسط این مدل پشتیبانی میشه و بطور میانگین هم از باقی روقبا یک سر و گردن بالاتر هست.


کد زدن
fill in the middle

و البته تست نویسی بسیار قدرت خوبی داره
اما ۲ تا نکته جالب توی مدل دیدم؛

۱- بصورت دیفالت کامنت؛ داک استرینگ و ... رو از کدهای شما کنار میذاره و اصل کد رو فقط بهتون نشون میده + توضیحاتی که در انتها میده (که قطعا عالیه)

۲- توی اجرای اول و درصورتی که ازش نخواهید؛ کد رو به ساده‌ترین حالت ممکن پیاده‌سازی می‌کنه که بسیار قابل درک هست.
👍319
به لحظات ملکوتی ارتحالیدی نزدیگ میشیم و خبرهای نفوذ یکی پس از دیگری که میرسه

سازمان حج و زیارت
بلو بانک (من مشکل برق دیتاسنتر رو واقعی نمیدونم مگه میشه کار به این بزرگی replication , ... نداشته باشه؟)
خبر نفوذ رو با توجه به اینکه شخص درخو.است پول کرده و ... واقعی تر می‌بینم

اختارها رو جدی بگیرید؛
پول برنامه‌نویس و متخصص امنیت و ... رو هم بدید.
معماری و سیستم دیزاین رو هم از اینگاره بپرسید.


فقط این وسط نفهمیدیم چرا GODMODE GPT رو توی این روزها زدند ؟
👍401
دستاوردهای یادگیری عمیق(InTec)
به لحظات ملکوتی ارتحالیدی نزدیگ میشیم و خبرهای نفوذ یکی پس از دیگری که میرسه سازمان حج و زیارت بلو بانک (من مشکل برق دیتاسنتر رو واقعی نمیدونم مگه میشه کار به این بزرگی replication , ... نداشته باشه؟) خبر نفوذ رو با توجه به اینکه شخص درخو.است پول کرده و ...…
#خارج_از_بحث

امروز صبح که سرعت اینترنتم به نهایتا ۲۵۶ کیلوبایت هم رسید برای چندین ساعت؛ جوری که ترجیح دادم بجای وقت تلف کردن بخوابم و انرژیم رو ذخیره کنم برای ساعت‌های پایانی شب ( ۱ هفته‌اس اوضاع اینترنت اینطوری هست)
داشتم به این فکر میکردم چرا برای خطوط تلفن و ... از ماهواره‌ها استفاده نمی‌شه ؟

سرچ کردم دنبال همچین چیزی :
Youtube Video

خیلی جالب هست که خیلی شرکت‌ها قبل از این اینکار رو شروع کردند؛ عدم استفاده از ماهواره ها هم دلایل خودش رو داره؛ یک ویدئو دیگه از پروژه ناسا هم هست که سال ۱۹۸۳ یک ماهواره رو به فضا میفرسته (سطح پایین) هدف این بوده از مواد مختلف استفاده کنه تا تاثیر low orbit رو ببینه اما بنا به دلایلی تا ۷ سال بعد نمی‌تونه اون رو برگردونه؛ سال ۱۹۹۰ وقتی بر میگردونه اصلا اوضاع خوبی نداره ماهواره.

این یکی از دلایلی هست که نمی‌شه از ماهواره برای اینکار استفاده کرد ولی این aircraft داستان دیگری هست؛ بنظرم خیلی جالب بود حتما ببینید.


ما همچنان درگیر خطوط مسی تلفن هستیم.
👍274
#Quick

دوتا ترکیب برنده بدم و برم؛
1) phi3-vision + llama3

2) phi3-vision + codestral

دیگه ببینم چیکار می‌کنید.
👍2810
۱۹ ساعت قبل پیاده سازی رسمی xLSTM روی گیت‌هاب کامل شد :


Github

از این کد برای تست ایده‌ها استفاده کنید.
👍1910
مدل Qwen2 منتشر شد، قبلا راجب مدل اولش گفتم و واقعاً عملکرد خوبی داشت

اما چندتا نکته قابل توجه داره این مدل:
1- عملکرد بهتر از Llama3
2- سایز بزرگتر برای Context-length
3- انتشار مدل در ۵ سایز از 0.5B تا 72B پارامتر
4- و البته از همه مهمتر پشتیبانی از 29 زبان

اما چیزی که بسیار توجه جلب می‌کنه؛ امتیازش روی تست
MMLU-Pro
هست که :
ChatGpt4o : 72.2
Claude 3 Opus : 68.4
Qwen2 : 64.4
Llama3 : 56.2



Blog Post

مدل ۷۲ میلیارد پارامتری دمو هم داره در حال حاضر.


اضافه کنم :
فراموش نکنید Phi3 فقط زبان انگلیسی رو پشتیبانی می‌کنه.
برای همین توی این لیست راجبش چیزی نگفتم.
👍197
یکی از دوستان اشاره کرده که تبلیغاتی از دوره‌های ایرانی کانال‌های دیگه پایین پست‌های کانال میاد.

همین اول بگم؛
هیچکدوم از دوره‌های فارسی پولی مورد تأیید ما نیست


و تقریباً هیچکدوم هم مناسب بیزینس نیست، دوره‌ای نیست که شمارو وارد بازار کار کنه.




اما تبلیغات تلگرام، دست ما نیست.
تلاش کردم خاموش کنم این موارد رو ولی تلگرام میگه باید 50 لول Boost داشته باشیم تا اجازه غیرفعال کردن بده بهمون

پس صرف اینکه تبلیغات تلگرام رو پایین هرکدوم از کانال های ما دید، فکر نکنید که ما تایید کردیم اون دوره رو

دوره‌های تایید شده :

https://www.tg-me.com/pytens/1444

این پست برای مدتی، بعنوان پست آخر دائماً ارسال خواهد شد. (تا کانال‌ها هدف تبلیغات نباشند)

پ.ن :
کانال یوتیوب با حمایت شما، به آموزش‌های رایگان و البته مناسب بیزینس در زمینه‌های مختلف ادامه خواهد داد قطعا.

http://youtube.com/@pyhints
👍194
گفتم ویدئو
Andrej Karpathy
رو برای دومین بار ببینم، که یکی از دوستان کتاب
Mastering NLP from Foundation to LLMs
برام فرستاد،
کتاب حدوداً 300 صفحه هست همراه با سوالات و جواب‌های آخرش

دعوتم کرد به یک چالش؛ تا ساعت ۴ صبح (منتظر آماده شدن یک مدل experimental هستم و کاری با سیستم نکنم بهتره)
حداقل ۵ فصل اول رو بخونم و به سوالات این دوستمون جواب بدم برای تایید اینکه کتاب رو خوندم واقعاً

نمی‌دونم چطوری پیش میره
ولی اگر واقعاً تونستم انجامش بدم برای روی جمعه نظرم راجب این کتاب رو میذارم و اینکه ارزش خوندن داره یا نه ...

اگر شما هم کتاب خوبی میشناسید بهم بگید (بهتره برای اواخر ۲۰۲۳ - ۲۰۲۴ باشه باقی رو اکثراً خوندم)
@abbasi_ai

پ.ن : تو دنیای موازی باید همین چالش هم ویدئو گرفته میشد میرفت یوتیوب
بعد ۲۰۰-۳۰۰ هزار نفر میومدن نحوه کتاب خوندن من رو می‌دیدند.

ولی خب من خیلی ویدئویی و تمیز کتاب نمی‌خونم
ماهم تو دنیای موازی نیستیم 😂🤣😂


::::::::::
۱- پایان فصل اول، بسیار مختصر و بسیار مفید مفاهیم مهم مثل
Stemming, Lemmatization, ...
بسیار ساده و روان و در حد نیم خطی تعریف شدند.
(تا اینجا خوشحالم)

۲- پایان فصل دوم، ریاضیات بسیار مهم و کاربردی البته برای کسی که با این مفاهیم آشنا نیست اصلاً خوب نیست و بنظرم فقط یک رفرنس هست که چه مفاهیمی رو لازم داریم

ازین به بعد کسی بپرسه ریاضی چی باید بلد باشم، قطعاً فصل دوم این کتاب رو بهش معرفی می‌کنم و میگم تمام مفاهیم رو بطور کامل بلد باشه

۳- تقریباً به انتهای فصل سوم رسیدم (باید برگردم پای کد، هرچند نهایتا می‌تونم به فصل ۴ برسم تا قبل از ساعت ۴)

فصل ۳ پر هست از مفاهیم و اصطلاحات مهم و تکنیک‌های بسیار مهم توی machine learning
شخصاً ترکیب فصل ۱ و ۳ رو برای آماده کردن cheat sheet و مصاحبه پیشنهاد می‌کنم.

نکته بعدی؛ تا اینجای کتاب می‌تونه خودش یک roadmap عالی برای یادگیری مباحث پر اهمیت باشه :

با فصل ۲ شروع کنید، هرچیزی که بلد نیستید رو جستجو کنید و یاد بگیرید برای ریاضیات.

فصل ۳،برای یادگیری مفاهیم اصلی و اصطلاحات Machine learning فوق‌العاده هست و تقریباً نگاهی به تمامی مفاهیم و تکنیک‌های مهم داشته

بعد از اون برگردید به فصل ۱ تا با اسم‌ها و مفاهیم ساده پردازش داده متنی آشنا بشید
به ترتیب فصل ۴-۵ رو می‌تونید بعدش ادامه بدید (چون قبل از شروع به خوندن نگاهی به سرفصل‌ها داشتم میگم)



حتماً سعی می‌کنم کتاب رو توی آخر هفته ادامه بدم.
👍5322
راجب codestral گفتم که واقعا عملکرد خوبی هم داشت
اما نتایج جدیدی که برای deep-seekcoder v2 منتشر شده واقعا فوق العاده هست بعلاوه همه هم از عملکرد بهترش صحبت میکنند
تو اولین فرصت تست خواهم کرد

(گفتم اگر کسی خواست دانلود کنه این رو جایگزین codestral کنه)

context-length: 128K

gpt-4o
رو هم این هفته با چند نفر از دوستان تست کردیم؛ توی مبحث coding واقعا نتایج خیلی بدی داره
اگر ازش فقط ۱ کد بخواید یک تابع یا یک کلاس خیلی خوب جواب میده

اما اگر چندین کد یا پروژه ای ازش سوال بپرسید کاملا چرت و پرت میگه.
خیلی وقتا حتی گم میکنه کجا بود.
👍207
دستاوردهای یادگیری عمیق(InTec)
راجب codestral گفتم که واقعا عملکرد خوبی هم داشت اما نتایج جدیدی که برای deep-seekcoder v2 منتشر شده واقعا فوق العاده هست بعلاوه همه هم از عملکرد بهترش صحبت میکنند تو اولین فرصت تست خواهم کرد (گفتم اگر کسی خواست دانلود کنه این رو جایگزین codestral کنه)…
همین اول بگم عملکرد فوق‌العاده رضایت بخش هست

بدون شک جایگزین codestral خواهد بود برای من توی بخش local؛ با وجود حجم کمتر به راحتی پرفورمنس بهتری از codestral بهتون میده

مخصوصا وقتی پروژه :
۱- جند زبان برنامه نویسی مختلف داره

۲- استراکچر پیچیده‌ای داره (توی این مورد chatgpt 4o هیچ جواب درستی نمیداد و وقتی هم که بهش سمپل میدادم شروع میکرد همون سمپل رو بهبود دادن بدون در نظر گرفتن history و حتی با پرامپت بهتر دادن هم نتیجه نمیداد)

۳- با توجه به context-length طولانی که داره یک تریک دیگه زدم؛ داستانی رو نوشتم که وسطش یکی از کاراکتر ها توضیح میده اگر یک برنامه نویس بین ما بود حتما می‌تونست کمک کنه و ....
و توی گفتگوهای کاراکتر‌های مختلف نیازمندی‌های برنامه در میومد
Gpt4o - Codestral - Llama3 - Phi3

هر ۳ بخشی رو تونستند پیاده کنند؛ اما این مدل با کمی کمک تمام فیچر‌ها رو پیاده‌سازی کرد (البته این کمک رو به ۴ مورد دیگر هم کردم)

مورد ۳ یکی از بنچمارک‌های اختصاصی هست که توی تیم خودم برای fine-tune, training استفاده می‌کنم؛ چون راهکارهای قویتر پیدا کردم گفتم بد نیست اینو بگم (نوعی آموزش هم هست دیگه)

در نهایت اگر خواستی مدل بزرگتر رو بصورت رایگان استفاده کنید (تا ۵ میلیون توکن رایگان بهتون میده)
deepseekcoder-v2 free api
رو وارد بشید.

کارت گرافیک :
برای 64K context-length به 24GB گرافیک نیاز هست برای مدل 16B پارامتری.
با context-length کمتر به راحتی روی 12GB اجرا خواهد شد
👍208
صحبت از ۱۰۰،۰۰۰ تا
H100
هست

بعد ج.ا می‌خواد وارد دنیای LLM بشه تا مدل‌های foundation خودمون رو داشته باشیم 🤣😂
👍406
یک خبر دیگه از ماکروسافت :
مدل‌های Florence-v2 منتشر شد، زیر ۱ میلیارد پارامتر (مدل بیس هست)
پیشرفت انقدر زیاد بوده توی این ۱ سال که همچین مدلی نتایج بهتری از مدل Flamingo با ۸۰ میلیارد پارامتر داره 🤯

تسک‌های vision, vision-language رو به خوبی انجام میده

شخصاً تست خواهم کرد و اطلاع میدم راجبش.
👍3511
دستاوردهای یادگیری عمیق(InTec)
همین اول بگم عملکرد فوق‌العاده رضایت بخش هست بدون شک جایگزین codestral خواهد بود برای من توی بخش local؛ با وجود حجم کمتر به راحتی پرفورمنس بهتری از codestral بهتون میده مخصوصا وقتی پروژه : ۱- جند زبان برنامه نویسی مختلف داره ۲- استراکچر پیچیده‌ای داره…
به انتهای پست قبل هم اضافه خواهم کرد:

چون خیلی سوال شد؛ ازین به بعد سعی می‌کنم فراموش نکنم و میزان GPU رو هم بگم

این مدل روی گرافیک ۱۲ گیگ به خوبی اجرا میشه (نهایتا روی کولب اجرا بذارید) اما نه با context-length 128K
شخصا روی context-length 64K (یعنی نصف توانایی مدل تست کردم و کانفیگ کردم مدل رو برای لوکال) و همین میزان 23.8GB کارت گرافیک رو استفاده می‌کنه حدود 500MB دیگه کارت گرافیک ارور میده و مدل رو unload می‌کنه
👍141
دستاوردهای یادگیری عمیق(InTec)
یک خبر دیگه از ماکروسافت : مدل‌های Florence-v2 منتشر شد، زیر ۱ میلیارد پارامتر (مدل بیس هست) پیشرفت انقدر زیاد بوده توی این ۱ سال که همچین مدلی نتایج بهتری از مدل Flamingo با ۸۰ میلیارد پارامتر داره 🤯 تسک‌های vision, vision-language رو به خوبی انجام میده…
مدل لارج رو تست کردم؛ بهترین ویژگی که داره multi-task بودنش هست و روی تسک‌های کلی و تصاویر روزمره بسیار عملکرد خوبی داره

اما حتی با اینکه مدل کوچیکی هست به نسبت ولی شخصا با همین حالت ازش استفاده نمی‌کنم
کاربردی که همین الان براش می‌بینم حتی این هست که بعنوان ابزاری برای لیبل زدن دیتا ازش استفاده کنم و بعد دیتایی که توسط این مدل لیبل شده رو برای ترین مدل کوچکتر استفاده کنم

همونطور که گفتم مدل زیر ۱ میلیارد پارامتر داره و توی اکثر تسک‌هایی که پشتیبانی می‌کنه
image to caption, object detection, segmentation, regional version, ....
دقت خیلی خوب یا قابل قبولی رو میده.
👍205
Forwarded from Python Hints
توی سال‌های مختلف زندگیم
خیلی قشنگ درک کردم،

خر همون خره، فقط پالونش عوض می‌شه

رییس جمهوری هم همینه

۱ ماه دنبال گرفتن یک قرارداد بودم، شنبه قرار بود امضا کنم (یک استارتاپ ایرانی توی آمریکا).
خودشون بهم پیام دادند، ولی کل پروسه مصاحبه و ... همه چیز به دقت و حتی بدون رحم جلو رفت.

دیروز دیدم، مدیرعامل (استارتاپ برای خودش هست) با کلی چرت و پرت و چرندیات زده که برید و رأی بدید و ...

یک جستجو زدم، دیدم سر خریتش تو آخور نظام هست.

پیام دادم به مدیر HR شرکت و گفتم که امکان ادامه همکاری نداریم تا وقتی ایشون قرار هست مدیرعامل باشند،
شریک آمریکایی طرف پیام داد (چون خیلی فنی با سواد هستند) و براش توضیح دادم.

با اینکه ۲ برابر دستمزد فعلی من بهم پرداخت می‌کرد، اما هرجور حساب کردم دیدم نمی‌تونم پله واسه صدای یک احمق باشم.


نزدیک انتخاب شده،
خواستم بگم توی این سال‌ها نه رأی دادم، نه رأی میدم.
هر کی سمت گرفت توی این مملکت، هم دزدید هم کشت.

خلاصه که من فراموشکار نیستم.

#رای_نمیدم
از خیر سود شخصی هم می‌گذرم به امید آینده بهتر برای ایران و نسل بعدی.


اگر ازین دسته هستید، هم گروها هم کانال‌ها
هم لینکدین و هم هرجای دیگر
لطفاً آنفالو و ریمو کانکشن کنید.


اضافه کنم :
راجب concurrency و ... هم تصمیم گرفتم یک سری پست بذارم (شاید حتی کمی مبتدی).
👍7846
Gemma2 is out ....
Going to test it
👍176
از لینکدین دیدم و برام جالب بود
چرا نتایج انتخابات همشون مضرب ۳ هست ؟

برای دیتاساینتیست ها و دیتا آنالیز درسی داخلش نهفته هست .
👍621
‌این ابزار واقعا عالیه؛
چندسال قبل راجب ایده‌اش صحبت کردم و چندتا پیاده‌سازی ساده هم گذاشتم
ولی خب اون موقع هوش مصنوع
LSTM, RNN, GRU, ...

این قابلیت رو نداشت.

موضوع چیه ؟ یک ابزار خلاصه سازی؛ ساخت فلش‌کارت و البته quiz
بدینصورت که شما یک ویئو یوتیوب یا یک فایل صوتی بهش تحویل بدی و خروجی‌هایی که گفتم رو تحویل بگیری

شخصا برای جمع بندی ریسرچ - جزوه و ... ازش استفاده می‌کنم

https://coconote.app/signup

توی این ۲ روزی که پیداش کردم؛ حدودا ۲۰ دلار هست ماهانه ولی توی آفری که الان داده ۹ دلار داره میده اگر سالانه پرداخت کنید.

شخصا خرید نکردم؛ چون یک سری ویدئو رو که میخواستم به رایگان برام خلاصه کرد؛ ولی اگر توی فلو کاری و زندگیم کمک بکنه (بتونم جاش رو باز کنم) بنظرم ارزش خرید داره کاملا.


فلو کد یا کاریش هم اینطوری چنین چیزی هست؛ تست کردم درکی از تصویر و ویدئو نداره :
Speech to Text
Text to Knowledge
Knowledge Embedding
Context RAG + LLM to summarize
👍281
اگر شما هم مثل ما توی پروداکشن مشکل context دارید (با مدل‌های بزرگ که امکان ترین و ... نیست)
حتما به این مقاله نگاه کنید

Arxiv Link

16K —> 256K

ادعای بزرگ و جذابی هست
👍131
2025/07/09 19:07:08
Back to Top
HTML Embed Code: