Telegram Web Link
اولین مورد توی عکس رو ببینید و با ردیف 50 مقایسه کنید.

Gemma 2 2B > ChatGpt 3.5 Turbo

این مدل به تازگی منتشر شد، دقت کنید اطراف این مدل نتایج بهتری از مدل‌های ۷، ۱۴ و حتی ۳۲ میلیاردی چندماه قبل داره. اهمیت دیتا

پ.ن : خودم هنوز باورم نمی‌شه
با این وضعیت فکر کنید مدل ۹ میلیاردی و ۲۷ میلیاردی آپدیت جدید بگیره

مورد دوم :
۱۳ روز دیگه معرفی Pixel 9 Pro هست و چون این مدل برای On-device هم مناسب سازی شده
ممکن هست این مدل، مدل اصلی روی گوشی‌های Google باشه


یک سری آدم نشستن؛ همین حالا مدل رو روی linux tablet ها اجرا کردن؛ با توجه به اینکه فعلا فقط CPU هست تقریبا حدود ۸-۱۲ توکن بر ثانیه خروجی میده.
زیر ۲۸ توکن بر ثانیه حوصله سربر میشه برای یوزر

توی تست های خودمم روی GPU زیر ۲ ثانیه مدل load میشه Q4 سرعتی هم که نیازی به توضیح نداره.
دستاوردهای یادگیری عمیق(InTec)
اولین مورد توی عکس رو ببینید و با ردیف 50 مقایسه کنید. Gemma 2 2B > ChatGpt 3.5 Turbo این مدل به تازگی منتشر شد، دقت کنید اطراف این مدل نتایج بهتری از مدل‌های ۷، ۱۴ و حتی ۳۲ میلیاردی چندماه قبل داره. اهمیت دیتا پ.ن : خودم هنوز باورم نمی‌شه با این وضعیت…
اینو باید حتما توی یک پست جدا می‌گفتم.

باورم نمی‌شه اما این مدل فارسی رو هم به خوبی جواب میده؛ به خدا از مدل‌های شرکت‌های ایرانی بهتره فارسی صحبت کردنش.

توجه دارید دیگه این مدل فقط ۲ میلیارد پارامتر داره؛ من ازش توقع knowledge دقیق ندارم و برام مهم فهمیدن گرامر و ... هست.


پ.ن : برای پروداکشن ShieldGemma = Meta Guard و Gemma Scope رو حتما بخونید.
برای دوستانی که اطلاع نداشتند به کمک پروژه

mlc-llm github

شما می‌تونید این مدل رو روی گوشی هم داشته باشید (البته احتمالا ۱-۲ روز طول می‌کشه تا لیست بشه ولی خب)
#Paris2024

از دلایلی که خواستار رای آوردن ترامپ هستم.
دستاوردهای یادگیری عمیق(InTec)
طبق بلاگ‌‌ها و صحبت‌هایی که شده سرعت Moshi توی قسمت‌های مهمی مدیون Rust هست. یکی از مهمترین ابزارهایی که ما هم داریم استفاده می‌کنیم برای دپلوی مدل‌ها huggingface Candle که روی Rust نوشته شده و headless ml framework هست. قطعا توی همین جملات برای آنان…
medusa whisper

رو ببینید، اگر می‌خواهید نسخه لوکال whisper با سرعت بالاتر رو داشته باشید

بدرد چی میخوره ؟
شما کد رو بگی، ایشون تایپ کنه
وصلش کنید به gemma2:2b که چیزایی مثل
Go to next line, insert tab, ...
رو بفهمه

یا حتی اگر حال دارید ی agent اولش بندازید که whisper بره description شمارو تایپ کنه و کد اولیه رو بگیره
بعد کمی ادیت و ... و insert into vscode
فکر می‌کنم ۱ سالی هست که روی Rocky Linux 9 جابجا شدم؛ گفتم چرا اوبنتو بدترین گزینه برای استفاده روی سیستم اصلی هست (مخصوصا برای برنامه‌نویس جماعت)

اما همونطور که خالق لینوکس گفت :
F...ck you nvidia


تعداد شیرین‌کاری های انویدیا حتی رو توزیع مطمئنی مثل Rocky هم کم نیست مثلا توی ورژن‌های اخیر cuda, driver نمی‌تونید به درستی سیستم رو sleep کنید و مشکل هم nvidia هست.

mem_sleep_default=deep acpi_sleep=nonvs rd.driver.blacklist=nouveau modprobe.blacklist=nouveau nvidia-drm.modeset=1 nvidia-drm.fbdev=0


شخصا برای حل این مشکل متغییرهای بالا رو روی
/etc/default/grub

و به انتهای GRUB_CMDLINE_LINUX اضافه می‌کنم. به عمد به default میزنم که توی کرنل آپدیت و ... همیشه پاک بشه تا بدون اینکه فراموش کنم چک کنم ببینم راهکاری براش اومده یا خیر.

گفتم شاید بدرد شما هم بخوره (کار خیلی از بچه‌هارو راه انداخت)
البته همیشه اول خودتون journalctl, dmesg, ... رو چک کنید بعد سراغ این راهکار برید.
دستاوردهای یادگیری عمیق(InTec)
پروژه ollama؛ یکی از اون پروژه‌های جذاب هست برای تست مدل‌ها و ... قبل از اینکه بخواهید وقت برای آماده سازی مدل روی پروداکشن بذارید. البته همینجا اشاره کنم؛ مشکلات خیلی زیادی هم داره. یکی از مشکلاتش حجم context-size هست؛ یعنی شما یک مدل 128k رو بهش میدی ولی…
آپدیت جدیدی برای llama3.1 روی ollama اومده (چند ساعت قبل) که نتایج خیلی بهتری داره.
توی release اول ollama نسخه 4bit-8bit quantize اش بسیار با نسخه‌های دیگری که توسط گروهای دیگه منتشر شده بود اختلاف داشت (توی خیلی بخش‌ها بدتر بود)
توی این آپدیت تا اینجا که این مشکلات بنظر میرسه رفع شده باشه.

نکته: تمامی نسخه‌ها آپدیت شده.
خیلی ابزار خوبی هست برای درک بهتر Transformers :

Link
خیلی جالبه تا وقتی
sus-colum-r
روی lmsys رو کسی نمی‌دونست چه مدلی هست همه ازش تعریف می‌کردند و می‌گفتند نسل بعدی
ChatGpt
هست (پروژه معروف به strawberry)

اما بعد توییت ایلان ماسک و وقتی مشخص شد، نسخه بتا Grok-2 هست، حالا خیلی از همون افراد می‌گن اصلا خوب نیست و ...


خواستم بگم حواستون باشه، تجربه نشون داده خیلی وقتا شرکت‌ها مدل‌های خیلی ساده‌تر و طبق بنچمارک و حرف و ... بدتر رو روی پروداکشن دارند درحالی که باقی فکر می‌کنند فقط یک
Api wrapper
روی chatGpt هست.


فقط جهت اطلاع :
روی یکی از پروژه‌های مهم خودم، Gemma2:2b رو داریم و باقی تیم‌ها فکر می‌کنند
Llama3.1:403b
رو استفاده می‌کنیم.
Forwarded from Python Hints
یاد بگیریم :


۱- وقتی تو گروهی می‌خوایم پیام بذاریم، بریده بریده پیام ندیم که افرادی که نوتیف رو فعال دارند سر درد نگیرند.

۲- سوالات رو کامل و دقیق توی پیام اول بپرسید.
اگر لازم هست، به سیستم‌عامل، ورژن ابزار و ... همگی اشاره شود

۳- قوانین گروه رو بخونید، تلگرام قابلیت سرچ کردن داره

۴- بنر گروه رو بخونید.

اگر این موارد رو رعایت نکردید و بن شدید، مشکل از شماست نه ادمین اون گروه، شما نحوه مشارکت در یک جمع رو بلد نیستید و برای وقت دیگران ارزش قائل نشدید.
دستاوردهای یادگیری عمیق(InTec)
در همین راستا و مشکلات ollama اگر شما هم از multi-gpu استفاده می‌کنید؛ شاید بخواید که ollama رو روی یک gpu اجرا کنید برای اینکه کل تیم به AI دسترسی داشته باشند و باقی GPU هارو برای پردازش و ترین مدل و ... بذارید. اگر همچین نیتی داشتید می‌تونید از این gist…
امروز دیدم یکی از شرکت‌هایی که مشاور هستم توی تست مدل مونده
نمی‌تونه مدل رو از روی HF ببره روی Ollama برای تست شدن توسط نیروهاش و ...
بدتر از اون Quantize کردنش رو هم بلد نبود.

نمی‌دونم اوضاع چطوری هست ولی اگر فکر می‌کنید نیاز هست آموزش بدم؛
مثل همون قضیه افزایش Context length هست که قبلا آموزش دادم روی Ollama
اگر reaction لایک بیشتر از پست قبلی شد؛ آموزشش رو می‌نویسم میذارم اگر نشد که هیچی.
Forwarded from Python Hints
من رو با اینکه تبلیغ دارید و تبلیغ می‌کنید و ... زخم کردند! (از 1.200.000 پیام، بله میلیونی شدیم. بیش از ۵ هزار مورد مربوط به این موضوع هست).


آره تبلیغ داریم،
شب ساعت ۱۱ تا ۱۰ صبح ۳۰ میلیون تومان ...

عمرا دیگه کسی درخواست تعرفه تبلیغ نمیده

ولی اگر داد؛
تمام مبلغ خرج کمک به آموزش چندتا نوجوان ٫ جوان برای برنامه‌نویسی خواهد شد.

یک سری یادگرفتند نیاز به لپ‌تاپ دارند.
یک سری هم برای شرکت در کلاس، نیاز به کمک هزینه دارند تا بتونند جبران ساعت‌های کار نکردن رو بکنند.

لزوماً هم کمک به برنامه‌نویسی نخواهد بود، ممکنه کمک برای درس خواندن و ... این افراد بشه.

اما ۱۵ نفر از این بچه‌ها که برنامه‌نویسی رو یادگرفتن یا درحال یادگیری هستند (یکی از دوستان بنده به رایگان بهشون آموزش میده و این دوره دوم هست) سریعاً به ذهنم اومد.


در نهایت:
پایین تمامی تبلیغات ذکر خواهد شد که موضوع توسط بنده هیچ تأییدی نداره.


عصبی شدم؛ طرف زحمت نمیده پیام‌های پین شده رو بخونه
دستاوردهای یادگیری عمیق(InTec)
فردا بعد از جلسه لایو حتماً این موضوع رو خواهم نوشت. متأسفانه دیروز به دلیل قطعی طولانی مدت برق وقت نکردم عذرخواهی می‌کنم.
بعد از سر و کله زدن با مشکلات برق و اینترنت و ...

بالاخره آموزش آماده شد؛
متن رو فردا توی کانال خواهم نوشت.

اگر دوست داشتید بگید که نحوه استفاده از مدل‌ها روی android رو هم توضیح بدم.
دستاوردهای یادگیری عمیق(InTec)
امروز دیدم یکی از شرکت‌هایی که مشاور هستم توی تست مدل مونده نمی‌تونه مدل رو از روی HF ببره روی Ollama برای تست شدن توسط نیروهاش و ... بدتر از اون Quantize کردنش رو هم بلد نبود. نمی‌دونم اوضاع چطوری هست ولی اگر فکر می‌کنید نیاز هست آموزش بدم؛ مثل همون قضیه…
این روش برای اکثر مدل‌های با پسوند .safetensor کار می‌کنه

وقتی یک مدلی به تازگی منتشر می‌شه یا روی مدل‌هایی که برای تسک خاص؛ زبان خاص هستند ممکن هست اون مدل رو روی Ollama نداشته باشید و بدون تعارف Ollama یکی از راحت‌ترین گزینه‌های برای تجربه و تست مدل‌ها هست.

برای همین توانایی تبدیل و سرو مدل‌های مختلف به فرمت Ollama بسیار گزینه مهمی هست؛ بعنوان مثال اگر در خاطرتون باشه موقع انتشار llama3 به دلیل اشتباه در نحوه تبدیل این مدل خروجی‌های اشتباهی هم از Ollama دریافت میشد و آپدیت این مورد حدودا ۳ روز زبان برد (روی توییتر بسیاری از اکانت‌ها به تیم ollama توییت زدند.)

من توی این پست سعی کردم به راحت‌ترین روش اشاره کنم و در نهایت مسیر سخت رو هم بهش اشاره خواهم کرد برای دوستانی که علاقه دارند خودشون پیگیری کنند.
وقتی یک مدل جدید منتشر میشه اول از همه شما باید به معماری اون تگاه کنید؛ توی فایل config.json یا توی توضیحات huggingface همیشه به این موضوع اشاره میشه که یک مدل بر پایه چه مدل یا مدل‌هایی توسعه داده شده؛ اگر پایه مدل llama, mistral, gemma, ... حتما توسط این تکنیک پشتیبانی میشه (از همون ساعت انتشار مدل) اما اگر معماری مدل بر پایه این مدل‌ها نباشه؛ اول باید توسط تیم llama.cpp پشتیبانی بشه و بعد تیم ollama پشتیبانی رو اضافه خواهد کرد؛ پس یک تکنیک پیشرفته تر برای تبدیل مدل‌ها استفاده از llama.cpp هست که توی این پست بهش نخواهم پرداخت.

برای مثال آموزشی من با یک مدل حجم کم شروع خواهم کرد که همه بتونند تست و تمرین کنند؛ مدل
HuggingFaceTB/SmolLM-135M-Instruct

توی اولین قدم شما باید؛ مدل بالا یا هرمدلی که دلتون میخواد (مطمئن بشید معماری بیس مدل پشتیبانی میشه) رو روی هارد خودتون ذخیره کنید (با استفاده از هر تکنیکی که علاقه دارید.)

بعد از اون مثل آموزش افزایش طول context برای llama3.1 روی ollama که قبلتر قرار گرفته؛ باید یک Modelfile ایجاد کنید. توی پوشه‌ای که مدل دانلود شده یک فایل جدید به اسم Modelfile ایجاد کنید و متن زیر رو داخلش بنویسید:
FROM .
PARAMETER stop <|im_start|>
PARAMETER stop <|im_end|>
PARAMETER temperature 0.1
PARAMETER top_p 0.95

TEMPLATE """{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}{{ if .Prompt }}<|im_start|>user
{{ .Prompt }}<|im_end|>
{{ end }}<|im_start|>assistant
{{ .Response }}<|im_end|>
"""

توی Modelfile شما ۲ تا تنظیم رو واجب هست که داشته باشید؛
FROM

که به ollama می‌گید مدل رو از کدوم مسیر روی سیستم‌عامل شما می‌تونه بخونه؛ توی مثال بالا از . استفاده شده که توی سیستم عامل Linux به معنای همین پوشه هست (ما modelfile رو داخل پوشه دانلود مدل hugging face قرار دادیم)
TEMPLATE

که به ollama می‌گه چطور باید پرامپت؛ سیستم پرامپت رو برای مدل ارسال کنه و البته چطور پاسخ مدل رو دریافت و تمیز کنه؛ jinja template فرمتی هست که استفاده میشه و همیشه توی ریپورت‌های انتشار مدل بطور دقیق به template format اشاره میشه پس باید داکیومنت مدلی که می‌خواید تبدیل کنید رو برای این بخش بخونید برای مثال تمپلیت گزارش شده این مدل بصورت خام و بدون Jinja بصورت زیر بود (که من برای ollama اون رو بهبود دادم) :
<|im_start|>system
YOUR SYSTEM PROMPT.<|im_end|>
<|im_start|>user
YOUR PROMPT.<|im_end|>
<|im_start|>assistant
RESPONSE.<|im_end|>

اگر مدلی به پرامپت تمپلیت اشاره نکرد؛ به احتمال ۹۰٪ از فرمت بالا استفاده می‌کنه.
همین ۲ تا بخش برای ساخت مدل کفایت می‌کنه؛ اما امکان داره بعضی وقت‌ها بخواید بصورت دیفالت یکسری از پارامتر‌ها رو ست کنید مثل temperature, top_p توی مثال بالا.
یا حتی بعضی وقتا بخشی از توکن‌های تمپلیت توی خروجی به شما نشون داده بشه که با PARAMETER stop می‌تونید به ollama بفهمونید که توکن قبل از اون آخرین توکن تولید شده توسط مدل بوده و stop رو نباید توی خروجی نمایش بده.

بعد از اینکه فایل ساخته شد؛ ترمینال رو توی همون پوشه باز کنید؛ اگر خواستید مدل رو بدون quantization داشته باشید دستور:
ollama create <NAME>:<TAG> -f Modelfile

رو میزنید و بجای <NAME>:<TAG> اسم و تگ مدل رو بهش میدید؛ اسم واجب هست و چیزی میشه که توی ollama list نمایش داده میشه؛ اما تگ واجب نیست و مقدار دیفالت اون latest خواهد بود.

برای quantize کردن مدل؛
ollama create <NAME>:q4_0 -f Modelfile --quantize q4_0

انواع quantization های موجود رو می‌تونید توی document های ollama بخونید ولی q4_0 یکی از معروف‌ترین موارد هست. (معروفترین؛ بهترین نیست لزوما).

در نهایت هم می‌تونید از دستور
ollama run <NAME>:<TAG>

برای اجرای مدل استفاده کنید و در صورت که علاقه داشتید مدل رو روی سایت ollama هم قرار بدید.
دستاوردهای یادگیری عمیق(InTec)
این روش برای اکثر مدل‌های با پسوند .safetensor کار می‌کنه وقتی یک مدلی به تازگی منتشر می‌شه یا روی مدل‌هایی که برای تسک خاص؛ زبان خاص هستند ممکن هست اون مدل رو روی Ollama نداشته باشید و بدون تعارف Ollama یکی از راحت‌ترین گزینه‌های برای تجربه و تست مدل‌ها…
توی این آموزش چون مدل SmolLM برپایه معماری‌هایی که قبلا پشتیبانی میشده نیست شما به ollama 3.7 نیاز دارید.
اگر امکان آپدیت نداشتید؛ یا معماری مدل هنوز توسط ollama پشتیبانی نمی‌شد. (هفته قبل)
باید از llama.cpp برای تبدیل استفاده می‌کردید.

گوشی‌های android بخصوص نسل SnapDragon 8 Gen3 توانایی اجرای این مدل با تعداد توکن بسیار بالایی رو دارا هست.
چیکار داره می‌کنه qwen2-vl بالاتر از همه رقبای open source, close source و با لایسنس Apache2 البته مدل ۷۲ میلیارد پارامتری فعلا فقط از طریق API در دسترس هست.

تمام تست‌های واقعی که یوتیوبر‌ها و ... ساختند رو سخت‌هاش رو من روش تست کردم همرو به درستی جواب داد.

مدل ۸ میلیارد و ۲ میلیارد هم اکنون در دسترس هست (می‌تونید دانلود کنید) ولی هنوز lama.cpp آماده نشده.

که باتوجه به توییت‌ها و ... به زودی (رفتن برای 2nd try) بعد از این روی ollama هم خواهد آمد (آموزش بالا)
چه خروجی‌هایی داره تکنیک
Reflection Tuning

مدل ۷۰ میلیاردی؛ بهتر از
Llama3.1-405B, Gpt-4o, Claude-sonet 3.5

این مدل بصورت open source در دسترس هست و می‌تونید تست کنید.


با درصد بالایی ثابت شده این مدل و تکنیک دروغ بوده؛
احتمال بسیار زیاد api ارائه شده داشته از sonnet استفاده میکرده اون زیر.
قطعا ollama جزو بهترین ابزارهایی بود که برای تست و mvp و ... عالی بود.
اما همونطور که می‌دونید بسیار بسیار پر دردسر هست مخصوصا اگر شما خودت متخصص باشی و بخوای داخلش دستکاری هم انجام بدی.

بسیار پروژه‌های جایگزین هم اومد ولی همچین شرایط بهتری نداشت؛ ۱-۲ مورد از مشکلات رو حل میکردند ولی توی باقی بخش‌ها مشکلات رو داشتند.

حالا تیم NeXAAI هم وارد این رقابت شده و چه ورودی؛ با یک SDK ساده
این تیم نه تنها مدل های متنی که مدل‌های مربوط به تولید تصویر و حتی صدا و .... رو هم پشتیبانی می‌کنه.
کاستومایزیشن‌های بسیار بیشتری برای افراد فنی میده و یک مدل‌ها فوق‌العاده داره که فیلتر و جستجوی قوی هم داره نسبت به ollama

مشکلی که داره؛ هنوز تو مرحله توسعه اولیه هست برای همین ممکن به تعدادی باگ روی serve کردن و customization بخورید؛ برای من با سوال و جواب حل شد.

https://nexaai.com/

403 هم نخواهید گرفت
جایگزین Llama3.1 فقط می‌تونه یک نسخه بهتر براساس همین معماری باشه :

arcee-ai/Llama-3.1-SuperNova-Lite

مدل ۸ میلیارد پارامتری هست، مدل ۷۰ میلیاردی فقط از طریق api در دسترس هست.
طبق ادعا از 405b, gpt4o, ... بهتر عمل می‌کنه؛ البته برای تسک‌های مربوط به
instruction-following

شخصاً هم همین رو احساس کردم توی تست‌ها.
2025/07/03 18:03:56
Back to Top
HTML Embed Code: