Telegram Web Link
شما شاهد بنچمارک لو رفته از
llama3 405B, Llama-3.1

هستید.
👍3711
دستاوردهای یادگیری عمیق(InTec)
شما شاهد بنچمارک لو رفته از llama3 405B, Llama-3.1 هستید.
منتشر شد با دسترسی عمومی

ایمیل Nvidia NIM هم الان باید به دستتون بره که llama3.1 در دسترس قرار گرفت
14👍5
بریم برای دانلود و تست
👍16
دستاوردهای یادگیری عمیق(InTec)
بریم برای دانلود و تست
بنچمارک رسمی تیم هوش مصنوعی Meta
فوق‌العاده هست
👍14
اگر شخصی میخواید تست کنید
حواستون باشه که مدل ۷ میلیاردی و ۷۰ میلیاردی هم منتشر شده

مدل ۴۰۵ میلیاردی برای ساخت synthetic data معمولا استفاده میشه
👍15
آیدین عزیز اطلاع داد که تیم groq هم مدل رو برای تست اضافه کرد.
خب پس دلیل لیک شدن آمارهای روز قبل هم مشخص شد
تمامی تیم‌‌ها زودتر دسترسی گرفتند که امروز به راحتی ورژن‌های مختلف رو منتشر کنند.
👍11
عملکرد واقعا بهبود پیدا کرده؛ چند نمونه از سوالات مربوطه که توی هیستوری چت‌های قبلیم روی سیستم داشتم رو بهش دادم و نتایج واقعا بهتر شده و من فقط راجب مدل ۸ میلیاردی دارم صحبت می‌کنم

ترکیب برنده :
route-llm + Llama3.1 + groq api

با ۱/۱۰ هزینه openai کارهاتون رو راه بندازید.

context length = 128K by default
License update - important for companies

نکته مهم خیلی از سوالات رو zero-shot جواب میده که خیلی مهم هست این یعنی اگر پرامپت درست دادن رو بلد باشید

دقیقا با سوال اول جواب کامل رو میگیرید
واقعا برگام
👍218
تنها چیزی که ای‌کاش داشت؛ مدل سایز متوسط هست چیزی بین 8 - 70 میلیاردی مثلا ۲۷-۳۰ میلیارد پارامتر میزان نرمال و مشهوری هست که روی GPU های خونگی به راحتی میشه نسخه QUANTIZE شده رو اجرا کرد.

خوبی مدل‌های شرکت‌های چینی این هست که اکثرا از ۱.۲ میلیارد پارامتری تا ۷۲ میلیارد پارامتری منتشر می‌کنند. بیش از ۷ مدل معمولا


نکته دیگه‌ای که باید اضافه کنم با توجه به توضیحاتی که نوشته شده توی خیلی از بلاگ پست‌ها نوشتند که cutoff هست و ۹۰٪ مواقع این یعنی ترین ادامه خواهد داشت و در ماه‌های آینده شاید شاهد مدل قویتری به اسم llama3.2 هم باشیم

این حرکت openai و انتشار مدل 4o-mini خیلی خیلی به موقع بود ولی آیا نجات دهنده هم هست ؟
👍192
📱🦀🦀🦀💬

برای آخرین تست یک سورس کد مربوط به Rust دارم توی این مدتی که داشتم یاد میگرفتم کد زدم

هیچکدوم از مدل‌های قبلی نتونستند درستش کنند ( مخصوصا چون دیتای Rust بسیار کمتر هست نسبت به باقی زبان‌ها)
به غیر از Gpt4o که بعد از ۵ مورد ارسال خطای کامپایلر این کار رو کرد.

حتما باید بعد از تست‌های فعلیم؛ این کد رو تست کنم اگر مدل ۸ میلیارد پارامتری حتی بتونه مشکل رو توی پرامپت اول به درستی تشخیص بده

اجازه میدم default assistant ام باشه توی توسعه کدها و این trophy رو شخصا بهش میدم 😄🏆
Please open Telegram to view this post
VIEW IN TELEGRAM
👍195
دستاوردهای یادگیری عمیق(InTec)
📱🦀🦀🦀💬 برای آخرین تست یک سورس کد مربوط به Rust دارم توی این مدتی که داشتم یاد میگرفتم کد زدم هیچکدوم از مدل‌های قبلی نتونستند درستش کنند ( مخصوصا چون دیتای Rust بسیار کمتر هست نسبت به باقی زبان‌ها) به غیر از Gpt4o که بعد از ۵ مورد ارسال خطای کامپایلر این…
توضیحات مدل :
The error is because &'static str has a static lifetime, which means the string must be valid at compile time. However, when you return an error, you're trying to store a string that's owned by myfunc and will go out of scope as soon as that function returns.
و راه حلش :
You can fix this by changing return Err(&'static ex) to return Err(ex.into_string().as_str()). This will create a new string from the error message using into_string() and then return it with a lifetime that's tied to the current function, which is what you want.

توضیحات دقیق و درست هست و اگر شبی که کد رو داشتم می‌نوشتم این توضیحات رو داشتم قطعا درجا درستش می‌کردم.
اما
چون ازش خواستم که کد کامل رو بهم برگردونه؛ توی این مرحله fail کرد؛ کد رو نوشت و بخشی که توضیح داده بود رو هم درست کرد ولی باقی بخش‌های وابسته کد رو اینکارو نکرد.

ولی با همه اینها GPT4o بعد از ۵ بار فرستادن ارورهای کامپایل خروجی بهم داد و این مدل فقط بعد از ۲ بار فرستادن ارورها.
نکته مهمتر توضیحات خیلی دقیق و درستی می‌داد که این بیشتر باعث تعجب من شده.

و من فقط دارم از Llama3.1 8b quantize 4 استفاده می‌کنم برای اینکار.

بنظرم لایق trophy هست. 🏆
👍2010
قیمت‌ها

دیگه کی chatgpt می‌خره
👍225
چه خبره دنیای opensource ؛
mistral large 2
منتشر شده. البته فقط برای non-commercial
و خبر از زدن بنچمارک های llama3 405b هست (البته برای تسک‌های اصلی گزارش شده)

من تازه داشتم سیستم رو آماده میکردم برای تست مدل 70 میلیاردی llama3.1

نکته بعدی این مدل mistral large 2 منظورم هست؛ فقط و فقط 123b پارامتر داره.

https://huggingface.co/mistralai/Mistral-Large-Instruct-2407


context window: 128k
better for: coding, math and reasoning


خب معلوم شد ۲ تا مدل سبکتر هفته قبل از کجا اومد.
👍115
همزمان
Mistral Nemo 

هم برای consumer منتشر شده (همکاری بین nvidia, mistral) بازم context len: 128K رو شاهد هستیم و مثل مدل بزرگتر این مدل هم تخصصی برای کد و ریاضیات و استنتاج هست.

اطلاعات خاصی ازش ندیدم بیش از این و توی خبرها تقریبا گم شده بود.
بنچمارکی هم که ازش منتشر شده مقایسه با llama3, gemma2 هست که از هر دو این موارد دقت بهتری داره ولی توجه کنید حداقل ۳ میلیارد پرامتر هم بیشتر داره چون 12B پارارمتری هست.

اما با توجه به گزارش‌های داده شده؛ فکر نمی‌کنم در برابر llama3.1 شانسی داشته باشه؛ هرچند مدل‌های مناسب برای ساخت multi-agent بنظرم لیستش در اومد.

Mistral Nemo 12B
Gemma2 9B
qwen2 8B
supervised by : llama3.1



مواردی که توی بلاگ دیدم؛ ولی از همش مطمئن نیستم :
۱- معرفی توکنایزر جدید به اسم Tekken که خب با توجه به توضیحات توکنایزر قویتری بنظر میاد و حدود ۳۰٪ کامپرشن بیشتر ارائه میده.
۲- هزینه $0.3 برای هر 1 میلیون توکن ورودی و خروجی

پ.ن: اصلاح میکنم این مدل ۷ روز قبل منتشر شده.
👍135
انقدر اخبار مدل پشت مدل منتشر شد
نه فقط LLM بلکه VLM , … هم منظورم هست

که بطور کل
Deepmind’s Alpha Proof

فراموش شد؛ سوالات در حد المپیک رو بهش دادند و تونسته مدال نقره بگیره (بسیار نزدیک به طلا) و در نهایت توانایی اثبات و بهبود هم داره
👍276
پروژه ollama؛ یکی از اون پروژه‌های جذاب هست برای تست مدل‌ها و ... قبل از اینکه بخواهید وقت برای آماده سازی مدل روی پروداکشن بذارید.

البته همینجا اشاره کنم؛ مشکلات خیلی زیادی هم داره.

یکی از مشکلاتش حجم context-size هست؛ یعنی شما یک مدل 128k رو بهش میدی ولی بدون اینکه اطلاعاتی گذاشته باشند راجبش مدل رو روی 2k برای context-size لود می‌کنه (این اواخر 8k شده که بازم کافی نیست)

این تصمیم از طرف تیم ollama تصمیم درستی هست با توجه به اینکه افزایش context size نیاز به GPU vRAM بیشتری داره و اکثر کاربرهای ollama برای استفاده شخصی ازش استفاده می‌کنند اما مسئله این هست که توی سایت مدل رو میزنه 128k و بدون اینکه توضیحی بده توی تنظیمات از 8k یا 2k استفاده می‌کنه.

خیلی وقت بود پست آموزشی نذاشته بودم امروز تصمیم گرفتم اینکار رو آموزش بدم؛ به ساده‌ترین روش ممکن.
مسئله اینه که اگر از طریق API call یخواید context length رو افزایش بدید هیچکار خاصی نمی‌کنه و نتیجه مورد نظر رو نمی‌گیرید و تنها راهکار ساخت یک ModelCard و مدل جدید هست؛ من آموزش رو روی llama3.1 ادامه میدم چون مدل مورد علاقه‌ام در حال حاضر هست.

قدم اول: مدل اصلی رو از ollama دانلود کنید
ollama pull llama3.1

که مدل 8 میلیاردی با Q4 رو براتون دانلود می‌کنه.

قدم بعدی: model card رو از مدل استخراج کنید و توی ی فایل ذخیره کنید
ollama show llama3.1 —modelfile > llama3.1-128k-conf.txt


حالا بدون دردسر این کانفیگ رو آپیدت کنید:
اول از همه خط مربوط به FROM رو آپدیت کنید که بجای خوندن از local آپدیت بودنش رو با سایت ollama بررسی کنه
نگران نباشید این قدم نیازی به دانلود مجدد نخواهد داشت.
FROM llama3.1:latest

کاری به تمپلیت نداریم؛ اما بعد از تمپلیت و قبل از شرح لایسنس جایی هست که می‌تونید پارامترها رو اضافه کنید که من اون رو روی 128k میزارم (توجه کنید که مضرب ۲ هست و به اصطلاح ۱۲۸ گفته میشه)
PARAMETER num_ctx 131072


در نهایت بعد از ذخیره فایل باید مدل رو از روی model card بسازید.

ollama create llama3.1-128k -f llama3.1-128k-conf.txt


بعد از این می‌تونید طبق معمول از مدل استفاده کنید.

توجه کنید با اینکار حتی مدل 8k, 4bit هم به بیش از 36GB gpu vram نیاز خواهد داشت؛ اما شما می‌تونید از همین تکنیک استفاده کنید و context size رو روی هر عددی بذارید کوچکتر از 8k ( اگر gpu کمتری دارید و سوالاتتون نیاز به context نداره ) یا بزرگتر فقط توجه کنید که مدل اون میزان context رو پیشتیبانی کنه.

نکته آخر:
توجه داشته باشید که تعداد توکن تولید شده توسط مدل هم جزوی از حجم context در نظر گرفته میشه.
یعنی اگر شما max token رو برای تولید روی 1024 بذارید فقط 7k برای context فضا خواهید داشت و ...
👍267
دستاوردهای یادگیری عمیق(InTec)
پروژه ollama؛ یکی از اون پروژه‌های جذاب هست برای تست مدل‌ها و ... قبل از اینکه بخواهید وقت برای آماده سازی مدل روی پروداکشن بذارید. البته همینجا اشاره کنم؛ مشکلات خیلی زیادی هم داره. یکی از مشکلاتش حجم context-size هست؛ یعنی شما یک مدل 128k رو بهش میدی ولی…
این رو هم یکی از دوستان توی گروه @DevChaiChat گفتند پست بذارم.

موضوع اینه که ollama بصورت دیفالت همه چیز رو داخل / دانلود و نگهداری می‌کنه که اگر مثل من چندتا هارد داشته باشید قطعاً نمی‌خواید فضای SSD, NVME برای نگهداری مدل صرف بشه.

از طرفی آموزشی هم که خودشون گذاشتند درست نیست و جواب نمیده.

اگر نیاز داشتید،

https://github.com/ollama/ollama/issues/4732

آخر این issue یک آموزش نوشتم، برای Rocky
ولی احتمالاً با کمی تغییر برای Ubuntu و ... هم کار می‌کنه.


اگر فکر می‌کنید نیاز به آموزش فارسی داره بگید.
اگر هم سوالی پیش اومد، توی گروهی که بالا گذاشتم بپرسید.

لینک راه‌حل :
اگر حال خوندن بحث‌های داخل issue رو ندارید.

https://github.com/ollama/ollama/issues/4732#issuecomment-2198036140
👍147
دستاوردهای یادگیری عمیق(InTec)
این رو هم یکی از دوستان توی گروه @DevChaiChat گفتند پست بذارم. موضوع اینه که ollama بصورت دیفالت همه چیز رو داخل / دانلود و نگهداری می‌کنه که اگر مثل من چندتا هارد داشته باشید قطعاً نمی‌خواید فضای SSD, NVME برای نگهداری مدل صرف بشه. از طرفی آموزشی هم که…
در همین راستا و مشکلات ollama اگر شما هم از multi-gpu استفاده می‌کنید؛ شاید بخواید که ollama رو روی یک gpu اجرا کنید برای اینکه کل تیم به AI دسترسی داشته باشند و باقی GPU هارو برای پردازش و ترین مدل و ... بذارید.

اگر همچین نیتی داشتید می‌تونید از این gist که گذاشتم استفاده کنید.

اینم خیلی قبلتر نوشته بودم ولی خب.

Ollama Auto Switch GPU

اگر سوالی بود بپرسید؛ و دارم به این نتیجه میرسم خیلی از مواردی که فکر می‌کنم سخت نیست یا آدمای زیادی دنبالش شاید نباشند دقیقا مواردی هست که ممکن هست خیلی‌ها نیاز داشته باشند.
و اگر اینطوری باشه شاید بهتره که خیلی از اسکریپت‌ها و ... که نوشتم رو به اشتراک بذارم 🧐
👍2610
2025/07/08 22:01:10
Back to Top
HTML Embed Code: