دستاوردهای یادگیری عمیق(InTec) 1527

آیدین عزیز اطلاع داد که تیم groq هم مدل رو برای تست اضافه کرد.
خب پس دلیل لیک شدن آمارهای روز قبل هم مشخص شد
تمامی تیم‌‌ها زودتر دسترسی گرفتند که امروز به راحتی ورژن‌های مختلف رو منتشر کنند.

👍11

2.74K views19:27

دستاوردهای یادگیری عمیق(InTec)

عملکرد واقعا بهبود پیدا کرده؛ چند نمونه از سوالات مربوطه که توی هیستوری چت‌های قبلیم روی سیستم داشتم رو بهش دادم و نتایج واقعا بهتر شده و من فقط راجب مدل ۸ میلیاردی دارم صحبت می‌کنم

ترکیب برنده :

route-llm + Llama3.1 + groq api

با ۱/۱۰ هزینه openai کارهاتون رو راه بندازید.

context length = 128K by default
License update - important for companies

نکته مهم خیلی از سوالات رو zero-shot جواب میده که خیلی مهم هست این یعنی اگر پرامپت درست دادن رو بلد باشید

دقیقا با سوال اول جواب کامل رو میگیرید
واقعا برگام

👍21❤8

3.13K views19:46

دستاوردهای یادگیری عمیق(InTec)

تنها چیزی که ای‌کاش داشت؛ مدل سایز متوسط هست چیزی بین 8 - 70 میلیاردی مثلا ۲۷-۳۰ میلیارد پارامتر میزان نرمال و مشهوری هست که روی GPU های خونگی به راحتی میشه نسخه QUANTIZE شده رو اجرا کرد.

خوبی مدل‌های شرکت‌های چینی این هست که اکثرا از ۱.۲ میلیارد پارامتری تا ۷۲ میلیارد پارامتری منتشر می‌کنند. بیش از ۷ مدل معمولا

نکته دیگه‌ای که باید اضافه کنم با توجه به توضیحاتی که نوشته شده توی خیلی از بلاگ پست‌ها نوشتند که cutoff هست و ۹۰٪ مواقع این یعنی ترین ادامه خواهد داشت و در ماه‌های آینده شاید شاهد مدل قویتری به اسم llama3.2 هم باشیم

این حرکت openai و انتشار مدل 4o-mini خیلی خیلی به موقع بود ولی آیا نجات دهنده هم هست ؟

👍19❤2

3.21K viewsedited 19:58

دستاوردهای یادگیری عمیق(InTec)

📱

🦀🦀🦀

💬

برای آخرین تست یک سورس کد مربوط به Rust دارم توی این مدتی که داشتم یاد میگرفتم کد زدم

هیچکدوم از مدل‌های قبلی نتونستند درستش کنند ( مخصوصا چون دیتای Rust بسیار کمتر هست نسبت به باقی زبان‌ها)
به غیر از Gpt4o که بعد از ۵ مورد ارسال خطای کامپایلر این کار رو کرد.

حتما باید بعد از تست‌های فعلیم؛ این کد رو تست کنم اگر مدل ۸ میلیارد پارامتری حتی بتونه مشکل رو توی پرامپت اول به درستی تشخیص بده

اجازه میدم default assistant ام باشه توی توسعه کدها و این trophy رو شخصا بهش میدم 😄

🏆

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19❤5

3.06K views20:23

دستاوردهای یادگیری عمیق(InTec)

📱

🦀🦀🦀💬 برای آخرین تست یک سورس کد مربوط به Rust دارم توی این مدتی که داشتم یاد میگرفتم کد زدم هیچکدوم از مدل‌های قبلی نتونستند درستش کنند ( مخصوصا چون دیتای Rust بسیار کمتر هست نسبت به باقی زبان‌ها) به غیر از Gpt4o که بعد از ۵ مورد ارسال خطای کامپایلر این…

توضیحات مدل :
The error is because &'static str has a static lifetime, which means the string must be valid at compile time. However, when you return an error, you're trying to store a string that's owned by myfunc and will go out of scope as soon as that function returns.
و راه حلش :
You can fix this by changing return Err(&'static ex) to return Err(ex.into_string().as_str()). This will create a new string from the error message using into_string() and then return it with a lifetime that's tied to the current function, which is what you want.

توضیحات دقیق و درست هست و اگر شبی که کد رو داشتم می‌نوشتم این توضیحات رو داشتم قطعا درجا درستش می‌کردم.
اما
چون ازش خواستم که کد کامل رو بهم برگردونه؛ توی این مرحله fail کرد؛ کد رو نوشت و بخشی که توضیح داده بود رو هم درست کرد ولی باقی بخش‌های وابسته کد رو اینکارو نکرد.

ولی با همه اینها GPT4o بعد از ۵ بار فرستادن ارورهای کامپایل خروجی بهم داد و این مدل فقط بعد از ۲ بار فرستادن ارورها.
نکته مهمتر توضیحات خیلی دقیق و درستی می‌داد که این بیشتر باعث تعجب من شده.

و من فقط دارم از Llama3.1 8b quantize 4 استفاده می‌کنم برای اینکار.

بنظرم لایق trophy هست. 🏆

👍20❤10

6.25K viewsedited 21:41

دستاوردهای یادگیری عمیق(InTec)

قیمت‌ها

دیگه کی chatgpt می‌خره

👍22❤5

3.93K viewsedited 08:27

دستاوردهای یادگیری عمیق(InTec)

چه خبره دنیای opensource ؛
mistral large 2
منتشر شده. البته فقط برای non-commercial
و خبر از زدن بنچمارک های llama3 405b هست (البته برای تسک‌های اصلی گزارش شده)

من تازه داشتم سیستم رو آماده میکردم برای تست مدل 70 میلیاردی llama3.1

نکته بعدی این مدل mistral large 2 منظورم هست؛ فقط و فقط 123b پارامتر داره.

https://huggingface.co/mistralai/Mistral-Large-Instruct-2407

context window: 128k
better for: coding, math and reasoning

خب معلوم شد ۲ تا مدل سبکتر هفته قبل از کجا اومد.

huggingface.co

mistralai/Mistral-Large-Instruct-2407 · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍11❤5

4.13K viewsedited 20:35

دستاوردهای یادگیری عمیق(InTec)

همزمان

Mistral Nemo

هم برای consumer منتشر شده (همکاری بین nvidia, mistral) بازم context len: 128K رو شاهد هستیم و مثل مدل بزرگتر این مدل هم تخصصی برای کد و ریاضیات و استنتاج هست.

اطلاعات خاصی ازش ندیدم بیش از این و توی خبرها تقریبا گم شده بود.
بنچمارکی هم که ازش منتشر شده مقایسه با llama3, gemma2 هست که از هر دو این موارد دقت بهتری داره ولی توجه کنید حداقل ۳ میلیارد پرامتر هم بیشتر داره چون 12B پارارمتری هست.

اما با توجه به گزارش‌های داده شده؛ فکر نمی‌کنم در برابر llama3.1 شانسی داشته باشه؛ هرچند مدل‌های مناسب برای ساخت multi-agent بنظرم لیستش در اومد.

Mistral Nemo 12B
Gemma2 9B
qwen2 8B
supervised by : llama3.1

مواردی که توی بلاگ دیدم؛ ولی از همش مطمئن نیستم :
۱- معرفی توکنایزر جدید به اسم Tekken که خب با توجه به توضیحات توکنایزر قویتری بنظر میاد و حدود ۳۰٪ کامپرشن بیشتر ارائه میده.
۲- هزینه $0.3 برای هر 1 میلیون توکن ورودی و خروجی

پ.ن: اصلاح میکنم این مدل ۷ روز قبل منتشر شده.

👍13❤5

4.7K viewsedited 22:34

دستاوردهای یادگیری عمیق(InTec)

انقدر اخبار مدل پشت مدل منتشر شد
نه فقط LLM بلکه VLM , … هم منظورم هست

که بطور کل
Deepmind’s Alpha Proof

فراموش شد؛ سوالات در حد المپیک رو بهش دادند و تونسته مدال نقره بگیره (بسیار نزدیک به طلا) و در نهایت توانایی اثبات و بهبود هم داره

👍27❤6

4.54K views11:48

دستاوردهای یادگیری عمیق(InTec)

پروژه ollama؛ یکی از اون پروژه‌های جذاب هست برای تست مدل‌ها و ... قبل از اینکه بخواهید وقت برای آماده سازی مدل روی پروداکشن بذارید.

البته همینجا اشاره کنم؛ مشکلات خیلی زیادی هم داره.

یکی از مشکلاتش حجم context-size هست؛ یعنی شما یک مدل 128k رو بهش میدی ولی بدون اینکه اطلاعاتی گذاشته باشند راجبش مدل رو روی 2k برای context-size لود می‌کنه (این اواخر 8k شده که بازم کافی نیست)

این تصمیم از طرف تیم ollama تصمیم درستی هست با توجه به اینکه افزایش context size نیاز به GPU vRAM بیشتری داره و اکثر کاربرهای ollama برای استفاده شخصی ازش استفاده می‌کنند اما مسئله این هست که توی سایت مدل رو میزنه 128k و بدون اینکه توضیحی بده توی تنظیمات از 8k یا 2k استفاده می‌کنه.

خیلی وقت بود پست آموزشی نذاشته بودم امروز تصمیم گرفتم اینکار رو آموزش بدم؛ به ساده‌ترین روش ممکن.
مسئله اینه که اگر از طریق API call یخواید context length رو افزایش بدید هیچکار خاصی نمی‌کنه و نتیجه مورد نظر رو نمی‌گیرید و تنها راهکار ساخت یک ModelCard و مدل جدید هست؛ من آموزش رو روی llama3.1 ادامه میدم چون مدل مورد علاقه‌ام در حال حاضر هست.

قدم اول: مدل اصلی رو از ollama دانلود کنید

ollama pull llama3.1

که مدل 8 میلیاردی با Q4 رو براتون دانلود می‌کنه.

قدم بعدی: model card رو از مدل استخراج کنید و توی ی فایل ذخیره کنید

ollama show llama3.1 —modelfile > llama3.1-128k-conf.txt

حالا بدون دردسر این کانفیگ رو آپیدت کنید:
اول از همه خط مربوط به FROM رو آپدیت کنید که بجای خوندن از local آپدیت بودنش رو با سایت ollama بررسی کنه
نگران نباشید این قدم نیازی به دانلود مجدد نخواهد داشت.

FROM llama3.1:latest

کاری به تمپلیت نداریم؛ اما بعد از تمپلیت و قبل از شرح لایسنس جایی هست که می‌تونید پارامترها رو اضافه کنید که من اون رو روی 128k میزارم (توجه کنید که مضرب ۲ هست و به اصطلاح ۱۲۸ گفته میشه)

PARAMETER num_ctx 131072

در نهایت بعد از ذخیره فایل باید مدل رو از روی model card بسازید.

ollama create llama3.1-128k -f llama3.1-128k-conf.txt

بعد از این می‌تونید طبق معمول از مدل استفاده کنید.

توجه کنید با اینکار حتی مدل 8k, 4bit هم به بیش از 36GB gpu vram نیاز خواهد داشت؛ اما شما می‌تونید از همین تکنیک استفاده کنید و context size رو روی هر عددی بذارید کوچکتر از 8k ( اگر gpu کمتری دارید و سوالاتتون نیاز به context نداره ) یا بزرگتر فقط توجه کنید که مدل اون میزان context رو پیشتیبانی کنه.

نکته آخر:
توجه داشته باشید که تعداد توکن تولید شده توسط مدل هم جزوی از حجم context در نظر گرفته میشه.
یعنی اگر شما max token رو برای تولید روی 1024 بذارید فقط 7k برای context فضا خواهید داشت و ...

👍26❤7

4.52K views14:01

دستاوردهای یادگیری عمیق(InTec)

باز هم از Meta معرفی نسخه دوم Segment Anything یا همون SAM2 با نتایج خیره کننده روی عکس و ویدئو

https://go.fb.me/edcjv9

Meta AI

Update: Expanding access to Meta Segment Anything 2.1 on Amazon SageMaker JumpStart

Starting today, SAM 2.1 is available in Amazon SageMaker JumpStart, making it easier than ever to deploy SAM 2.1 and integrate it into new applications and workflows.

❤17👍5

3.61K views23:09

دستاوردهای یادگیری عمیق(InTec)

پروژه ollama؛ یکی از اون پروژه‌های جذاب هست برای تست مدل‌ها و ... قبل از اینکه بخواهید وقت برای آماده سازی مدل روی پروداکشن بذارید. البته همینجا اشاره کنم؛ مشکلات خیلی زیادی هم داره. یکی از مشکلاتش حجم context-size هست؛ یعنی شما یک مدل 128k رو بهش میدی ولی…

این رو هم یکی از دوستان توی گروه @DevChaiChat گفتند پست بذارم.

موضوع اینه که ollama بصورت دیفالت همه چیز رو داخل / دانلود و نگهداری می‌کنه که اگر مثل من چندتا هارد داشته باشید قطعاً نمی‌خواید فضای SSD, NVME برای نگهداری مدل صرف بشه.

از طرفی آموزشی هم که خودشون گذاشتند درست نیست و جواب نمیده.

اگر نیاز داشتید،

https://github.com/ollama/ollama/issues/4732

آخر این issue یک آموزش نوشتم، برای Rocky
ولی احتمالاً با کمی تغییر برای Ubuntu و ... هم کار می‌کنه.

اگر فکر می‌کنید نیاز به آموزش فارسی داره بگید.
اگر هم سوالی پیش اومد، توی گروهی که بالا گذاشتم بپرسید.

لینک راه‌حل :
اگر حال خوندن بحث‌های داخل issue رو ندارید.

https://github.com/ollama/ollama/issues/4732#issuecomment-2198036140

GitHub

Unable to Change Ollama Models Directory on Linux (Rocky 9) · Issue #4732 · ollama/ollama

What is the issue? I am following every instruction on the documentation and any other suggestions from previous issues. However, I am unable to change the Ollama models directory to another direct...

👍14❤7

3.75K viewsedited 07:34

دستاوردهای یادگیری عمیق(InTec)

این رو هم یکی از دوستان توی گروه @DevChaiChat گفتند پست بذارم. موضوع اینه که ollama بصورت دیفالت همه چیز رو داخل / دانلود و نگهداری می‌کنه که اگر مثل من چندتا هارد داشته باشید قطعاً نمی‌خواید فضای SSD, NVME برای نگهداری مدل صرف بشه. از طرفی آموزشی هم که…

در همین راستا و مشکلات ollama اگر شما هم از multi-gpu استفاده می‌کنید؛ شاید بخواید که ollama رو روی یک gpu اجرا کنید برای اینکه کل تیم به AI دسترسی داشته باشند و باقی GPU هارو برای پردازش و ترین مدل و ... بذارید.

اگر همچین نیتی داشتید می‌تونید از این gist که گذاشتم استفاده کنید.

اینم خیلی قبلتر نوشته بودم ولی خب.

Ollama Auto Switch GPU

اگر سوالی بود بپرسید؛ و دارم به این نتیجه میرسم خیلی از مواردی که فکر می‌کنم سخت نیست یا آدمای زیادی دنبالش شاید نباشند دقیقا مواردی هست که ممکن هست خیلی‌ها نیاز داشته باشند.
و اگر اینطوری باشه شاید بهتره که خیلی از اسکریپت‌ها و ... که نوشتم رو به اشتراک بذارم 🧐

Gist

Run ollama on specific GPU(s)

Run ollama on specific GPU(s). GitHub Gist: instantly share code, notes, and snippets.

👍26❤10

3.56K views16:29

2025/07/08 22:01:10
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>