اولین مورد توی عکس رو ببینید و با ردیف 50 مقایسه کنید.
این مدل به تازگی منتشر شد، دقت کنید اطراف این مدل نتایج بهتری از مدلهای ۷، ۱۴ و حتی ۳۲ میلیاردی چندماه قبل داره. اهمیت دیتا
پ.ن : خودم هنوز باورم نمیشه
با این وضعیت فکر کنید مدل ۹ میلیاردی و ۲۷ میلیاردی آپدیت جدید بگیره
مورد دوم :
۱۳ روز دیگه معرفی
ممکن هست این مدل، مدل اصلی روی گوشیهای
یک سری آدم نشستن؛ همین حالا مدل رو روی
زیر ۲۸ توکن بر ثانیه حوصله سربر میشه برای یوزر
توی تست های خودمم روی
Gemma 2 2B > ChatGpt 3.5 Turbo
این مدل به تازگی منتشر شد، دقت کنید اطراف این مدل نتایج بهتری از مدلهای ۷، ۱۴ و حتی ۳۲ میلیاردی چندماه قبل داره. اهمیت دیتا
پ.ن : خودم هنوز باورم نمیشه
با این وضعیت فکر کنید مدل ۹ میلیاردی و ۲۷ میلیاردی آپدیت جدید بگیره
مورد دوم :
۱۳ روز دیگه معرفی
Pixel 9 Pro
هست و چون این مدل برای On-device
هم مناسب سازی شده ممکن هست این مدل، مدل اصلی روی گوشیهای
Google
باشهیک سری آدم نشستن؛ همین حالا مدل رو روی
linux tablet
ها اجرا کردن؛ با توجه به اینکه فعلا فقط CPU
هست تقریبا حدود ۸-۱۲ توکن بر ثانیه خروجی میده.زیر ۲۸ توکن بر ثانیه حوصله سربر میشه برای یوزر
توی تست های خودمم روی
GPU
زیر ۲ ثانیه مدل load
میشه Q4
سرعتی هم که نیازی به توضیح نداره.
دستاوردهای یادگیری عمیق(InTec)
اولین مورد توی عکس رو ببینید و با ردیف 50 مقایسه کنید. Gemma 2 2B > ChatGpt 3.5 Turbo این مدل به تازگی منتشر شد، دقت کنید اطراف این مدل نتایج بهتری از مدلهای ۷، ۱۴ و حتی ۳۲ میلیاردی چندماه قبل داره. اهمیت دیتا پ.ن : خودم هنوز باورم نمیشه با این وضعیت…
اینو باید حتما توی یک پست جدا میگفتم.
باورم نمیشه اما این مدل فارسی رو هم به خوبی جواب میده؛ به خدا از مدلهای شرکتهای ایرانی بهتره فارسی صحبت کردنش.
توجه دارید دیگه این مدل فقط ۲ میلیارد پارامتر داره؛ من ازش توقع
پ.ن : برای پروداکشن
باورم نمیشه اما این مدل فارسی رو هم به خوبی جواب میده؛ به خدا از مدلهای شرکتهای ایرانی بهتره فارسی صحبت کردنش.
توجه دارید دیگه این مدل فقط ۲ میلیارد پارامتر داره؛ من ازش توقع
knowledge
دقیق ندارم و برام مهم فهمیدن گرامر و ... هست.پ.ن : برای پروداکشن
ShieldGemma = Meta Guard
و Gemma Scope
رو حتما بخونید.برای دوستانی که اطلاع نداشتند به کمک پروژه
mlc-llm github
شما میتونید این مدل رو روی گوشی هم داشته باشید (البته احتمالا ۱-۲ روز طول میکشه تا لیست بشه ولی خب)
mlc-llm github
شما میتونید این مدل رو روی گوشی هم داشته باشید (البته احتمالا ۱-۲ روز طول میکشه تا لیست بشه ولی خب)
GitHub
GitHub - mlc-ai/mlc-llm: Universal LLM Deployment Engine with ML Compilation
Universal LLM Deployment Engine with ML Compilation - mlc-ai/mlc-llm
دستاوردهای یادگیری عمیق(InTec)
طبق بلاگها و صحبتهایی که شده سرعت Moshi توی قسمتهای مهمی مدیون Rust هست. یکی از مهمترین ابزارهایی که ما هم داریم استفاده میکنیم برای دپلوی مدلها huggingface Candle که روی Rust نوشته شده و headless ml framework هست. قطعا توی همین جملات برای آنان…
medusa whisper
رو ببینید، اگر میخواهید نسخه لوکال
whisper
با سرعت بالاتر رو داشته باشیدبدرد چی میخوره ؟
شما کد رو بگی، ایشون تایپ کنه
وصلش کنید به gemma2:2b که چیزایی مثل
Go to next line, insert tab, ...
رو بفهمه
یا حتی اگر حال دارید ی agent اولش بندازید که
whisper
بره description
شمارو تایپ کنه و کد اولیه رو بگیره بعد کمی ادیت و ... و insert into vscode
فکر میکنم ۱ سالی هست که روی Rocky Linux 9 جابجا شدم؛ گفتم چرا اوبنتو بدترین گزینه برای استفاده روی سیستم اصلی هست (مخصوصا برای برنامهنویس جماعت)
اما همونطور که خالق لینوکس گفت :
تعداد شیرینکاری های انویدیا حتی رو توزیع مطمئنی مثل
شخصا برای حل این مشکل متغییرهای بالا رو روی
و به انتهای
گفتم شاید بدرد شما هم بخوره (کار خیلی از بچههارو راه انداخت)
البته همیشه اول خودتون
اما همونطور که خالق لینوکس گفت :
F...ck you nvidia
تعداد شیرینکاری های انویدیا حتی رو توزیع مطمئنی مثل
Rocky
هم کم نیست مثلا توی ورژنهای اخیر cuda, driver
نمیتونید به درستی سیستم رو sleep کنید و مشکل هم nvidia
هست.mem_sleep_default=deep acpi_sleep=nonvs rd.driver.blacklist=nouveau modprobe.blacklist=nouveau nvidia-drm.modeset=1 nvidia-drm.fbdev=0
شخصا برای حل این مشکل متغییرهای بالا رو روی
/etc/default/grub
و به انتهای
GRUB_CMDLINE_LINUX
اضافه میکنم. به عمد به default
میزنم که توی کرنل آپدیت و ... همیشه پاک بشه تا بدون اینکه فراموش کنم چک کنم ببینم راهکاری براش اومده یا خیر.گفتم شاید بدرد شما هم بخوره (کار خیلی از بچههارو راه انداخت)
البته همیشه اول خودتون
journalctl, dmesg, ...
رو چک کنید بعد سراغ این راهکار برید.
دستاوردهای یادگیری عمیق(InTec)
پروژه ollama؛ یکی از اون پروژههای جذاب هست برای تست مدلها و ... قبل از اینکه بخواهید وقت برای آماده سازی مدل روی پروداکشن بذارید. البته همینجا اشاره کنم؛ مشکلات خیلی زیادی هم داره. یکی از مشکلاتش حجم context-size هست؛ یعنی شما یک مدل 128k رو بهش میدی ولی…
آپدیت جدیدی برای
توی
توی این آپدیت تا اینجا که این مشکلات بنظر میرسه رفع شده باشه.
نکته: تمامی نسخهها آپدیت شده.
llama3.1
روی ollama
اومده (چند ساعت قبل) که نتایج خیلی بهتری داره.توی
release
اول ollama
نسخه 4bit-8bit quantize
اش بسیار با نسخههای دیگری که توسط گروهای دیگه منتشر شده بود اختلاف داشت (توی خیلی بخشها بدتر بود)توی این آپدیت تا اینجا که این مشکلات بنظر میرسه رفع شده باشه.
نکته: تمامی نسخهها آپدیت شده.
خیلی جالبه تا وقتی
روی
هست (پروژه معروف به
اما بعد توییت ایلان ماسک و وقتی مشخص شد، نسخه بتا
خواستم بگم حواستون باشه، تجربه نشون داده خیلی وقتا شرکتها مدلهای خیلی سادهتر و طبق بنچمارک و حرف و ... بدتر رو روی پروداکشن دارند درحالی که باقی فکر میکنند فقط یک
روی
فقط جهت اطلاع :
روی یکی از پروژههای مهم خودم،
رو استفاده میکنیم.
sus-colum-r
روی
lmsys
رو کسی نمیدونست چه مدلی هست همه ازش تعریف میکردند و میگفتند نسل بعدی ChatGpt
هست (پروژه معروف به
strawberry
) اما بعد توییت ایلان ماسک و وقتی مشخص شد، نسخه بتا
Grok-2
هست، حالا خیلی از همون افراد میگن اصلا خوب نیست و ...خواستم بگم حواستون باشه، تجربه نشون داده خیلی وقتا شرکتها مدلهای خیلی سادهتر و طبق بنچمارک و حرف و ... بدتر رو روی پروداکشن دارند درحالی که باقی فکر میکنند فقط یک
Api wrapper
روی
chatGpt
هست.فقط جهت اطلاع :
روی یکی از پروژههای مهم خودم،
Gemma2:2b
رو داریم و باقی تیمها فکر میکنند Llama3.1:403b
رو استفاده میکنیم.
Forwarded from Python Hints
یاد بگیریم :
۱- وقتی تو گروهی میخوایم پیام بذاریم، بریده بریده پیام ندیم که افرادی که نوتیف رو فعال دارند سر درد نگیرند.
۲- سوالات رو کامل و دقیق توی پیام اول بپرسید.
اگر لازم هست، به سیستمعامل، ورژن ابزار و ... همگی اشاره شود
۳- قوانین گروه رو بخونید، تلگرام قابلیت سرچ کردن داره
۴- بنر گروه رو بخونید.
اگر این موارد رو رعایت نکردید و بن شدید، مشکل از شماست نه ادمین اون گروه، شما نحوه مشارکت در یک جمع رو بلد نیستید و برای وقت دیگران ارزش قائل نشدید.
۱- وقتی تو گروهی میخوایم پیام بذاریم، بریده بریده پیام ندیم که افرادی که نوتیف رو فعال دارند سر درد نگیرند.
۲- سوالات رو کامل و دقیق توی پیام اول بپرسید.
اگر لازم هست، به سیستمعامل، ورژن ابزار و ... همگی اشاره شود
۳- قوانین گروه رو بخونید، تلگرام قابلیت سرچ کردن داره
۴- بنر گروه رو بخونید.
اگر این موارد رو رعایت نکردید و بن شدید، مشکل از شماست نه ادمین اون گروه، شما نحوه مشارکت در یک جمع رو بلد نیستید و برای وقت دیگران ارزش قائل نشدید.
دستاوردهای یادگیری عمیق(InTec)
در همین راستا و مشکلات ollama اگر شما هم از multi-gpu استفاده میکنید؛ شاید بخواید که ollama رو روی یک gpu اجرا کنید برای اینکه کل تیم به AI دسترسی داشته باشند و باقی GPU هارو برای پردازش و ترین مدل و ... بذارید. اگر همچین نیتی داشتید میتونید از این gist…
امروز دیدم یکی از شرکتهایی که مشاور هستم توی تست مدل مونده
نمیتونه مدل رو از روی
بدتر از اون
نمیدونم اوضاع چطوری هست ولی اگر فکر میکنید نیاز هست آموزش بدم؛
مثل همون قضیه افزایش
اگر
نمیتونه مدل رو از روی
HF
ببره روی Ollama
برای تست شدن توسط نیروهاش و ...بدتر از اون
Quantize
کردنش رو هم بلد نبود.نمیدونم اوضاع چطوری هست ولی اگر فکر میکنید نیاز هست آموزش بدم؛
مثل همون قضیه افزایش
Context length
هست که قبلا آموزش دادم روی Ollama
اگر
reaction
لایک بیشتر از پست قبلی شد؛ آموزشش رو مینویسم میذارم اگر نشد که هیچی.Forwarded from Python Hints
من رو با اینکه تبلیغ دارید و تبلیغ میکنید و ... زخم کردند! (از 1.200.000 پیام، بله میلیونی شدیم. بیش از ۵ هزار مورد مربوط به این موضوع هست).
آره تبلیغ داریم،
شب ساعت ۱۱ تا ۱۰ صبح ۳۰ میلیون تومان ...
عمرا دیگه کسی درخواست تعرفه تبلیغ نمیده
ولی اگر داد؛
تمام مبلغ خرج کمک به آموزش چندتا نوجوان ٫ جوان برای برنامهنویسی خواهد شد.
یک سری یادگرفتند نیاز به لپتاپ دارند.
یک سری هم برای شرکت در کلاس، نیاز به کمک هزینه دارند تا بتونند جبران ساعتهای کار نکردن رو بکنند.
لزوماً هم کمک به برنامهنویسی نخواهد بود، ممکنه کمک برای درس خواندن و ... این افراد بشه.
اما ۱۵ نفر از این بچهها که برنامهنویسی رو یادگرفتن یا درحال یادگیری هستند (یکی از دوستان بنده به رایگان بهشون آموزش میده و این دوره دوم هست) سریعاً به ذهنم اومد.
در نهایت:
پایین تمامی تبلیغات ذکر خواهد شد که موضوع توسط بنده هیچ تأییدی نداره.
عصبی شدم؛ طرف زحمت نمیده پیامهای پین شده رو بخونه
آره تبلیغ داریم،
شب ساعت ۱۱ تا ۱۰ صبح ۳۰ میلیون تومان ...
عمرا دیگه کسی درخواست تعرفه تبلیغ نمیده
ولی اگر داد؛
تمام مبلغ خرج کمک به آموزش چندتا نوجوان ٫ جوان برای برنامهنویسی خواهد شد.
یک سری یادگرفتند نیاز به لپتاپ دارند.
یک سری هم برای شرکت در کلاس، نیاز به کمک هزینه دارند تا بتونند جبران ساعتهای کار نکردن رو بکنند.
لزوماً هم کمک به برنامهنویسی نخواهد بود، ممکنه کمک برای درس خواندن و ... این افراد بشه.
اما ۱۵ نفر از این بچهها که برنامهنویسی رو یادگرفتن یا درحال یادگیری هستند (یکی از دوستان بنده به رایگان بهشون آموزش میده و این دوره دوم هست) سریعاً به ذهنم اومد.
در نهایت:
پایین تمامی تبلیغات ذکر خواهد شد که موضوع توسط بنده هیچ تأییدی نداره.
عصبی شدم؛ طرف زحمت نمیده پیامهای پین شده رو بخونه
دستاوردهای یادگیری عمیق(InTec)
امروز دیدم یکی از شرکتهایی که مشاور هستم توی تست مدل مونده نمیتونه مدل رو از روی HF ببره روی Ollama برای تست شدن توسط نیروهاش و ... بدتر از اون Quantize کردنش رو هم بلد نبود. نمیدونم اوضاع چطوری هست ولی اگر فکر میکنید نیاز هست آموزش بدم؛ مثل همون قضیه…
فردا بعد از جلسه لایو حتماً این موضوع رو خواهم نوشت.
متأسفانه دیروز به دلیل قطعی طولانی مدت برق وقت نکردم
عذرخواهی میکنم.
متأسفانه دیروز به دلیل قطعی طولانی مدت برق وقت نکردم
عذرخواهی میکنم.
دستاوردهای یادگیری عمیق(InTec)
فردا بعد از جلسه لایو حتماً این موضوع رو خواهم نوشت. متأسفانه دیروز به دلیل قطعی طولانی مدت برق وقت نکردم عذرخواهی میکنم.
بعد از سر و کله زدن با مشکلات برق و اینترنت و ...
بالاخره آموزش آماده شد؛
متن رو فردا توی کانال خواهم نوشت.
اگر دوست داشتید بگید که نحوه استفاده از مدلها روی
بالاخره آموزش آماده شد؛
متن رو فردا توی کانال خواهم نوشت.
اگر دوست داشتید بگید که نحوه استفاده از مدلها روی
android
رو هم توضیح بدم.
دستاوردهای یادگیری عمیق(InTec)
امروز دیدم یکی از شرکتهایی که مشاور هستم توی تست مدل مونده نمیتونه مدل رو از روی HF ببره روی Ollama برای تست شدن توسط نیروهاش و ... بدتر از اون Quantize کردنش رو هم بلد نبود. نمیدونم اوضاع چطوری هست ولی اگر فکر میکنید نیاز هست آموزش بدم؛ مثل همون قضیه…
این روش برای اکثر مدلهای با پسوند
وقتی یک مدلی به تازگی منتشر میشه یا روی مدلهایی که برای تسک خاص؛ زبان خاص هستند ممکن هست اون مدل رو روی
برای همین توانایی تبدیل و سرو مدلهای مختلف به فرمت
من توی این پست سعی کردم به راحتترین روش اشاره کنم و در نهایت مسیر سخت رو هم بهش اشاره خواهم کرد برای دوستانی که علاقه دارند خودشون پیگیری کنند.
وقتی یک مدل جدید منتشر میشه اول از همه شما باید به معماری اون تگاه کنید؛ توی فایل
برای مثال آموزشی من با یک مدل حجم کم شروع خواهم کرد که همه بتونند تست و تمرین کنند؛ مدل
توی اولین قدم شما باید؛ مدل بالا یا هرمدلی که دلتون میخواد (مطمئن بشید معماری بیس مدل پشتیبانی میشه) رو روی هارد خودتون ذخیره کنید (با استفاده از هر تکنیکی که علاقه دارید.)
بعد از اون مثل آموزش افزایش طول
توی
که به
که به
اگر مدلی به پرامپت تمپلیت اشاره نکرد؛ به احتمال ۹۰٪ از فرمت بالا استفاده میکنه.
همین ۲ تا بخش برای ساخت مدل کفایت میکنه؛ اما امکان داره بعضی وقتها بخواید بصورت دیفالت یکسری از پارامترها رو ست کنید مثل
یا حتی بعضی وقتا بخشی از توکنهای تمپلیت توی خروجی به شما نشون داده بشه که با
بعد از اینکه فایل ساخته شد؛ ترمینال رو توی همون پوشه باز کنید؛ اگر خواستید مدل رو بدون
رو میزنید و بجای
برای
انواع
در نهایت هم میتونید از دستور
برای اجرای مدل استفاده کنید و در صورت که علاقه داشتید مدل رو روی سایت
.safetensor
کار میکنهوقتی یک مدلی به تازگی منتشر میشه یا روی مدلهایی که برای تسک خاص؛ زبان خاص هستند ممکن هست اون مدل رو روی
Ollama
نداشته باشید و بدون تعارف Ollama
یکی از راحتترین گزینههای برای تجربه و تست مدلها هست.برای همین توانایی تبدیل و سرو مدلهای مختلف به فرمت
Ollama
بسیار گزینه مهمی هست؛ بعنوان مثال اگر در خاطرتون باشه موقع انتشار llama3
به دلیل اشتباه در نحوه تبدیل این مدل خروجیهای اشتباهی هم از Ollama
دریافت میشد و آپدیت این مورد حدودا ۳ روز زبان برد (روی توییتر بسیاری از اکانتها به تیم ollama
توییت زدند.)من توی این پست سعی کردم به راحتترین روش اشاره کنم و در نهایت مسیر سخت رو هم بهش اشاره خواهم کرد برای دوستانی که علاقه دارند خودشون پیگیری کنند.
وقتی یک مدل جدید منتشر میشه اول از همه شما باید به معماری اون تگاه کنید؛ توی فایل
config.json
یا توی توضیحات huggingface
همیشه به این موضوع اشاره میشه که یک مدل بر پایه چه مدل یا مدلهایی توسعه داده شده؛ اگر پایه مدل llama, mistral, gemma, ...
حتما توسط این تکنیک پشتیبانی میشه (از همون ساعت انتشار مدل) اما اگر معماری مدل بر پایه این مدلها نباشه؛ اول باید توسط تیم llama.cpp
پشتیبانی بشه و بعد تیم ollama
پشتیبانی رو اضافه خواهد کرد؛ پس یک تکنیک پیشرفته تر برای تبدیل مدلها استفاده از llama.cpp
هست که توی این پست بهش نخواهم پرداخت.برای مثال آموزشی من با یک مدل حجم کم شروع خواهم کرد که همه بتونند تست و تمرین کنند؛ مدل
HuggingFaceTB/SmolLM-135M-Instruct
توی اولین قدم شما باید؛ مدل بالا یا هرمدلی که دلتون میخواد (مطمئن بشید معماری بیس مدل پشتیبانی میشه) رو روی هارد خودتون ذخیره کنید (با استفاده از هر تکنیکی که علاقه دارید.)
بعد از اون مثل آموزش افزایش طول
context
برای llama3.1
روی ollama
که قبلتر قرار گرفته؛ باید یک Modelfile
ایجاد کنید. توی پوشهای که مدل دانلود شده یک فایل جدید به اسم Modelfile
ایجاد کنید و متن زیر رو داخلش بنویسید:FROM .
PARAMETER stop <|im_start|>
PARAMETER stop <|im_end|>
PARAMETER temperature 0.1
PARAMETER top_p 0.95
TEMPLATE """{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}{{ if .Prompt }}<|im_start|>user
{{ .Prompt }}<|im_end|>
{{ end }}<|im_start|>assistant
{{ .Response }}<|im_end|>
"""
توی
Modelfile
شما ۲ تا تنظیم رو واجب هست که داشته باشید؛ FROM
که به
ollama
میگید مدل رو از کدوم مسیر روی سیستمعامل شما میتونه بخونه؛ توی مثال بالا از .
استفاده شده که توی سیستم عامل Linux به معنای همین پوشه هست (ما modelfile
رو داخل پوشه دانلود مدل hugging face
قرار دادیم)TEMPLATE
که به
ollama
میگه چطور باید پرامپت؛ سیستم پرامپت رو برای مدل ارسال کنه و البته چطور پاسخ مدل رو دریافت و تمیز کنه؛ jinja template
فرمتی هست که استفاده میشه و همیشه توی ریپورتهای انتشار مدل بطور دقیق به template format
اشاره میشه پس باید داکیومنت مدلی که میخواید تبدیل کنید رو برای این بخش بخونید برای مثال تمپلیت گزارش شده این مدل بصورت خام و بدون Jinja
بصورت زیر بود (که من برای ollama
اون رو بهبود دادم) :<|im_start|>system
YOUR SYSTEM PROMPT.<|im_end|>
<|im_start|>user
YOUR PROMPT.<|im_end|>
<|im_start|>assistant
RESPONSE.<|im_end|>
اگر مدلی به پرامپت تمپلیت اشاره نکرد؛ به احتمال ۹۰٪ از فرمت بالا استفاده میکنه.
همین ۲ تا بخش برای ساخت مدل کفایت میکنه؛ اما امکان داره بعضی وقتها بخواید بصورت دیفالت یکسری از پارامترها رو ست کنید مثل
temperature, top_p
توی مثال بالا.یا حتی بعضی وقتا بخشی از توکنهای تمپلیت توی خروجی به شما نشون داده بشه که با
PARAMETER stop
میتونید به ollama
بفهمونید که توکن قبل از اون آخرین توکن تولید شده توسط مدل بوده و stop
رو نباید توی خروجی نمایش بده.بعد از اینکه فایل ساخته شد؛ ترمینال رو توی همون پوشه باز کنید؛ اگر خواستید مدل رو بدون
quantization
داشته باشید دستور:ollama create <NAME>:<TAG> -f Modelfile
رو میزنید و بجای
<NAME>:<TAG>
اسم و تگ مدل رو بهش میدید؛ اسم واجب هست و چیزی میشه که توی ollama list
نمایش داده میشه؛ اما تگ واجب نیست و مقدار دیفالت اون latest
خواهد بود.برای
quantize
کردن مدل؛ollama create <NAME>:q4_0 -f Modelfile --quantize q4_0
انواع
quantization
های موجود رو میتونید توی document
های ollama
بخونید ولی q4_0
یکی از معروفترین موارد هست. (معروفترین؛ بهترین نیست لزوما).در نهایت هم میتونید از دستور
ollama run <NAME>:<TAG>
برای اجرای مدل استفاده کنید و در صورت که علاقه داشتید مدل رو روی سایت
ollama
هم قرار بدید.
دستاوردهای یادگیری عمیق(InTec)
این روش برای اکثر مدلهای با پسوند .safetensor کار میکنه وقتی یک مدلی به تازگی منتشر میشه یا روی مدلهایی که برای تسک خاص؛ زبان خاص هستند ممکن هست اون مدل رو روی Ollama نداشته باشید و بدون تعارف Ollama یکی از راحتترین گزینههای برای تجربه و تست مدلها…
توی این آموزش چون مدل
اگر امکان آپدیت نداشتید؛ یا معماری مدل هنوز توسط
باید از
گوشیهای
SmolLM
برپایه معماریهایی که قبلا پشتیبانی میشده نیست شما به ollama 3.7
نیاز دارید.اگر امکان آپدیت نداشتید؛ یا معماری مدل هنوز توسط
ollama
پشتیبانی نمیشد. (هفته قبل)باید از
llama.cpp
برای تبدیل استفاده میکردید.گوشیهای
android
بخصوص نسل SnapDragon 8 Gen3
توانایی اجرای این مدل با تعداد توکن بسیار بالایی رو دارا هست.چیکار داره میکنه
تمام تستهای واقعی که یوتیوبرها و ... ساختند رو سختهاش رو من روش تست کردم همرو به درستی جواب داد.
مدل ۸ میلیارد و ۲ میلیارد هم اکنون در دسترس هست (میتونید دانلود کنید) ولی هنوز
که باتوجه به توییتها و ... به زودی (رفتن برای
qwen2-vl
بالاتر از همه رقبای open source, close source
و با لایسنس Apache2
البته مدل ۷۲ میلیارد پارامتری فعلا فقط از طریق API
در دسترس هست.تمام تستهای واقعی که یوتیوبرها و ... ساختند رو سختهاش رو من روش تست کردم همرو به درستی جواب داد.
مدل ۸ میلیارد و ۲ میلیارد هم اکنون در دسترس هست (میتونید دانلود کنید) ولی هنوز
lama.cpp
آماده نشده.که باتوجه به توییتها و ... به زودی (رفتن برای
2nd try
) بعد از این روی ollama
هم خواهد آمد (آموزش بالا)چه خروجیهایی داره تکنیک
مدل ۷۰ میلیاردی؛ بهتر از
این مدل بصورت
با درصد بالایی ثابت شده این مدل و تکنیک دروغ بوده؛
احتمال بسیار زیاد
Reflection Tuning
مدل ۷۰ میلیاردی؛ بهتر از
Llama3.1-405B, Gpt-4o, Claude-sonet 3.5
این مدل بصورت
open source
در دسترس هست و میتونید تست کنید.با درصد بالایی ثابت شده این مدل و تکنیک دروغ بوده؛
احتمال بسیار زیاد
api
ارائه شده داشته از sonnet
استفاده میکرده اون زیر.قطعا
اما همونطور که میدونید بسیار بسیار پر دردسر هست مخصوصا اگر شما خودت متخصص باشی و بخوای داخلش دستکاری هم انجام بدی.
بسیار پروژههای جایگزین هم اومد ولی همچین شرایط بهتری نداشت؛ ۱-۲ مورد از مشکلات رو حل میکردند ولی توی باقی بخشها مشکلات رو داشتند.
حالا تیم
این تیم نه تنها مدل های متنی که مدلهای مربوط به تولید تصویر و حتی صدا و .... رو هم پشتیبانی میکنه.
کاستومایزیشنهای بسیار بیشتری برای افراد فنی میده و یک مدلها فوقالعاده داره که فیلتر و جستجوی قوی هم داره نسبت به
مشکلی که داره؛ هنوز تو مرحله توسعه اولیه هست برای همین ممکن به تعدادی باگ روی
https://nexaai.com/
ollama
جزو بهترین ابزارهایی بود که برای تست و mvp
و ... عالی بود.اما همونطور که میدونید بسیار بسیار پر دردسر هست مخصوصا اگر شما خودت متخصص باشی و بخوای داخلش دستکاری هم انجام بدی.
بسیار پروژههای جایگزین هم اومد ولی همچین شرایط بهتری نداشت؛ ۱-۲ مورد از مشکلات رو حل میکردند ولی توی باقی بخشها مشکلات رو داشتند.
حالا تیم
NeXAAI
هم وارد این رقابت شده و چه ورودی؛ با یک SDK
سادهاین تیم نه تنها مدل های متنی که مدلهای مربوط به تولید تصویر و حتی صدا و .... رو هم پشتیبانی میکنه.
کاستومایزیشنهای بسیار بیشتری برای افراد فنی میده و یک مدلها فوقالعاده داره که فیلتر و جستجوی قوی هم داره نسبت به
ollama
مشکلی که داره؛ هنوز تو مرحله توسعه اولیه هست برای همین ممکن به تعدادی باگ روی
serve
کردن و customization
بخورید؛ برای من با سوال و جواب حل شد.https://nexaai.com/
403
هم نخواهید گرفتNexa AI
Nexa AI | Accelerate Gen-AI Tasks on Any Device – Simplified AI Delivery for Enterprises
Skip the hassle of model compression and edge deployment. Nexa AI helps you build and scale low-latency, high-performance AI apps for text, audio, image, and multimodal tasks on-device.
جایگزین Llama3.1 فقط میتونه یک نسخه بهتر براساس همین معماری باشه :
arcee-ai/Llama-3.1-SuperNova-Lite
مدل ۸ میلیارد پارامتری هست، مدل ۷۰ میلیاردی فقط از طریق
طبق ادعا از 405b, gpt4o, ... بهتر عمل میکنه؛ البته برای تسکهای مربوط به
شخصاً هم همین رو احساس کردم توی تستها.
arcee-ai/Llama-3.1-SuperNova-Lite
مدل ۸ میلیارد پارامتری هست، مدل ۷۰ میلیاردی فقط از طریق
api
در دسترس هست.طبق ادعا از 405b, gpt4o, ... بهتر عمل میکنه؛ البته برای تسکهای مربوط به
instruction-following
شخصاً هم همین رو احساس کردم توی تستها.