Telegram Web Link
دستاوردهای یادگیری عمیق(InTec)
۹۰٪ استفاده من از chatGpt (البته وقتی که استفاده می‌کنم) بابت نوشتن document, docstring , ... برای کدهام هست. چندروز پیش توی یک مسیری بودم، و داشتم code cleaning انجام می‌دادم که از وقتم بهینه استفاده کرده باشم به خودم گفتم اگر LLM بود الان docstring و ...…
This media is not supported in your browser
VIEW IN TELEGRAM
دمو مدل ۳۳ میلیاردی
روی RTX 3090

حجم gpu مدل نیاز 14-15 GB
مدل ۷ میلیاردی به حدوداً 4-6 GB گرافیک نیاز داره.

دلیل کند بودن اولش هم، load کردن مدل و اجرای سرویس هست (چون اجرا نداشتم و می‌خواستم کامل ببینید)

طولانی شدن تایپ سوال دوم رو هم ببخشید، میخواستم پرامپت بد داده باشم و اینکه کیبوردم رو عوض کردم 🤦
👍195
آپدیت جدید گوگل کروم؛ از هوش مصنوعی برای نوشتن review, مرتب کردن tab و البته ساخت تم استفاده می‌کنه.

تقریبا دارم به این نتیجه میرم که دیگه grammarly رو نیازی ندارم.
👍255
نسخه جدید Gemini اگر prompt, context درست بهش بدید به راحتی chatGpt رو از دور خارج می‌کنه.

و رایگان هم هست.
توی ۳ روز گذشته شدیداً داشتم تست میکردم و هر دو مورد رو‌ باز کردم، chatGpt شرکت (ی ذره finetune شده روی آخرین نسخه) و gemini که finetune نشده.

توی همه‌ی شرایط جواب gemini بهتر بود، بخصوص روی module ها و ابزارهای جدیدتر.

البته ۹۹٪ کارهام رو با نسخه local ایی که خودم راه‌اندازی کردم انجام میدم، اما توی مواردی که هنوز فرصت نکردم document, ... بهش بدم
Gemini
به مراتب بهتر داره عمل می‌کنه (چیزی که تا ۲ هفته پیش وجود نداشت)


پ.ن : شخصاً فکر می‌کنم، chatGpt توی مدت زمانی که گذشت و زودتر منتشر شدنش یاد گرفته ورودی کاربر رو به خوبی preprocess کنه و بعد به مدلش بده
برای همین prompt تقریباً بد هم شمارو به خروجی قابل قبول می‌رسونه، چیزی که روی Gemini هنوز اتفاق نیفتاده یا ضعیف هست.
👍387
مدل
Starcoder-2

رو چک کنید، بسیار جذاب هست با وجود پارامتر کمتر بزرگترین مدل
نتایجش بسیار عالی هست.

مدل ۱۵ میلیاردی، نتایجی نزدیک به مدل ۳۰-۳۳ میلیاردی داره
و روی بیش از ۶۰۰ زبان برنامه‌نویسی ترین شده.
👍208
اولین نسخه از مدل Grok با لایسنس apache 2.0 منتشر شد (هم وزن‌‌ها هم معماری مدل)


https://github.com/xai-org/grok-1


اتفاق خیلی خیلی مهمی هست
👍154
دستاوردهای یادگیری عمیق(InTec)
اگر مدل‌هایی مثل : Llama2, Mixtral, Gemma کار شما و شرکت شمارو راه میندازه حتما یک سری به https://wow.groq.com/ بزنید و از LPU طراحی شده توسط این شرکت لذت ببرید؛ LPU: Language Processing Unit واحد پردازشی این شرکت هست که برای inference طراحی شده و از TPU…
شرکت tenstorrent تولیدات سخت‌ افزار مخصوص پردازش هوش مصنوعی برپایه Risc هست که کاملا به opensource احترام میذاره.
از قراردادش با ژاپن و موفقیت‌های اخیرش اگر بگذریم؛ یک اسمی رو توی اسامی شرکت دیدم و سرچ کردم دیدم بهترین ها اینجا اتفاق خواهد افتاد.

اون اسم یکی از بزرگترین و بهترین طراح‌های چیپ کامپیوتری هست؛ Jim Keller کسی که AMD 64, Apple A-series, Tesla Chip هارو وارد بازی کرد.

از نظر chip های منتشر شده قطعا از رقبا جلوتر نباشه عقب نیست؛ برای مثال سری Truffle-1 که چندوقت پیش خیلی سروصدا کرد و هنوز روی preorder هست حدود ۶۴ گیگ حافظه داره و ۲۰۰ گیگ هم bandwidth اما از زیرساختش Nvidia هست (قیمیتش از خود nvidia ارزونتر هست البته)

کارت‌های tenstorrent اما توی مدل‌های 8, 12 GB موجود هست با توجه به کدها و software ایی که ارائه شده تقریبا همه مدل‌ها رو به راحتی پشتیبانی می‌کنه (برخلاف LPU فقط برای تسک‌های nlp نیست و البته می‌تونید بخرید)

اما توی بخش System Requirements (چون از طریق PCIe به سیستم وصل میشه) تقریبا نیاز به کانفیگ خوب سرور یا سیستم داره ولی شروع قیمت حتی الان که طبق صحبت‌ هنوز over price هست از ۵۹۹ دلار هست

پ.ن: کلی موقعیت شغلی خوب هم داره.

TensTorrent

پ.ن : درحال حاضر پیشنهاد خرید نمی‌دم هرچند از Nvidia Nano DevKit ها قیمت بهتری داره و جایگزین مناسبی برای اون هست اما اندکی صبر بسیار قویتر خواهد شد.
👍153
Forwarded from Python Hints
نوروز این زیباترین جشن ایرانی پیشاپیش بر همگان مبارک.

توی سال جدید
برای وطنم ایران؛ آرزوی آزادی آزادی آزادی و آبادی دارم.

برای مردمم و خودم؛ آرزوی آگاهی آگاهی آگاهی و سلامتی و شادابی دارم.


یادی هم بکنیم از همه‌ی بچه‌های پاک وطن که به جرم دادخواهی؛ آزادی و آگاهی شکنجه یا کشته شدند.

سالی سراسر آزادی؛ آگاهی و شادابی رو برای همگی آرزو می کنم.

منبع تصویر، گوگل سرچ.
68👍3
تیم تحقیقاتی گوگل ی تکنیک توسعه داده و ادعا کرده با کوئری زدن می‌تونه معماری LLM هارو استخراج کنه با هزینه‌هایی تقریبا بسیار بسیار کم (مثلا GPT3.5 حدود ۲۰۰۰ دلار گذارش شده).
کار بسیار بزرگ و مهمی هست؛ و البته شاید اخلاقی نباشه اما ۱۰۰٪ قانونی هست درحال حاضر.

لینک مقاله :
Paper on archive

توی مقاله کل معماری رو نگفته (اما ادعا بر این اساس هست که قطعا کل معماری با همین روش در میاد)
به زودی شاهد مدل‌هایی با عملکرد بهتر از GPT4 خواهیم بود. البته open source مگر اینکه قبل از انتشار مقاله با این شرکت‌ها هماهنگی لازم برای جلوگیری انجام شده باشه
👍174
#احمقانه
این تصویر رو توی لینکدین دیدم.
بعنوان کسی که ۸ سالی میشه در این زمینه دارم کار می‌کنم و با اینکه با خیلی ازین کتابخونه‌ها کار کردم (چون مشاغل دیگری هم دارم و برای اون مشاغل لازم هست)
می‌دونستم این تصویر درست نیست و ببخشید و عذرمیخوام؛ جسارت نباشه به کسی :
بچه خر کنی هست.

دنبال سورس تصویر رفتم؛ دیدم چندتا اکانت به اشتراک گذاشتند که اکثریت ازین تیم‌های تدریس هستند.

جامعه ایرانی و خارجی نداره؛ از مدرس و آموزشگاه RoadMap نگیرید.

مثلا : کی data visualization رو با pandas انجام میده ؟ اگر واقعا برای یک گذارش یکباره نیست ؟
یا شما حتی بکند دولوپر زیر ۲ سال سابقه کار نمی‌بینی که هر ۳ مورد django, flask, fastapi رو بخوبی و برای پروداکشن بلد باشه.
بعد همین رو اگر expand کنیم؛ طرف باید protocol ها مفاهیم TCP/IP و ... رو هم یادبگیره کلی ابزار دیگه هم کنار این‌ها میاد که ۱۰۰٪ برای بکند دولوپر کدهای هوش مصنوعی و دیتا واجب هست :
Celery, Redis, Backgroud jobs, flower, ...

کار دیتا بکند دولوپر حرفه‌ای خودش رو میخواد؛ نه مید نه جونیور هم نمی‌تونه کار رو در بیاره مگر اینکه ی سنیور حوصله دار و حرفه‌ای بالا سرش باشه.
👍432
دستاوردهای یادگیری عمیق(InTec)
#احمقانه این تصویر رو توی لینکدین دیدم. بعنوان کسی که ۸ سالی میشه در این زمینه دارم کار می‌کنم و با اینکه با خیلی ازین کتابخونه‌ها کار کردم (چون مشاغل دیگری هم دارم و برای اون مشاغل لازم هست) می‌دونستم این تصویر درست نیست و ببخشید و عذرمیخوام؛ جسارت نباشه…
توی سالی که گذشته بیش از ۲۰ تا شرکت بهم پیشنهاد همکاری دادند؛ اکثرا وقتی حاضر میشوند دستمزد چندبرابر بدهند که ۶ماه یا ۱ سال از توسعه کدهاشون گذشته و فهمیدند این کار خروجی بده نیست.

بدون تعارف و اقراق بگم؛ فقط یک مورد که شرکت بین‌المللی بود. استانداردهای کدهاش عالی بود باقی موارد گفتم کدهاشون رو دور بریزند؛ اجازه بدند من تیم ۳ نفره‌ای رو بسازم و پروژه رو از اول کد بزنم تا به اهداف مرحله اول برسند؛ فقط ۳-۴ ماه. خیلی ها باور نکردند (کلا قبول اشتباه یا شکست توی ایران قفل هست)
از خیلی از مواردی که مصاحبه کردیم بیش از ۹ ماه گذشته و هیچ خبری از پروژه‌هاشون نیست ( همیشه پیگیری می‌کنم؛ سایت‌هاشون یا اگر آشنایی واسطه بوده می‌پرسم ) تا مطمئن بشم آیا نظرم درست بوده یا خیر.

خلاصه که هواستون به این RoadMap های آدم‌های بیسواد و بدون دانش صنعتی باشه.
👍515
دستاوردهای یادگیری عمیق(InTec)
توی سالی که گذشته بیش از ۲۰ تا شرکت بهم پیشنهاد همکاری دادند؛ اکثرا وقتی حاضر میشوند دستمزد چندبرابر بدهند که ۶ماه یا ۱ سال از توسعه کدهاشون گذشته و فهمیدند این کار خروجی بده نیست. بدون تعارف و اقراق بگم؛ فقط یک مورد که شرکت بین‌المللی بود. استانداردهای کدهاش…
اما اگر بخوام راهکاری رو ارائه بدم برای کسانی که دنبال RoadMap واقعی هستند :
۱- در زمینه پایتون داریم کار می‌کنیم؛
داشتن دانش مقدماتی پایتون (بله class و ... مقدمات پایتون هست نذارید دوره‌های آموزشی شمارو گول بزنند) واجب هست
اگر میخواید پیشرفت سریع و درستی هم داشته باشید؛
@PyHints
رو نگاه کنید ببینید چند درصد از مطالب رو بلد هستید و متوجه می‌شید ( نوعی آزمون تعیین سطح پایتون هست ) و اگر خواستید بیشتر بدونید بخش پست‌ها و اکانت توییتر رو دنبال کنید (کتابها اینجا به اشتراک گذاشته می‌شه.)

۲- لینکدین رو باز کنید و به بخش Jobs برید؛ و ببینید برای ارزیابی و استخدام توی بخش requirements چه مواردی نوشته و مطرح شده؛ اینکار رو حداقل برای ۲۰ مورد توی کشورهای مختلف انجام بدید (سعی کنید کشورهای و شرکت‌های معروف حوزه IT رو انتخاب کنید)
اشتراک بین این موارد RoadMap اصلی شما خواهد بود؛ توی یادگیری این موارد به مفاهیمی خواهید رسید که دونستنش پیشنهاد میشه و این موارد RoadMap جانبی شما خواهد بود (مثلا دونستن plotly برای دیتا آنالیز جزو موارد اصلی میشه ولی برای کسی که هوش مصنوعی کار می‌کنه آشنایی باهاش کفایت می‌کنه؛ شایدم اصن لازم نشه)

۳- بعد از یادگیری این موارد؛ سایت‌های مشاغل ایرانی رو هم مثل مورد قبل بررسی می‌کنید تا نیازمندی‌های کاری خودتون رو برای ایران لوکالایز کنید. (اگر کشور دیگری هستید این کار رو برای مشاغل اون کشور انجام بدید)

۴- مثال رزومه نویسی گروه رو بخونید. (قبلا راجبش لایو گذاشتم توی کانال @pyhints ولی خب مثال گروه هم کار رو در میاره براتون) :

این کامنت و کامنت بعدیش، خلاصه‌ای میشه از لایوی که داشتیم برای رزومه نویسی :

https://www.tg-me.com/tensorflowPython/12629
👍409
چندوقت قبل ی پروژه معرفی شد (ویدئو) که همه جوگیر شدند مهندسی نرم افزار مرد و تموم شد و …. به اسم Devin خواستم بگم نسخه open source از روش ساختن.

https://github.com/OpenDevin/OpenDevin

اگر خواستید می تونید لوکال تست کنید؛ هیچ چیز عجیبی هم نداره
الکی جو ویدئو و تبلیغات یک سری آدما اذیتتون نکنه.

درنهایت دم کانتریبیوترها گرم که نشون دادند و ثابت کردن جو تبلیغاتی بوده.
👍275
نشستم با Rust یک تابع محاسباتی رو که جزو فرمول‌های شرکت بود پیاده‌سازی کردم، و آوردمش توی پایتون؛

زمان بندی‌هاش بسیار جالب شد،
توی پایتون هموار ه حدود ۷ دقیقه زمان می‌بره
از numpy که استفاده می‌کنم، به ۱ دقیقه هم می‌رسید
و پیاده‌سازی توی Rust؛ کمتر از ۵ ثانیه شد.


حتی اگر تفاوت محاسبات بین Rust, Python رو درک کنم موضوع و اختلاف سرعت بالای بین Numpy, Rust هنوز برای خودم عجیب هست.

دلیلش رو نمی‌دونم ولی حتماً دنبالش می‌گردم.
👍337
دستاوردهای یادگیری عمیق(InTec)
اولین نسخه از مدل Grok با لایسنس apache 2.0 منتشر شد (هم وزن‌‌ها هم معماری مدل) https://github.com/xai-org/grok-1 اتفاق خیلی خیلی مهمی هست
شرکت Databricks هم یک مدل foundational ارائه داده که طبق توضیحات خودشون به مدل 10 میلیون دلاری (هزینه‌اش) معروف شده؛ همه چیز این مدل open source هست.

واقعا حق با ایلان ماسک هست OpenAI باید اسمش رو به CloseAI عوض کنه.

خروجی‌هاش توی تست‌هایی که ملت ازش گرفتند و گذاشتند بسیار خوب هست و علاوه بر اون سرعت مناسبی هم توی پردازش داره
فکر می‌کنم قبل از پایان سال به مدلایی سبک و در حد chatGPT4 Turbo توی دنیای opensource دست پیدا کنیم.

DBRX from Databricks

پ.ن : حجم این مدل تقریبا نصف Grok-1 هست
👍244
2025/07/11 19:23:18
Back to Top
HTML Embed Code: