دستاوردهای یادگیری عمیق(InTec)
Youtube سرمایه گذاری 500 میلیارد دلاری (حداقل) روی زیرساختهای هوش مصنوعی؛ این فقط برای سرور و ... هست طبق متنی که Close/Open AI منتشر کرده.
روز اول ترامپ؛
بیشتر از حداقل ۱۶ سال گذشته رئیس جمهورهای ایران برای کشورش سرمایهگذاری و ... به همراه آورد.
یعنی مبالغ و کارهایی که توی روز اول انجام شد؛ حتی ۵٪ اش توی ۱۶ سال گذشته توی ایران انجام نشده.
بیشتر از حداقل ۱۶ سال گذشته رئیس جمهورهای ایران برای کشورش سرمایهگذاری و ... به همراه آورد.
یعنی مبالغ و کارهایی که توی روز اول انجام شد؛ حتی ۵٪ اش توی ۱۶ سال گذشته توی ایران انجام نشده.
👍51❤5
بدترین سرویس پشتبانی که به عمرم دیدم :
ایرانسل هست با اختلاف، ۳ ماهه داره مشکل اینترنت من رو حل میکنه
دائم هم میگه، تا ۴۸ ساعت آینده کارشناسان ما مشکل شمارو حل خواهند کرد
سری آخر کلا سیمکارت قطع شد (به خدا جدی میگم)
پشتیبانی تالیا از ایرانسل قویتره 😂
پ.ن : اینجا گذاشتم برسه دستشون، چون توی کانال بودند بچهها از ایرانسل
ایرانسل هست با اختلاف، ۳ ماهه داره مشکل اینترنت من رو حل میکنه
دائم هم میگه، تا ۴۸ ساعت آینده کارشناسان ما مشکل شمارو حل خواهند کرد
سری آخر کلا سیمکارت قطع شد (به خدا جدی میگم)
پشتیبانی تالیا از ایرانسل قویتره 😂
پ.ن : اینجا گذاشتم برسه دستشون، چون توی کانال بودند بچهها از ایرانسل
👍72❤1
#Quick
امروز متوجه شدم که
حتما باید این پارامترها رو توی محیط چت هم کانفیگ کنید.
اگر میخواید برای همه یوزرها هم کانفیگ کنید :
این موارد رو درست تنظیم کنید؛ بعد مدلهارو مجدد تست کنید خروجیها به مراتب بهتر خواهد بود.
امروز متوجه شدم که
open-webui
هیچ اهمیتی به پارامترهایی که روی مدل Modelfile
توی ollama
گذاشتید نمیده.حتما باید این پارامترها رو توی محیط چت هم کانفیگ کنید.
اگر میخواید برای همه یوزرها هم کانفیگ کنید :
Settings > General > Advanced Parameters
Admin Panel > Settings > Models > Edit > Advance Params
این موارد رو درست تنظیم کنید؛ بعد مدلهارو مجدد تست کنید خروجیها به مراتب بهتر خواهد بود.
👍13❤1
دستاوردهای یادگیری عمیق(InTec)
بدترین سرویس پشتبانی که به عمرم دیدم : ایرانسل هست با اختلاف، ۳ ماهه داره مشکل اینترنت من رو حل میکنه دائم هم میگه، تا ۴۸ ساعت آینده کارشناسان ما مشکل شمارو حل خواهند کرد سری آخر کلا سیمکارت قطع شد (به خدا جدی میگم) پشتیبانی تالیا از ایرانسل قویتره…
راهکار دادند (از بچههای ایرانسل) که توی برنامه ایرانسل و چت آنلاین پیگیری کنم، همینکارو کردم و حالم بدتر شد :
۱- بعد از هر پیام که ارسال میکنم، باید از برنامه بیام بیرون و مجدداً وارد بشم تا بتونم پیام دیگری بدم یا پیامهای پشتیبانی رو بخونم.
۲- بخاطر مشکل اول، گفتم عکس آپلود کنم که برنامه crash کرد و پرید بیرون
۳- تاریخچه چتها رو ندارم، یعنی بعد از
۴- بعد از تمام سختیها همون جواب قبل رو میگیری:
مشکل شما به واحد
تا اینجا فکر میکردم فقط پشتیبانی ایرانسل مشکل داره
ولی الان متوجه شدم، تیم دولوپرهاش هم مشکل دارند.
بعد اینا دنبال راهاندازی
هوش مصنوعی قاتل از دست این شرکتا میزنه بیرونا 😂😂
۱- بعد از هر پیام که ارسال میکنم، باید از برنامه بیام بیرون و مجدداً وارد بشم تا بتونم پیام دیگری بدم یا پیامهای پشتیبانی رو بخونم.
۲- بخاطر مشکل اول، گفتم عکس آپلود کنم که برنامه crash کرد و پرید بیرون
۳- تاریخچه چتها رو ندارم، یعنی بعد از
crash
کردن باید از اول دوباره کل پیامهارو بفرستم برای کارشناس دیگر و در یک چت دیگر که میشه همون لوپ مشکل ۱ و ۲ ۴- بعد از تمام سختیها همون جواب قبل رو میگیری:
مشکل شما به واحد
X
ارسال شد، X
هم که مجهول پس هیچ راه حلی نیست و خرید بسته اینترنتی و ... بدون استفاده میشه سود 100%
برای شرکت.تا اینجا فکر میکردم فقط پشتیبانی ایرانسل مشکل داره
ولی الان متوجه شدم، تیم دولوپرهاش هم مشکل دارند.
بعد اینا دنبال راهاندازی
LLM, AI, ...
هم هستند؛ مشتی تو توی API, MobileAPP
نویسی موندی (چیزی که با ۴ تا تست در میاد) بعد میخوای بری روی مواردی کار کنی که BlackBox هست ؟هوش مصنوعی قاتل از دست این شرکتا میزنه بیرونا 😂😂
👍53❤3
جنگ بین سم آلتمن و ایلان ماسک رو دوست دارم.
سم آلتمن که ضد ترامپ بوده و توییتهای جنجالی کم نداره
و
ایلان ماسک که طرفدار ترامپ هست.
و البته پروندههای مختلف علیه سم آلتمن و OpenAI؛ مصاحبه ۸ روز قبل تاکر کارلسون رو ببینید.
Tucker Carlson Youtube
سم آلتمن که ضد ترامپ بوده و توییتهای جنجالی کم نداره
و
ایلان ماسک که طرفدار ترامپ هست.
و البته پروندههای مختلف علیه سم آلتمن و OpenAI؛ مصاحبه ۸ روز قبل تاکر کارلسون رو ببینید.
Tucker Carlson Youtube
YouTube
Mother of Likely Murdered OpenAI Whistleblower Reveals All, Calls for Investigation of Sam Altman
Suchir Balaji worked as an engineer for Sam Altman building AI, until he decided that Altman was committing crimes. Balaji became a whistleblower, and soon after was found dead in his apartment. California authorities claim it was suicide. Crime scene photos…
👍11❤2
دستاوردهای یادگیری عمیق(InTec)
deepseek r1 منتشر شد؛ مقاله از نحوه ترین مدل - وزنها و ... همه چیز حتی مجوز commercial use رو هم داده https://github.com/deepseek-ai/DeepSeek-R1
وبسایت
قطعا دیگه شکی توی این موضوع نیست.
deepseek
فابلیت استفاده همزمان از Search, DeepThink
رو فعال کرده که نتابیج رو چندین برابر بهتر کرده.قطعا دیگه شکی توی این موضوع نیست.
👍47❤6
deepseek
یک مدل دیگه منتشر کرد؛ همه این ارزونتر شدن و بهبودها و ... رو میبینید ؟
میدونید همش بخاطر این بوده که پروژه
deepseek
یک side project
برای یک تیم در زمینه الگوریتم و محاسبات و مایننگ و ... بوده ؟حالا باز بیاید بگید چقدر ریاضیات مهم هست برای کار هوش مصنوعی.
👍74❤8
رفتم روی تست
https://msty.app/
تا اینجا جالب بوده هم مشکلاتم با
تستهای بیشتر بگیرم؛ اگر خوب باشه حتما اون دو مورد قبلی رو پاک میکنم.
تنها مشکل فعلی: کاش با
https://msty.app/
تا اینجا جالب بوده هم مشکلاتم با
openweb-ui
رو حل کرده هم مشکلاتم با LM-Studio
تستهای بیشتر بگیرم؛ اگر خوب باشه حتما اون دو مورد قبلی رو پاک میکنم.
تنها مشکل فعلی: کاش با
tauri
نوشته بودنش. (این پست آپدیت میشه)msty.app
Msty - Using AI Models made Simple and Easy
AI beyond just plain chat. Private, Offline, Split chats, Branching, Concurrent chats, Web Search, RAG, Prompts Library, Vapor Mode, and more. Perfect LM Studio, Jan AI, and Perplexity alternative. Use models from Open AI, Deepseek, Claude, Ollama, and HuggingFace…
👍21❤2
من واقعا
دقت میکنم دیتا لیک انجام نشه و
groq
رو دوس دارم بخصوص این ویژگی که بالای ۲۰۰ توکن هم میزنه برای thinking
, ... خیلی عالیه ولی شرمنده دقت میکنم دیتا لیک انجام نشه و
chat.deepseek.com
رو استفاده میکنم چون خروجی مدل بزرگتر به مراتب از مدل ۷۰ میلیارد پارامتری بهتره.👍14❤1
دستاوردهای یادگیری عمیق(InTec)
من واقعا groq رو دوس دارم بخصوص این ویژگی که بالای ۲۰۰ توکن هم میزنه برای thinking , ... خیلی عالیه ولی شرمنده دقت میکنم دیتا لیک انجام نشه و chat.deepseek.com رو استفاده میکنم چون خروجی مدل بزرگتر به مراتب از مدل ۷۰ میلیارد پارامتری بهتره.
این موج نفرت ضد
بدون احترام؛ احمقانه هست.
آمریکا و اروپا و چین و ... نداره؛ همه از دیتای شما استفاده خواهند کرد، یادتون نره
اینکه ادعای
دعوای بین بزرگان هست؛ یعنی در حد ۱۰ شرکت برتر ایران هم بهشون ربطی نداره
قطعاً هیچکدوم حتی همون ۵ میلیون دلار هزینهی ادعایی
با توجه به قیمت
اما اینکه شرکت مادر
دروغ یا حقیقت برای ماها بعنوان؛ محقق - مهندس - توسعه دهنده و یا حتی کاربر انتشار و ادعاهای
پ.ن : این موضوع راجب سانسور و گارد و ... هم هست
اینکه سوال رو توی چینی یا انگلیسی سانسور میکنه ولی روی زبانهای دیگه نه نشون دهنده ضعف مدل یا تیم نیست بلکه فقط نشون میده توسعه مدل سانسور و گارد برای این تیم اهمیتی نداشته.
خیلی مهم هست چون خیلی سادهتر از
deepseek
و به سمت ابزارهای آمریکا و اروپا بدون احترام؛ احمقانه هست.
آمریکا و اروپا و چین و ... نداره؛ همه از دیتای شما استفاده خواهند کرد، یادتون نره
chatGpt3.5
روی متن کتابهایی آموزش دیده بود که از راه غیرقانونی دریافت شده بود یا روی کدهایی که LICENSE
اونها ضد اینکار بود.اینکه ادعای
DeepSeek
راجب تعداد GPU , ...
حقیقت داره یا خیر برای من و شما نباید مهم باشه.دعوای بین بزرگان هست؛ یعنی در حد ۱۰ شرکت برتر ایران هم بهشون ربطی نداره
قطعاً هیچکدوم حتی همون ۵ میلیون دلار هزینهی ادعایی
deepseek
رو هم نمیکنند روی R&D
هوش مصنوعی.با توجه به قیمت
api
و مقالهای که تیم deepseek
منتشر کرده و توییتهای Andrej Karpaty
توی این مدت راجب دستاوردهای deepseek
خیلی دور از ذهن هم نیست.اما اینکه شرکت مادر
deepseek
اینکار رو کرده تا سهامهایی مثل Nvidia
و ... پایین بیاد و بتونه سرمایهگذاری کنه هم نکتهای هست که بخاطر اون میگویند که deepseek
دروغ میگه.دروغ یا حقیقت برای ماها بعنوان؛ محقق - مهندس - توسعه دهنده و یا حتی کاربر انتشار و ادعاهای
deepseek
خیلی خیلی سودمند بوده و هست.پ.ن : این موضوع راجب سانسور و گارد و ... هم هست
اینکه سوال رو توی چینی یا انگلیسی سانسور میکنه ولی روی زبانهای دیگه نه نشون دهنده ضعف مدل یا تیم نیست بلکه فقط نشون میده توسعه مدل سانسور و گارد برای این تیم اهمیتی نداشته.
خیلی مهم هست چون خیلی سادهتر از
distill
مدل جدید میتونستند گارد و سانسور انجام بدند بخصوص اینکه llama3
و ... این رو در اختیار گذاشته👍47❤18
دستاوردهای یادگیری عمیق(InTec)
این موج نفرت ضد deepseek و به سمت ابزارهای آمریکا و اروپا بدون احترام؛ احمقانه هست. آمریکا و اروپا و چین و ... نداره؛ همه از دیتای شما استفاده خواهند کرد، یادتون نره chatGpt3.5 روی متن کتابهایی آموزش دیده بود که از راه غیرقانونی دریافت شده بود یا روی کدهایی…
#موقت
پیگیر چند مورد از ویدئوهایی و عکسهایی که فرستادید شدم.
منتشر کننده.های اولش فروشندههای اکانتهای chatgpt هستند.
کاری ندارم که سر عموم مردم کلاه میذارند اما اینکه مثلاً متخصصها هم داره سرشون کلاه میره جای تعجب داره 🤯
پیگیر چند مورد از ویدئوهایی و عکسهایی که فرستادید شدم.
منتشر کننده.های اولش فروشندههای اکانتهای chatgpt هستند.
کاری ندارم که سر عموم مردم کلاه میذارند اما اینکه مثلاً متخصصها هم داره سرشون کلاه میره جای تعجب داره 🤯
👍32
خبر داغ:
ادعا جدید
توی تستهای بسیاری از کاربران هم این موضوع نشون داده شده.
شخصاً تست نکردم.
ادعا جدید
Deepseek
؛ ۲ برابر سرعت بیشتر برای inference
و کدی که توسط خود deepseek R1
زده شده.توی تستهای بسیاری از کاربران هم این موضوع نشون داده شده.
self improving AI
شخصاً تست نکردم.
❤41👍8
Alibaba
ادعا کرده مدل جدیدش از
deepseek
هم عملکرد بهتری داره و این ادعا توی بنچمارکها تایید میشه :https://qwenlm.github.io/blog/qwen2.5-max/
نکته جالبتر؛ هیچکدوم از خبرگزاریها دیگه این مدل رو با
chatgpt
مقایسه نکردند و مستفیم با deepseek
مقایسه شده.Qwen
Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model
QWEN CHAT API DEMO DISCORD
It is widely recognized that continuously scaling both data size and model size can lead to significant improvements in model intelligence. However, the research and industry community has limited experience in effectively scaling…
It is widely recognized that continuously scaling both data size and model size can lead to significant improvements in model intelligence. However, the research and industry community has limited experience in effectively scaling…
👍38❤1
دستاوردهای یادگیری عمیق(InTec)
Alibaba ادعا کرده مدل جدیدش از deepseek هم عملکرد بهتری داره و این ادعا توی بنچمارکها تایید میشه : https://qwenlm.github.io/blog/qwen2.5-max/ نکته جالبتر؛ هیچکدوم از خبرگزاریها دیگه این مدل رو با chatgpt مقایسه نکردند و مستفیم با deepseek مقایسه شده.
من مدل رو روی زبان Rust و با توجه به تسکهای این چندروز اخیر خودم تست کردم.
بنظرم به خوبی Deepseek R1 نیست قطعا ولی از Deepseek v3 عملکرد بهتری داره.
خوبی مدل این هست که متدها و آرگومانهای ورژنهای آخر پکیجهارو به خوبی میشناسه؛ چیزی که توی chatgpt نیست.
اما سرعتش به خوبی chatgpt, deepseek نیست واقعا.
بنظرم به خوبی Deepseek R1 نیست قطعا ولی از Deepseek v3 عملکرد بهتری داره.
خوبی مدل این هست که متدها و آرگومانهای ورژنهای آخر پکیجهارو به خوبی میشناسه؛ چیزی که توی chatgpt نیست.
اما سرعتش به خوبی chatgpt, deepseek نیست واقعا.
👍24❤1
دستاوردهای یادگیری عمیق(InTec)
من مدل رو روی زبان Rust و با توجه به تسکهای این چندروز اخیر خودم تست کردم. بنظرم به خوبی Deepseek R1 نیست قطعا ولی از Deepseek v3 عملکرد بهتری داره. خوبی مدل این هست که متدها و آرگومانهای ورژنهای آخر پکیجهارو به خوبی میشناسه؛ چیزی که توی chatgpt نیست.…
از میزیتهای دیگهاش Image, Video جنریت رو داره (بصورت رایگان)
که تصاویر خوبی هم تولید میکنه؛ پرامپت تصویر بالا :
surprise me.
که تصاویر خوبی هم تولید میکنه؛ پرامپت تصویر بالا :
surprise me.
👍29❤3
نکته خیلی مهم که فراموش کردم بگم؛
بسیار بسیار برای توضیح دادن کدها عملکرد خوبی داره و حتی سوالات جزئی رو به خوبی جواب میده.
اگر خواستید تست کنید :
https://chat.qwenlm.ai
همهی موارد کاملا رایگان هستند.
بسیار بسیار برای توضیح دادن کدها عملکرد خوبی داره و حتی سوالات جزئی رو به خوبی جواب میده.
اگر خواستید تست کنید :
https://chat.qwenlm.ai
همهی موارد کاملا رایگان هستند.
chat.qwen.ai
Qwen Chat
Qwen Chat offers comprehensive functionality spanning chatbot, image and video understanding, image generation, document processing, web search integration, tool utilization, and artifacts.
👍30❤4
اینو یکی از بچههای توی گروه فرستاد؛ من هم که عصبی از سخنرانیهای احمقانه این مدت بعضی افراد بیدانش و بیسواد راجب هوشمصنوعی خیلی بد ریپلای زدم راجب سواد نویسنده (نمیدونم کی هست و افتخارم میکنم که نمیدونم کی هست)
حالا اومدم بپرسم بین شما کسی هست که تجربه دپلوی مدل هوش مصنوعی بویژه
یعنی تریبون رو دادید دست چندتا احمق که فرق ... و با گوشت کوبیده نمیدونند.
بعد میریم جلسه مدیر احمقتر میاد میگه چرا ما مدل ۱۲۰ میلیارد پارامتری خودمون رو نداریم چیه ما از چین کمتره و ...
نکنید اینکارو؛ تورو خدا هر خری رو معروف نکنید تورو خدا با بولدوزر از روشون رد بشید کاری کنید آبروی کل جامعه هوش مصنوعی ایران رو بردند این آدمها.
حالا اومدم بپرسم بین شما کسی هست که تجربه دپلوی مدل هوش مصنوعی بویژه
LLM
داشته باشه و از همه این مواردی که ذکر شده استفاده نکرده باشه ؟یعنی تریبون رو دادید دست چندتا احمق که فرق ... و با گوشت کوبیده نمیدونند.
بعد میریم جلسه مدیر احمقتر میاد میگه چرا ما مدل ۱۲۰ میلیارد پارامتری خودمون رو نداریم چیه ما از چین کمتره و ...
نکنید اینکارو؛ تورو خدا هر خری رو معروف نکنید تورو خدا با بولدوزر از روشون رد بشید کاری کنید آبروی کل جامعه هوش مصنوعی ایران رو بردند این آدمها.
👍57❤10
دستاوردهای یادگیری عمیق(InTec)
اینو یکی از بچههای توی گروه فرستاد؛ من هم که عصبی از سخنرانیهای احمقانه این مدت بعضی افراد بیدانش و بیسواد راجب هوشمصنوعی خیلی بد ریپلای زدم راجب سواد نویسنده (نمیدونم کی هست و افتخارم میکنم که نمیدونم کی هست) حالا اومدم بپرسم بین شما کسی هست که تجربه…
اشتباهاتش برای کسایی که تازهکار هستند میذارم البته (خیلیا از منم با سوادتر هستید. جسارت نمیکنم)
۱- پاراگراف دوم؛ بجای استفاده از ۳۲ رقم اعشار با ۸ رقم کار میکنه.
توضیح: به این تکنیک میگیم
سخنرانی من برای ورکشاپ شرکت (چندسال قبل) هم همین تکنیکها بحث شده بود که چطور مدلهارو دپلوی میکنیم و ... (روی گیتهاب میتونید پیدا کنید تاریخش رو) quantization انواع داره و فقط به Q8 خطم نمیشه یادتون باشه تا Q1 هم مقاله گذاشتم.
البته Q8 با محاسبه ۸ رقمی و حتی با ۸ رقم اعشار هم فرق داره و 8bit ایی هست؛ تفاوت این دو مورد زیاده
۲- جملات رو کامل میخونه و نه کلمه به کلمه و سرعت ۲ برابر میشه ؟
به خدا حتی طرف نمیدونه بافر چطوری عمل میکنه یا ... اگر هم منظورش
اصلا نه فنی - نه تکنیکی نه توی هیچ شاخه از کامپیوتر این حرف درست نیست؛ برای همین نمیتونم توضیحی راجبش بدم.
۳- مهمترین کارش سیستم تخصصی هست.
استفاده از مدلهای تخصصی بسیار مرسوم هست؛ از
برید بالاتر توی پستها بسیار درمورد این موضوع گفتم (چندین سال قبل) +
۴- درنهایت
تا همینجاش خودش تعجب آور هست که خب این رو داره دستاورد مدل هوش مصنوعی میبینه یا دستاورد تیم توسعه یا چون رایگان هست داره میگه
قطعا با
بزرگترین
اما ادامه جمله چه ربطی به این بخش داشت خیلی عجیبتر هست. میگه :
دیدیم که سواد و درکی از
یعنی الان روی لوکال هاست نگران آپلود فایلهاش هست ؟ اینترنت مصرف نشه ؟
اینو واقعا متوجه نشدم ولی اگر شما شدید به منم بگید.
در نهایت نیت بنده جدا کردن افراد ابزار یاد گرفته از متخصص هست و این صحبتها باید توسط متخصص انجام بشه (نه اونی که رفته
از من با ۹ سال سابقه کار
حتی با همین تریبون کوچیکی که توی این ۹-۱۰ سال ساخته شده.
پ.ن: لینک مقاله اگر خواستید دقیقتر بدونید چیکار میکنه
https://arxiv.org/pdf/2501.12948
۱- پاراگراف دوم؛ بجای استفاده از ۳۲ رقم اعشار با ۸ رقم کار میکنه.
توضیح: به این تکنیک میگیم
Quantization
برگردید به پستهای 2017-2018
از اون زمان Quantization
تکنیکی برای دپلوی بوده (ما هم انجام میدادیم دیگه)سخنرانی من برای ورکشاپ شرکت (چندسال قبل) هم همین تکنیکها بحث شده بود که چطور مدلهارو دپلوی میکنیم و ... (روی گیتهاب میتونید پیدا کنید تاریخش رو) quantization انواع داره و فقط به Q8 خطم نمیشه یادتون باشه تا Q1 هم مقاله گذاشتم.
البته Q8 با محاسبه ۸ رقمی و حتی با ۸ رقم اعشار هم فرق داره و 8bit ایی هست؛ تفاوت این دو مورد زیاده
what is computer 101
۲- جملات رو کامل میخونه و نه کلمه به کلمه و سرعت ۲ برابر میشه ؟
به خدا حتی طرف نمیدونه بافر چطوری عمل میکنه یا ... اگر هم منظورش
embedding
هست که وای به حال ما که این اومده برای ما توضیح بده.اصلا نه فنی - نه تکنیکی نه توی هیچ شاخه از کامپیوتر این حرف درست نیست؛ برای همین نمیتونم توضیحی راجبش بدم.
۳- مهمترین کارش سیستم تخصصی هست.
استفاده از مدلهای تخصصی بسیار مرسوم هست؛ از
chatgpt3
.5 اینکار شروع شده.برید بالاتر توی پستها بسیار درمورد این موضوع گفتم (چندین سال قبل) +
RouteLLM
رو هم بعنوان یک روش advance
تر از تکنیک اولیه معرفی کردم. چون فقط بحث پاسخدهی بهتر نبود بلکه پایین آوردن هزینه هم بود.۴- درنهایت
deepseek
محدودیت آپلود فایل نداره.تا همینجاش خودش تعجب آور هست که خب این رو داره دستاورد مدل هوش مصنوعی میبینه یا دستاورد تیم توسعه یا چون رایگان هست داره میگه
قطعا با
context length
آشنایی نداره؛ چون تو میتونی توی همه پلتفرمها هر آشغالی که میخوای رو به مدل بدی. بزرگترین
context length
تا آخرین اخبار و مقالاتی که شخصا مطالعه داشتم مربوط به Gemini
هست با حدود 1.5- 2 میلیون توکن روی پروداکشن.اما ادامه جمله چه ربطی به این بخش داشت خیلی عجیبتر هست. میگه :
نکته دیگه اینکه Deepseek محدودیت آپلود نداره؛ بلکه اپن سورس هم هست.
دیدیم که سواد و درکی از
context-length
نداشت.یعنی الان روی لوکال هاست نگران آپلود فایلهاش هست ؟ اینترنت مصرف نشه ؟
اینو واقعا متوجه نشدم ولی اگر شما شدید به منم بگید.
در نهایت نیت بنده جدا کردن افراد ابزار یاد گرفته از متخصص هست و این صحبتها باید توسط متخصص انجام بشه (نه اونی که رفته
Swagger
مربوط به OpenAI
رو خونده)از من با ۹ سال سابقه کار
AI
گذشته (شدیدا هم علاقهام درحال حاضر روی system development
هست و زبان Rust
) ولی نمیذارم زحمت کسایی که خاک ریاضیات و درک لایهها و فرمولهارو خوردن با این چرت و پرتها از بین بره.حتی با همین تریبون کوچیکی که توی این ۹-۱۰ سال ساخته شده.
پ.ن: لینک مقاله اگر خواستید دقیقتر بدونید چیکار میکنه
https://arxiv.org/pdf/2501.12948
❤50👍30
#موقت
چندتا مورد پرسیدید:
۱- شاید این بنده خدا فقط خواسته ابزار رو معرفی کنه:
- مشکلی با معرفی ابزار نداریم؛ کلی یوتیوبر و دلقکای اینستاگرام دارن اینکارو میکنند ولی ژشست من فهمیدم اینا چیکار کردن بیا برا تو توضیح بدم نگیرند.
همین مونده فردا مدیرمون بیاد بگه اینو ببرید روی
۲- درمورد اینکه آیا از
خارج شدن نیست؛ خیلی از مفاهیم رو میدونم و خوندن مقالات جدید برای کارهای پروداکشن دیگه کار سختی نیست.
الان مثل اوایل نیست که بخاطر کمبود و ... مبجور بودم توی چند بخش کارکنم
۳- برای خود
زبان جذاب و مورد علاقهام هست؛ من سابقه کار با زبانهای low-level رو قبل از شروع به پایتون دارم و همیشه هم بهشون علاقه داشتم.
الان بعد از مدتی که با Rust آشنا شدم و یادگیری اولیه رو پشت سر گذاشتم بسیار بیشتر بهش علاقهمند شدم و هدفم ادامه دادن همین مسیر شده.
همونطور که چندسال قبل گفتم اشتباه کردم Software Engineering رو فدای یادگیری سریع در زمینه AI کردم که کاملا هم درست بود و خداروشکر سریع هم تصحیح کردم خودم.
اینبار حاصل علاقه شخصیم و پست نوشتن راجب وقابع یادگیری Rust شده @pyrust و بازگشت به مفاهیم پایه و عادت سورس کد خوندن (من واقعا از خوندن کدهای تمیز لذت میبرم ۱ دونه در روز برام کافیه تا روزم رو بسازه و توی سورس کد Rust این اتفاق حتما روزی ۱ بار حداقل میوفته)
چندتا مورد پرسیدید:
۱- شاید این بنده خدا فقط خواسته ابزار رو معرفی کنه:
- مشکلی با معرفی ابزار نداریم؛ کلی یوتیوبر و دلقکای اینستاگرام دارن اینکارو میکنند ولی ژشست من فهمیدم اینا چیکار کردن بیا برا تو توضیح بدم نگیرند.
همین مونده فردا مدیرمون بیاد بگه اینو ببرید روی
float8
(که اصلا نداریم) عددی سرعتمون زیاد شه؛ بهونه نیارید یوزر زیاد شده.۲- درمورد اینکه آیا از
AI
خارج میشم:خارج شدن نیست؛ خیلی از مفاهیم رو میدونم و خوندن مقالات جدید برای کارهای پروداکشن دیگه کار سختی نیست.
الان مثل اوایل نیست که بخاطر کمبود و ... مبجور بودم توی چند بخش کارکنم
R&D, ML engineer, MLOps, BAckend, ...
و چون کارهای بنده به خلق مدل جدید یا تحقیقات دانشگاهی نیست دستم بازتر شده؛ دونستن بسیازی از مفاهیم هم کمک میکنه راحتر روی مطالب جدید آپدیت بشم.۳- برای خود
Rust
؟زبان جذاب و مورد علاقهام هست؛ من سابقه کار با زبانهای low-level رو قبل از شروع به پایتون دارم و همیشه هم بهشون علاقه داشتم.
الان بعد از مدتی که با Rust آشنا شدم و یادگیری اولیه رو پشت سر گذاشتم بسیار بیشتر بهش علاقهمند شدم و هدفم ادامه دادن همین مسیر شده.
همونطور که چندسال قبل گفتم اشتباه کردم Software Engineering رو فدای یادگیری سریع در زمینه AI کردم که کاملا هم درست بود و خداروشکر سریع هم تصحیح کردم خودم.
اینبار حاصل علاقه شخصیم و پست نوشتن راجب وقابع یادگیری Rust شده @pyrust و بازگشت به مفاهیم پایه و عادت سورس کد خوندن (من واقعا از خوندن کدهای تمیز لذت میبرم ۱ دونه در روز برام کافیه تا روزم رو بسازه و توی سورس کد Rust این اتفاق حتما روزی ۱ بار حداقل میوفته)
❤24👍12