Telegram Web Link
اگه ترنسفورمر مثل یک حافظه کوتاه مدت عمل میکنه، چطوری به حافظه بلند مدت ماشینی میشه رسید؟

محقق ها سال‌هاست که به دنبال راه‌هایی برای بهبود مدل‌های زبانی هستن. رویکردهای مختلفی برای برخورداری از حافظه قوی وجود داره. مثلا مدل‌های بازگشتی (Recurrent Models) تلاش میکنه تا اطلاعات رو تو یک حافظه با اندازه ثابت، که بهش حالت پنهان (Hidden State) میگن ذخیره کنه.
از طرف دیگه، مکانیزم توجه (Attention Mechanism) این امکان رو می‌ده که مدل به تمام قسمت‌های متن ورودی نگاه کنه و وابستگی‌های بین کلمات رو بهتر درک کنه. اما این روش به دلیل هزینه محاسباتی بالا، مدلو محدود به طول مشخصی از متن میکنه.

برای حل این مشکل، محققان یک ماژول حافظه عصبی جدید طراحی کرده‌اند که میتونه اطلاعات گذشته رو به خاطر بسپاره و به مکانیزم توجه کمک کنه تا با استفاده از این اطلاعات، متن فعلی رو بهتر پردازش بکنه. این حافظه عصبی نه تنها آموزش سریعی داره بلکه در زمان استفاده نیز عملکرد سریعی از خود نشان می‌دهد.

از دیدگاه حافظه، مکانیزم توجه به دلیل محدودیت در طول متن ورودی، مانند یک حافظه کوتاه‌مدت عمل میکنه. در حالی که این رویکرد حافظه عصبی جدید، با توانایی ذخیره‌سازی اطلاعات برای مدت طولانی‌تر، نقش یک حافظه بلندمدت رو ایفا می‌کنه.

بر اساس این دو مفهوم، معماری جدیدی به نام "Titans" معرفی شده که شامل سه نوع مختلفه و نشون میده چگونه میتوان به طور مؤثر از حافظه در این ساختار استفاده کرد. آزمایش‌ها نشون دادن که Titans در مدل‌سازی زبان، استدلال مبتنی بر عقل سلیم، ژنومیکس و تحلیل سری‌های زمانی، عملکرد بهتری نسبت به ترنسفورمرها (Transformers) و مدل‌های بازگشتی خطی مدرن داره. همچنین، این معماری میتونه با دقت بالاتری، متون با طول بیش از ۲ میلیون کلمه را پردازش کند.

دو هفته پس از معرفی Titans، تیمی از محققان ساکانا AI و مؤسسه علوم توکیو، معماری جدیدی به نام «Transformer Squared» رو معرفی کردند که به مدل‌های هوش مصنوعی این امکانو میده تا در زمان اجرا، رفتار خودشو بر اساس وظیفه تغییر بده.
Titans: Learning to Memorize at Test Time

@silicon_brain | از هوش مصنوعی عقب نمانید
استارتاپ چینی DeepSeek و کاهش شدید ارزش‌ شرکت‌های آمریکایی

استارتاپ DeepSeek باعث فروش گسترده نزدیکه به 2 تریلیون دلاری در بازار فناوری شده است که انویدیا در آستانه بزرگترین کاهش تاریخ خود شده (بیش از 500 میلیارد دلار از ارزش بازار خود را از دست داده است).

به زبان ساده، DeepSeek نشان می‌دهد که مدل‌های هوش مصنوعی می‌توانند روی تراشه‌های کمتر پیشرفته و با 1/30هزینه (گزارش شده بین 5 تا 6 میلیون دلار) اجرا شوند و عملکردی به همان خوبی یا حتی بهتر داشته باشند.

غول‌های فناوری میلیاردها دلار برای هزینه‌های سرمایه‌ای (CapEx) در سال جاری متعهد شده‌اند (مثلاً مایکروسافت 80 میلیارد دلار)، اما سرمایه‌گذاران اکنون در حال بررسی بازده سرمایه‌گذاری (ROI) این پروژه‌ها هستند اگر مدل‌های کم‌هزینه‌ای مانند DeepSeek به همان خوبی عمل کنند.

هزینه آموزش مدل GPT-4 شرکت OpenAI: بیش از 600 میلیون دلار
هزینه DeepSeek: تنها 6 میلیون دلار

OpenAI: بیش از 100 دلار برای هر میلیون توکن
DeepSeek: کمتر از 4 دلار برای هر میلیون توکن

@silicon_brain | از هوش مصنوعی عقب نمانید
هواوی Ascend 910C و شروعی بر پایان انحصار؟!

با این که انویدیا هنوز توی بازار هوش مصنوعی حرف اول رو می‌زنه و محصولاتی مثل A100 و H100 ارائه داده، هواوی نشون داده که با هزینه کمتر هم می‌شه به نتایج مشابه رسید. Ascend 910C با معماری پیشرفته و استفاده از حافظه ۳D، پردازش‌های مربوط به استنتاج مدل‌های هوش مصنوعی رو با سرعت بالا و بهینه انجام می‌ده.

مدل DeepSeek-R1 ابتدا با استفاده از بیش از دو هزار GPU H800 از انویدیا آموزش داده شده. اما نکته مهم اینه که هواوی میتونه پردازنده‌های خودشو برای اجرای این مدل به کار بگیره.

تا پیش از این، شرکت‌های چینی برای هم آموزش (Training) و هم استنتاج (Inference) مدل هاشون به پردازنده‌های گرافیکی انویدیا و AMD وابسته بودن.
اما الان، هواوی در حال پر کردن این خلأ هستش و چین رو یه قدم دیگه به خودکفایی در صنعت AI نزدیک‌تر میکنه.

در کل، پیشرفت چیپ‌های Ascend و استفاده از اون‌ها توی ابزارهایی مثل DeepSeek داره بازار AI رو تغییر می‌ده. با ورود Ascend 920C، هواوی ممکنه این تحول رو سرعت بده و تسلط انویدیا رو به چالش بکشه

@silicon_braon | از هوش مصنوعی عقب نمانید
رقابت تو بازار هوش مصنوعی داره قیمت ها رو میاره پایین. جدیدا Lambda فقط ۰.۰۲ دلار برای هر ۱ میلیون توکن LLM میگیره. فک کنم این کمترین قیمتی هست که فعلا وجود داره.

پلتفرم Lambda یه API برای پردازش هوش مصنوعی داره که ارزونه و محدودیت سرعت هم نداره. می‌تونی مدل‌های جدید مثل Llama 3.3، Hermes 3، Qwen 2.5، و LFM-40B رو اجرا کنی و هرچقدر خواستی مقیاس‌پذیری داشته باشی

lambdalabs.com

@silicon_brain | از هوش مصنوعی عقب نمانید
Please open Telegram to view this post
VIEW IN TELEGRAM
این رفتار مدل اوپن سورس و خفن DeepSeek-R1 هست.
نباید یه مدل اوپن سورس رفتار بی طرفانه و منطقی از خودش نشون بده؟ قطعا DeepSeek اینکارو نمیکنه!ً

اینجاست که یه چالش جدی پیش میاد: چطور می‌شه بین هوش مصنوعی هدایت‌شده، بی‌طرفی و آزادی بیان تعادل ایجاد کرد؟ آیا واقعاً می‌تونیم به مدلی برسیم که بدون هیچ فیلتر و محدودیتی، مثل یه انسان در جامعه‌ی آزاد فکر کنه؟ یا قراره برای همیشه تفکرات مدل ها همسو با تفکرات سازنده هاشون باشه؟!

@silicon_brain | از هوش مصنوعی عقب نمانید
این روزا همه در مورد قابلیت های دیپ سیک صحبت میکنن و همه متخصص هوش مصنوعی شدن و تحلیل میکنن 😂
اگه میخوای یه درک عمومی از این موضوع داشته باشی، این مقایسه ساده رو ببین و از این به بعد، اگه جایی مطلبی در مورد توانایی های دیپ سیک دیدین رد بشین.
@silicon_brain
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
میشه انواع مختلف دیتا رو تو دیتابیس مخصوص خودش ذخیره کرد. البته همیشه دیتا مخصوص نداریم، بعضی وقتا دیتا عادی هست اما کاربرد خاص ما باعث میشه بریم سمت یه دیتابیس دیگه

Relational Databases:
داده‌ها در جداول با روابط مشخص ذخیره می‌شوند. نمونه‌ها: MySQL، PostgreSQL، Oracle Database.

NoSQL:
برای ذخیره داده‌های بدون ساختار یا نیمه‌ساختار و مدیریت حجم بالای داده‌ها با انعطاف‌پذیری بالا استفاده می‌شوند. نمونه‌ها: MongoDB، Couchbase.

Time-Series Databases:
برای ذخیره و تحلیل داده‌های وابسته به زمان استفاده می‌شوند. نمونه‌ها: InfluxDB، Prometheus.

Distributed Databases:
داده‌ها در چندین سرور توزیع شده و مقیاس‌پذیری بالایی دارند. نمونه‌ها: Apache Cassandra، Amazon DynamoDB.

In-Memory Databases:
داده‌ها در حافظه ذخیره می‌شوند و سرعت دسترسی بسیار بالایی دارند. نمونه‌ها: Redis، Memcached.

@silicon_brain I از هوش مصنوعی عقب نمانید
دانشگاه استنفورد ابزاری به نام STORM رو ساخته که با کمک هوش مصنوعی می‌تونه در لحظه صدها سایت و مقاله مرتبط با موضوع شما رو اسکن کنه و یه مقاله خلاصه ازش بسازه بده.
لینک

@silicon_brain I از هوش هوش عقب نمانید
@Silicon_Brain Your First RAG.pdf
1.3 MB
داکیومنتی برای ساخت اولین سیستم RAG

فک کنم الان همه در مورد RAG و اهمیتش بدونن ولی اگه میخوای برای پیاده سازیش یه رودمپ خوبی داشته باشی میتونی از این داکیومنت استفاده کنی

این فایل آموزشی شامل مراحل ساخت یک سیستم RAG ساده برای پاسخگویی به سوالات بر اساس اسناد هستش. مفاهیم کلیدی مانند استخراج متن (Text Extraction)، تقسیم‌بندی متن (Text Chunking) و جستجوی برداری (Vector Search) و تمامی مباحث مورد نیاز رو پوشش داده.

@silicon_brain | از هوش مصنوعی عقب نمانید
مدیرعامل OpenAI، سم آلتمن:

نکاتی که سم آلتمن تو بلاگش منتشر کرده:

- هوش مصنوعی به صورت لگاریتمی با منابع افزایش پیدا می‌کنه و هیچ نقطه اشباعی برای اون وجود نداره.
- هزینه‌های هوش مصنوعی با سرعت بی‌سابقه‌ای کاهش پیدا می‌کنه و هر ۱۲ ماه ۱۰ برابر کاهش پیدا می‌کنه.
- عامل‌های هوش مصنوعی به عنوان نیروی کار مقیاس‌پذیر با دانش در نظر گرفته می‌شن که کارهای محدود رو به صورت گسترده انجام می‌دن.
- انتظار میره پیشرفت علم با خودکار شدن وظایف پیچیده استدلالی سرعت بگیره.
- هوش مصنوعی به طور گسترده در بخش‌های اقتصادی ادغام می‌شه و فرآیندهای کاری رو تغییر
می‌ده بدون اینکه اختلالات بزرگی ایجاد کنه.

@silicon_brain | از هوش مصنوعی عقب نمانید
بهشت دیتاست ها

امروز آرشیو داده‌های data.gov رو روی Source Cooperative منتشر کردن.

این مجموعه 16 ترابایتی شامل بیش از 311,000 دیتاست هست که در سال‌های 2024 و 2025 جمع‌آوری شده، و یه آرشیو کامل از داده‌های عمومی فدرال هست که توسط data.gov لینک شدن.

این آرشیو به‌طور روزانه آپدیت میشه و داده‌های جدید به data.gov اضافه می‌شه.
لینک

@silicon_brain | از هوش مصنوعی عقب نمانید
🔹 معرفی OpenRouter 🔹

اگر به دنبال یک راه عالی برای مقایسه و رتبه‌بندی مدل‌های زبان بزرگ (LLM) هستید، سایت OpenRouter گزینه‌ی فوق‌العاده‌ای است! 🚀

🔍 این پلتفرم رتبه‌بندی مدل‌های مختلف را براساس عملکرد و کیفیت آن‌ها ارائه می‌دهد و به شما کمک می‌کند تا بهترین مدل را برای نیازهای خود انتخاب کنید.

📊 از مقایسه‌ی مدل‌های قدرتمند گرفته تا بررسی قابلیت‌های API، همه‌چیز در OpenRouter در دسترس شماست!
https://openrouter.ai/rankings

#هوش_مصنوعی
📣👨‍💻
@AlgorithmDesign_DataStructuer
به‌روزرسانی مهم OpenAI: انتشار نسخه ‏جدید Model Spec

شرکت OpenAI به‌تازگی نسخه جدیدی از سند «Model Spec» رو منتشر کرده؛ این سند ۶۳ صفحه‌ای چارچوبی رو تعیین میکنه که نشون میده مدل‌های هوش مصنوعی در موقعیت‌های مختلف چطور باید رفتار کنن. این به‌روزرسانی قوانین سخت‌گیرانه‌تری را برای کاهش تعصب و بهبود دقت اطلاعاتی معرفی کرده.

نکات برجسته:
-اولویت‌بندی قوانین پلتفرم: قوانین پلتفرم بالاتر از ترجیحات توسعه‌دهنده و کاربر قرار میگیره.

-برخورد با موضوعات بحث‌برانگیز: به‌جای بی‌طرفی، تمرکز روی دقت اطلاعاتی.

-کاهش چاپلوسی هوش مصنوعی: مدل‌ها نباید تعصبات کاربر را تقویت کنن.

-گزینه‌های سفارشی‌سازی: شامل آزمایش‌هایی برای «حالت بزرگسالان» برای مدیریت محتوای بالغ.

-انتشار در حوزه عمومی: این سند تحت مجوز CC0 منتشر شده تا شرکت‌های هوش مصنوعی یتونن ازش استفاده یا تغییر بدن.
-در واقع OpenAI با این تغییرات میخواد نشون بده که برای همگام‌سازی رفتار مدل‌ها با استانداردهای اجتماعی و ملاحظات اخلاقی داره تلاش میکنه،
لینک
@silicon_brain | از هوش مصنوعی عقب نمانید
مدل‌های سری o از OpenAI، مانند o3 و o3-mini، برای وظایف پیچیده و چندمرحله‌ای طراحی شدن. این مدل‌ها در حوزه‌هایی مانند مالی، حقوقی و مهندسی که نیاز به دقت بالایی دارن عملکرد برجسته‌ خودشونو نشون میدن. برخلاف مدل‌های GPT که وظایف مشخص رو به‌خوبی انجام میدن مدل‌های سری o توانایی استراتژی‌سازی و تصمیم‌گیری خوبی دارن.

اگه حوصله داشتی این داکیومنت رو بخونی، میگه که:
Learn when to use reasoning models and how they compare to GPT models.
اگرم که حوصلشو نداری خلاصه ش اینه که:
-مدل‌های سری o برای استدلال و تصمیم‌گیری طراحی شدن در حالی که مدل‌های GPT برای انجام وظایف تعریف‌شده کارآمدتر هستن.
-در پروژه‌هایی با پیچیدگی بالا و نیاز به تحلیل عمیق، مدل‌های سری o انتخاب مناسبی هستن.
-برای بهره‌گیری بهینه، دستورات باید به‌صورت واضح و مرحله‌به‌مرحله به مدل‌های سری o ارائه شود.

@silicon_brain | از هوش مصنوعی عقب نمانید
استفاده از توابع Async در بک اند یادگیری ماشین

فقط ساختن مدل یادگیری ماشین که هنر نیست باید بتونی خیلی بهینه سرویسش کنی و رو پروداکشن استفاده بشه

تو یادگیری ماشین معمولاً یه عالمه تسک سنگین داریم، مثل پردازش داده، یادگیری مدل، کوئری زدن به دیتابیس، یا حتی تعامل با APIها. اگه همه‌ی اینا به صورت سینکرون (همزمان) اجرا بشن، کلی وقت هدر میره، چون برنامه منتظر می‌مونه تا هر تسک یکی‌یکی انجام بشه.

حالا فرض کن داری یه API می‌نویسی که مدل یادگیری ماشینت قراره در لحظه به درخواست‌های مختلف جواب بده. اگه بدون async این کار رو کنی، هر درخواست جدید باید منتظر بمونه تا قبلی تموم بشه. اما با async می‌تونی چندین درخواست رو موازی (concurrent) پردازش کنی.

مثلاً تو یه پروژه FastAPI که یه مدل یادگیری ماشین داره، می‌تونی اینجوری از async استفاده کنی:
from fastapi import FastAPI
import asyncio

app = FastAPI()

async def predict_async():
await asyncio.sleep(2) # شبیه‌سازی پردازش سنگین
return {"prediction": "نتیجه مدل"}
@app.get("/predict")
async def predict():
return await predict_async()

اینجا هر درخواست جدید لازم نیست منتظر تموم شدن درخواست قبلی بمونه، بلکه همه‌ی درخواست‌ها به صورت همزمان پردازش می‌شن.

اگه یه مدل یادگیری ماشین داری که باید سریع و real-time پاسخ بده، async باعث می‌شه درخواست‌ها همزمان پردازش بشن.
پس خلاصه بگم، async برای جاهایی که I/O زیادی داریم و نمی‌خوایم CPU بیخودی منتظر بمونه، خیلی مفیده. اما برای کارای محاسباتی خیلی سنگین (مثلاً یادگیری مدل) که فقط CPU داره کار می‌کنه، بهتره از چندپردازشی (multiprocessing) استفاده کنیم (در موردش میگم)
@silicon_brain | از هوش مصنوعی عقب نمانید
2025/07/01 11:25:10
Back to Top
HTML Embed Code: