Telegram Web Link
‏OpenAI: تفکر با تصویر و اتصال زنجیری ابزار برای رسیدن به هدف!

جدیدا OpenAI یه سری مدل جدید معرفی کرده که این مدل‌ها فقط با متن سر و کار ندارن؛ می‌تونن با تصاویر هم فکر کنن! یعنی مثلاً از روی نمودارها، عکس‌های دست‌نویس، اسکرین‌شات نرم‌افزارها یا دیاگرام‌های پیچیده، اطلاعات و مفهوم استخراج کنن و بر اساسش استدلال کنن. حتی اگه عکس یه معادله ریاضی باشه، می‌تونن بفهمن و باهاش کار کنن.

از نظر عملکرد هم o3 فعلاً بهترین رتبه رو توی تست‌های مرتبط با استدلال و منطق گرفته؛ توی رقابت‌هایی مثل SWE-bench و Codeforces تونسته از بقیه مدل‌ها پیشی بگیره

در کنارش o4-mini که بیشتر برای مواقعی ساخته شده که سرعت و حجم پاسخ‌دهی برات مهمه ولی همچنان نیاز به یه مدل با قدرت استدلال داری. این مدل توی رقابت‌های مثل AIME امتیاز بالایی گرفته

این مدل‌ها با API رسمی OpenAI قابل دسترسی هستن و حتی کاربرهای رایگان هم می‌تونن از o4-mini در حالت «Think» استفاده کنن.
مدل o4-mini نسبت به o3 سرعت بیشتری داره و سقف استفاده بالاتری رو هم ساپورت می‌کنه.

@silicon_brain | از هوش مصنوعی عقل نمانید
تفاوت فنی Gemini و Gemma چیه؟

مدل‌های Gemini و Gemma، هر دو توسط Google منتشر شدن اما اهداف و ویژگی‌های متفاوتی دارن.

​مدل Gemini یک مدل زبانی بزرگ و چندمنظوره هست که توسط DeepMind توسعه یافته و میتونه انواع داده‌ها مثل متن، تصویر، صدا، ویدئو و کد رو به‌صورت همزمان پردازش کنه. این مدل از معماری Transformer با ترکیب Mixture-of-Experts (MoE) بهره میبره تا وظایف پیچیده رو با کارایی بالا انجام بده. نسخه‌های مختلفی از Gemini وجود داره از جمله Ultra، Pro، Flash و Nano، که هر کدومش برای کاربردهای خاصی طراحی شدن. نسخه Gemini 1.5 Pro میتونه تا ۱ میلیون توکن رو در یک واحد پردازش کنه

از سوی دیگر، Gemma یک خانواده از مدل‌های سبک و open-source هستش که بر پایه تحقیقات Gemini توسعه یافته. این مدل‌ برای استفاده در محیط‌های با منابع محدود مثل لپ‌تاپ‌، موبایل و پروژه‌های تحقیقاتی طراحی شده. Gemma از معماری Transformer با بهینه‌سازی‌هایی مانند افزایش نسبت توجه محلی به جهانی برای کاهش مصرف حافظه استفاده میکنه در نسخه Gemma 3، پنجره متنی تا ۱۲۸ هزار توکن افزایش یافته.

@silicon_brain | از هوش مصنوعی عقب نمانید
در ادامه پست قبلی بگم که چرا از نظر بیزینس بعضی‌ از شرکت ها مثل Meta مدل‌هاشون رو به‌صورت open-source منتشر می‌کنن، در حالی که بعضیا دیگه مثل OpenAI انحصاری نگه می‌دارن. و بعضیا مثل Google هر دو استراتژی رو در پیش میگیرن:

استراتژی متن‌باز:
شرکت Meta با انتشار مدل‌های LLaMA به‌صورت متن‌باز، دنبال اینه که با جذب برنامه نویسا و محقق ها، افراد بیشتری بتونن با این مدل‌ها کار کنن، اونا رو بهبود بدن و در پروژه‌های خودشون استفاده کنن. این استراتژی به Meta کمک می‌کنه تا در جامعهٔ هوش مصنوعی نفوذ بیشتری پیدا کنه و به‌عنوان پیشرو در این حوزه شناخته بشه.​
همچنین، با متن‌باز کردن مدل‌ها، Meta می‌تونه بازخوردهای بیشتری دریافت کنه و مدل‌هاش رو سریع‌تر بهبود بده. این کار به توسعهٔ سریع‌تر فناوری و افزایش شفافیت کمک می‌کنه.​

استراتژی انحصاری:
اما OpenAI مدلاشو به‌صورت انحصاری نگه می‌داره. این موضوع بهشون اجازه می‌ده کنترل بیشتری روی نحوه استفاده از مدل‌ها داشته باشه و همزمان پلن های درآمدیشو هم جلو ببره. با ارائهٔ مدل‌ها به‌صورت سرویس، می‌تونن از کاربران هزینه دریافت کنن و مدل‌هاشون رو به‌عنوان محصولات تجاری عرضه کنن.​

این استراتژی به OpenAI کمک می‌کنه تا از رقبا جلوتر بمونه و از فناوری خودش محافظت کنه. اما ممکنه باعث بشه برنامه نویسا و محقق ها نتونن به‌راحتی با مدل‌هاشون کار کنن یا اون‌ها رو برای نیازهای خاص خودشون تنظیم کنن.​

بعضیا هم مثل گوگل هر دو روشو رو با هم انجام میدن تا از مزیت های هر دو روش همزمان برخورددار بشن

@silicon_brain | از هوش مصنوعی عقب نمانید
Please open Telegram to view this post
VIEW IN TELEGRAM
a-practical-guide-to-building-agents.pdf
7 MB
اینم داکیومنت ساخت Agent که OpenAI منتشر کرده
پست قلبی هم نسخه منتشر شده توسط گوگل بود

@silicon_brain I از هوش مصنوعی عقب نمانید
آینده SEO به چه سمتی میره؟

من زیاد ندیدم بعد از ظهور چت بات ها کسی کسی در مورد SEO صحبت کنه

با رشد چت‌بات‌ها و LLMها ، رفتار کاربرا توی اینترنت داره عوض میشه. قبلاً یکی می‌خواست یه چیزی بدونه، می‌رفت تو گوگل سرچ می‌کرد، کلی لینک می‌دید و از بینشون انتخاب می‌کرد. ولی الان خیلی‌ها مستقیم از چت‌بات می‌پرسن و جواب رو همونجا می‌گیرن، بدون اینکه لازم باشه وارد سایت خاصی بشن.

یعنی یه بخشی از ترافیکی که قبلاً از گوگل به سایت‌ها میومد، ممکنه کم بشه. وقتی ترافیک کم بشه، ارزش SEO (بهینه‌سازی سایت برای موتورهای جستجو) هم یکم میاد پایین. چون دیگه همه چیز وابسته به سرچ گوگل نیست.

@silicon_brain | از هوش مصنوعی عقب نمانید
تکنولوژی MCP، آداپتور جهانی برای تمامی AIها

قبلا اگه میخواستی به LLM‌ ها بگی یه فعالیت بیرونی انجام بدن (مثلا تو وب بگرده یا یک مخزنی رو تو گیتهاب بررسی کنه و هر ابزار دیگه)، باید برای هر مدل یک روند کاستوم نوشته میشد که مشخصا این روش هزینه بالایی داره و تعداد سرویس هایی که تو پروژتون باش درگیر میشی خیلی بالا میره و یک اکوسیستم تکه‌تکه درست میشه!

با اومدن Model Context Protocol (MCP) یک پروتکل ثابت ایجاد شده که همه مدل ها از اون پیروی میکنن ، یعنی شما به هر مدل زبانی ای بگی مثلا لیست ۱۰ ایمیل آخر من رو بده به لطف MCP میره و اون کار رو در قالب استانداری انجام میده.

در حال حاضر هم بیش از ۱۰۰ تا ابزار استاندارد MCP داریم که اکثر کتابخانه هایی که برای ساخت agent هستن ازشون پشتیبانی میکنن ولی این دو تا رو من پیشنهاد میکنم
MCP Python SDK
FastMCP

@silicon_brain | از هوش مصنوعی عقب نمانید
Forwarded from DeepMind AI Expert (Farzad 🦅)
سام آلتمن، مدیر عامل OpenAI، گفته:
کاربرایی که به ChatGPT "لطفا" و "متشکرم" میگن، ده‌ها میلیون دلار هزینه منابع محاسباتی اضافی غیرضروری به شرکت تحمیل میکنن!
تازه این عبارات مودبانه نیاز به قدرت پردازش بیشتری هم دارن!!

https://www.perplexity.ai/page/politeness-to-chatgpt-raises-o-qu9DjX3DRp6v5fwHtNVYQA

#مقاله #ایده_جذاب #ایجنت #متن_باز #پردازش_زبان_طبیعی #هوش_مصنوعی

پ.ن: برای کمک به خودتون هم شده از به کاربردن هر کلمه محبت امیزی به هوش مصنوعی خودداری کنید تا مدل هدف شما رو بیشتر بفهمه و مدل از بایاس شدن و متوهم شدن برای جلوگیری به عمل اومده باشه.

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
Please open Telegram to view this post
VIEW IN TELEGRAM
به نظرم به کارگیری هوش مصنوعی در مشاغل برای کشور های پیشرفته بهتر از کشور های در حال توسعه (یا جهان سوم) هست. چرا؟

تو کشورهای پیشرفته که جمعیت کاری کمتر یا مسن‌تری دارن، استفاده از AI برای جایگزینی نیروی انسانی تو خیلی از مشاغل تکراری یا نیازمند دقت بالا منطقی‌تره. AI میتونه کمبود نیروی انسانی رو جبران کنه و رشد اقتصادی رو همزمان حفظ کنه.

تو کشورهای جهان سوم با نیروی کار زیاد اما آموزش‌ندیده، جایگزینی انسان با AI میتونه باعث افزایش بیکاری و شکاف طبقاتی بشه (مخصوصا اگه بدون برنامه‌ریزی انجام بشه).

قطعا موضوع مطرح شده دلیلی بر این نیست که تو کشورهای در حال توسعه نباید هوش مصنوعی استفاده بشه. اما استفاده شدن بدون برنامه ریزی پتانسیل ایجاد بحرانو داره!
@silicon_brain | از هوش مصنوعی عقب نمانید
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
پیش‌بینی صد سال پیش آرتور سی کلارک

اونایی که تو این زمینه‌ها فعالیت دارن دچار بایاس ذهنی پیشرفت هستن. خیلی وقت‌ها متوجه نیستیم که این پیشرفت های ریز مداوم مارو تو مهم ترین عصر انتقال هوشمندی قرار داده و ما همه وظیفه این انتقالو داریم

@silicon_brain I از هوش مصنوعی عقب نمانید
Please open Telegram to view this post
VIEW IN TELEGRAM
پیشرفت چشمگیر DeepSeek-Prover-V2 در ترکیب منطق غیررسمی و رسمی

مدل DeepSeek-Prover-V2 توسط محققان DeepSeek-AI برای پر کردن شکاف بین استدلال غیررسمی و رسمی در ریاضیات معرفی شده.

این مدل، توانایی تبدیل شهود ریاضی رو به اثبات‌های دقیق و قابل ‌راستی‌آزمایی داره.

مدل DeepSeek-Prover-V2 با تقسیم مسائل پیچیده به بخش‌های کوچکتر و حفظ دقت لازم، بررسی مسائل پیچیده رو آسانتر می‌کنه. این مدل با استفاده از یادگیری تقویتی و داده‌های آموزشی زیاد، تونسته عملکرد بسیار خوبی در چندین بنچمارک معتبر داشته باشه.
لینک

@silicon_brain I از هوش مصنوعی عقب نمانید
مدیرعامل گیتهاب Thomas Dohmke که سورس های دنیا دستشه صحبتای جالبی داشته

گفته که هوش مصنوعی می‌تونه روند کدنویسی رو تسریع کنه و دسترسی به فناوری رو دموکراتیک کنه اما جایگزین کدنویسی نیست.

ایشون بر این باوره که هوش مصنوعی با سرعت‌بخشیدن به فرآیندها و افزایش بهره‌وری، میتونه به برنامه‌نویس‌ها کمک کنه بدون اینکه نیاز به مهارت‌های انسانی کاهش پیدا کنه. Dohmke معتقده که آموزش برنامه‌نویسی باید از سنین پایین تو مدارس تدریس بشه و همچنان نیاز حیاتی برای مهارت‌های انسانی در رفع مشکلات پیچیده نرم‌افزاری لازمه

@silicon_brain I از هوش مصنوعی عقب نمانید
💯 بوت کمپ تخصصی هوش مصنوعی با مدرک دو زبانه
ــــــــــــــــــــــــــــــــــــ
⁉️ چرا این دوره:
🟪 مدرک دو زبانه معتبر
🟪 انجام، مینی پروژه های کلاسی و ۵ پروژه مستقل و یک پروژه جامع در طول دوره .
🟪 پشتیبانی علمی و منتور ۲۴ ساعته
ــــــــــــــــــــــــــــــــــــ
⁉️ مخاطبین این دوره چه کسانی هستند؟
💥 دانشجویان و فارغ التحصیلان کارشناسی وتحصیلات تکمیلی در رشته‌های فنی مهندسی، علوم انسانی و رشته‌های علوم پایه
💥 اعضای تیم هوش مصنوعی شاغل در استارتاپ‌ها، سازمان‌ها و کسب‌وکارها
💥 علاقمندان به حوزه صنعت، یادگیری ماشین، پردازش تصویر و بینایی ماشین
💥 دانشجویانی که قصد نوشتن پایان نامه در این حوزه را دارند
💥 افرادی که قصد مهاجرت کاری یا تحصیلی دارند
ــــــــــــــــــــــــــــــــــــــ
💎 جهت دریافت مشاوره رایگان و اطلاعات تکمیلی؛
از طریق لینک زیر اقدام نمایید


🌐 httb.ir/IHjJx ⬅️
ـــــــــــــــــــــــــــــــــــ
02188905269
02191096546
@onacademy
Please open Telegram to view this post
VIEW IN TELEGRAM
جمنای و درک ویدیو!

گوگل دو مدل جدید از Gemini برای درک ویدیو و ساخت اپلیکیشن از یوتیوب معرفی کرده. مدل اصلی که اسمش Gemini 2.5 Pro هست، قابلیت تحلیل ویدیوهای چندساعته رو داره و تو تست‌ها حتی از GPT-4.1 هم بهتر عمل کرده (با ورودی مشابه)
میتونه تا ۶ ساعت ویدیو رو با context window دو میلیون token بررسی کنه، که پیشرفت بزرگیه.

توی taskهای مثل dense captioning (مثلاً دیتاست YouCook2) و moment retrieval (مثل QVHighlights) هم عملکردش خوب بوده

این مدل از لحاظ multimodal integration هم قویه. می‌تونه ورودی‌های مختلف مثل لینک یوتیوب، فایل ویدیو، یا سوالات متنی رو با هم ترکیب کنه.

از لحاظ temporal reasoning هم خوبه و میتونه:
- توی یه keynote ده دقیقه‌ای، ۱۶ بخش محصول مختلف رو تشخیص بده.
- ۱۷ بار تکرار یه حرکت خاص رو توی ویدیو بشماره — اونم با دقت فریم‌به‌فریم!
ویدیو رو به بخش‌های برچسب‌خورده تقسیم کنه بدون اینکه دستی لازم باشه.
کل ویدیو رو با تمام context تحلیل کنه.

از طریق Gemini API یا AI Studio می‌تونی بهش دسترسی داشته باشی.
لینک
@silicon_brain | از هوش مصنوعی عقب نمانید
2025/07/08 09:09:01
Back to Top
HTML Embed Code: