Telegram Web Link
بعد از معرفی QWQ32B حالا یه مدل با قابلیت استدلال و سرعت بسیار بالا ۲۱ میلیارد پارامتری متن باز به نام Reka منتشر شد.

مدل Reka Flash 3 یک مدل زبان چندوجهی با ۲۱ میلیارد پارامتره که توسط شرکت Reka توسعه یافته. این مدل به‌ صورت چندوجهی عمل میکنه و قادر به پردازش و استدلال بر روی ورودی‌های متنی، تصویری، ویدئویی و صوتی هست.

این مدل عملکردی رقابتی با مدل‌های اختصاصی مثل OpenAI o1-mini داره و به عنوان بهترین مدل متن‌ باز در اندازه خودش محسوب میشه. 

میتونید در لینک زیر قابلیت هاشو در نسخه دمو چک کنید ، خصوصا قابلیت های برنامه نویسش:

https://space.reka.ai/

دانلود مدل:

https://www.reka.ai/news/introducing-reka-flash
🔥8
🔹انتشار Google Gemma 3:

گوگل نسخه جدید مدل‌های Gemma 3 را معرفی کرد که از 1B تا 27B پارامتر دارند. این مدل‌ها از متن و تصویر پشتیبانی می‌کنند (برای نسخه‌های 4B به بالا) و ظرفیت 128K توکن دارند. با بهینه‌سازی توکنایزر و پردازش 140+ زبان، عملکرد بهتری نسبت به نسل قبل ارائه می‌دهند. نسخه instruction-tuned 4B حتی از مدل 27B نسل قبلی قوی‌تر است!


🔗 جزئیات بیشتر در Hugging Face
🔥10
اجرای Gemma 3 1B بر روی اندروید، البته نسخه 4B به مراتب بهتر هست

ابتدا نصب Chatter UI

https://github.com/Vali-98/ChatterUI/releases/tag/v0.8.6-beta5

نسخه مورد نظر Gemma از لینک زیر

https://huggingface.co/collections/unsloth/gemma-3-67d12b7e8816ec6efa7e4e5b
👍8🤔1
مدل 32 میلیارد پارامتری OLMo 2، اولین مدل کاملا متن‌ بازه که عملکرد بهتری از GPT 3.5 و نسخه کوچک GPT 4o داره.

تمام اجزای این مدل به صورت متن باز منتشر شده شامل کد آموزش، داده‌های آموزشی و ...

https://allenai.org/blog/olmo2-32B
👍14
قابلیت های ویرایش و تولید تصویر Gemini 2.0 Flash's experimental واقعا خوبه. گوگل این قابلیت رو به صورت رایگان در aistudio قرار داده!

جزییات:

https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/
👍8👌3
This media is not supported in your browser
VIEW IN TELEGRAM
به طور کلی، در حوزه مدل‌ های زبانی، دو رویکرد اصلی وجود داره: مدل‌های Autoregressive و مدل‌های Diffusion

مدل‌های Autoregressive متون رو بصورت کلمه به کلمه تولید میکنن، مثل مدل های رایج زبانی کنونی، این روش باعث میشه متن‌های روان و مرتبطی تولید شه، اما سرعت تولید اونها پایینه. در مقابل، مدل‌های Diffusion، ابتدا یک متن پر از نویز تولید میکنن و سپس با حذف تدریجی نویز، به یک متن قابل فهم میرسن. این روش امکان تولید موازی کلمات رو فراهم میکنه، اما در تولید متن‌های طولانی و دقیق و همچنین تخمین احتمال متن، ضعف دارن.

برای رفع این مشکلات، این مقاله مدل Block Diffusion معرفی کرده که مزایای هر دو رویکرد قبلی رو با هم ترکیب میکنه. این مدل مانند مدل‌ های Diffusion، ابتدا متن پر از نویز رو تولید میکنه، اما اون رو به بخش‌ های کوچک ‌تر (بلوک‌ها) تقسیم میکنه و سپس نویز هر بخش رو به صورت جداگانه حذف میکنه. این کار باعث میشه هم سرعت تولید متن بالا بره و هم دقت اون افزایش پیدا کنه. در واقع، مدل‌ Block Diffusion ، هم در کنار افزایش سرعت تولید متن کیفیت متن تولیدی رو افزایش داده


https://arxiv.org/abs/2503.09573
👍246
Anonymous access to popular AI models, including GPT-4o mini, Claude 3, and open-source Llama 3.3 and Mistral Small 3.

http://Duck.ai
👍5
شرکت LG هم وارد گود ساخت مدل های زبانی شده!

مرکز تحقیقات LG سری مدل‌های استدلال EXAONE با اندازه‌های 2.4 میلیارد، 7.8 میلیارد و 32 میلیارد پارامتر، برای وظایف استدلالی از جمله ریاضی و کدنویسی ارایه کرد.

نتایج مقاله نشون میده که این مدل ها توانایی‌ های برتر در وظایف استدلالی مختلف، از جمله بنچ مارک های ریاضی و کدنویسی، از 2.4 میلیارد تا 32 میلیارد پارامتر دارن!

 مدل2.4 میلیارد پارامتری، از سایر مدل‌های با اندازه مشابه عملکرد بهتری داره

مدل 7.8 میلیارد پارامتری، نه تنها از مدل‌های متن‌ باز با مقیاس مشابه، بلکه از مدل استدلالی اختصاصی OpenAI با نام o1-mini نیز عملکرد بهتری داره!

مدل 32 میلیارد پارامتری، عملکرد رقابتی در برابر مدل‌های متن‌ باز پیشرو داره

https://arxiv.org/abs/2503.12524

https://huggingface.co/collections/LGAI-EXAONE/exaone-deep-67d119918816ec6efa79a4aa

https://github.com/LG-AI-EXAONE/EXAONE-Deep
👍14❤‍🔥2👀2🤔1
ضمن قبولی طاعات و عبادات، به مناسبت فرا رسیدن نوروز، کلاس‌ویژن برای همراهان گرامی تخفیف ویژه‌ای در نظر گرفته است. شما می‌توانید با استفاده از کد تخفیف nowruz404 از ۴۰٪ تخفیف بر روی تمامی دوره‌های آموزشی ما بهره‌مند شوید.

این فرصت استثنایی را از دست ندهید و مهارت‌های خود را در سال جدید ارتقا دهید.

برای استفاده از این تخفیف، کافیست در هنگام ثبت‌نام کد nowruz404 را وارد نمایید.

https://class.vision

nowruz404

سال نو مبارک!
24
Audio
نوروز، نه فقط نو شدن طبیعت، که فرصتی برای بازآفرینی "خود" هست. همونطور که محمد نوری میخونه، "جان جهان در گذر است"، پس بیاییم در این گذر، نو شیم. نوروزتان پیروز
🌺🌺

آهنگ رو توسط مدل های زبانی تولید کردم امیدوارم خوب در اومده باشه
16👍2👏2
NotebookLM can now generate Mind Maps, and studying will never be the same

https://www.xda-developers.com/notebooklm-generate-mind-maps/
11👍43🎉1
This media is not supported in your browser
VIEW IN TELEGRAM
SpatialLM 

مدل جدیدی هست که داده‌های تصویری رو تجزیه و تحلیل می‌کنه و برداشت‌های واضحی از صحنه‌های سه‌ بعدی ارائه می‌ده.

 این برداشت‌ ها شامل اجزای معماری مثل دیوار، در و پنجره و .... هست که توسط boundery box دسته بندی میشن.

 برخلاف روش‌های قدیمی که نیاز به تجهیزات ویژه داشتند، این مدل می‌تونه داده‌ها رو از منابع مختلفی مثل ویدیوهایی معمولی دریافت کنه.

این مدل داده‌های بدون ساختار رو به نمایش‌های قابل فهم تبدیل می‌کنه و درک بهتری از صحنه بوجود میاره، این موضوع در رباتیک، خودروی خودران و تحلیل صحنه‌های پیچیده بسیار کاربرد داره.

کل مدل کمتر از یک و نیم میلیارد پارامتر داره!

https://github.com/manycore-research/SpatialLM
👍16👌4
اوپن ای آی مدل جدیدی برای تبدیل متن به گفتار ایجاد کرده که قابلیت های تولید گفتار فارسیش قابل توجه.


https://www.openai.fm/
🔥17
Tensorflow(@CVision)
خروجی
Audio
تبلیغ آلودگی تهران
🔥11👀4🤯31❤‍🔥1👍1😱1👌1
2025/07/08 13:39:47
Back to Top
HTML Embed Code: