Telegram Web Link
شرکت چینی Kuaishou از نسخه 2.1 ابزار هوش مصنوعی ویدیوساز خود به نام Kling رونمایی کرد؛ ابزاری که با هدف کاهش زمان و هزینه تولید ویدیوهای کوتاه توسعه یافته است. Kling 2.1 می‌تواند ویدیوهایی با کیفیت 1080p در کمتر از یک دقیقه تولید کند و عملکرد حرکتی و شبیه‌سازی فیزیکی آن به‌طور محسوسی بهبود یافته است. کاربران کافی است تصویری آپلود کرده یا دستور متنی (پرامپت) وارد کنند تا ویدیویی متحرک و واقع‌گرایانه دریافت کنند. هزینه تولید یک ویدیوی 1080p با جزئیات بالا برابر(تقریباً 1.5 دلار)، و نسخه‌های ساده‌تر یا با وضوح 720p نیز با هزینه کمتر در دسترس هست.
این به‌روزرسانی هم‌زمان با رشد ۶ درصدی ارزش سهام Kuaishou در بورس هنگ‌کنگ منتشر شد، اتفاقی که نشان‌دهنده استقبال بازار از پیشرفت‌های این شرکت است. رقابت در دنیای #هوش_مصنوعی چینی نیز وارد مرحله داغ‌تری شده، چراکه شرکت تنسنت هم‌زمان ابزار تصویر به ویدیو متن‌باز خود را معرفی کرده و از سوی دیگر، گوگل نیز با انتشار Veo 3 وارد این میدان شده است. Kling 2.1 حالا یکی از قدرتمندترین ابزارهای تولید ویدیو با هوش مصنوعی در سطح جهانی محسوب می‌شود.


@AI_DeepMind
🔸 @AI_Person
What is the purpose of the activation function in a neural network?
Anonymous Poll
13%
To normalize the output
67%
To introduce non-linearity
6%
To reduce overfitting
14%
To initialize weights
الهه حسین نژاد کجاست؟

روز چهارم خرداد ماه 1404، الهه حسین‌ نژاد مانند هر روز، پس از پایان ساعت کاری‌ اش از محل کار خود در میدان آزادی تهران راهی خانه شد. مقصد او اسلامشهر بود. خانواده می‌گویند در آخرین تماس تلفنی، الهه اعلام کرده بود که در مسیر بازگشت است. اما آن تماس، به طرز مشکوکی آخرین نشانه از او بود. تلفن همراه خاموش شد و اثری از او باقی نماند.

اکنون بیش از 7 روز از این اتفاق می‌گذرد، اما هیچ سرنخ مشخصی در دست نیست. خانواده او در دلشوره و اضطراب دست و پا می زنند.
برای پیدا شدن الهه بازنشر کنید
In decision trees, what criterion is commonly used to split nodes in classification tasks?
Anonymous Poll
8%
Mean Squared Error
72%
Entropy or Gini Index
9%
Euclidean Distance
11%
Log Likelihood
Forwarded from DeepMind AI Expert (Farzad 🦅)
Please open Telegram to view this post
VIEW IN TELEGRAM
Owen 3 release

https://qwenlm.github.io/blog/qwen3/

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
Forwarded from Ali's Notes
🚨 Paper Alert

🔹🔹🔹
From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning
🔹🔹🔹


این یکی از باحال ترین مقاله هایی هستش که ژورافسکی و یان لکون که نام های آشنایی هستن بیرون دادن.
تو این مقاله سعی کردن تفاوت بین LLM ها و سیستم زبانی انسان ها رو مشخص کنن.
و نتیجه های باحالی به دست اوردن.

مدل های زبانی به صورت اگرسیو طور کامپرس میکنن مفاهیم رو و اونقدر که دیگه با مفاهیم ما انسان ها تفاوت ایجاد میشه.

قضیه اینکه این مدل ها در اصل یه عالمه دیتا رو که بخوردشون میدیم کامپرس میکنن اطلاعات رو و بعد چون کامپرس شدن (فضای کمتری میگیرن تو فضا) و بعد زمان تولید یا جنریشن این اطلاعات کامپرس شده دیکود میشن.

مغز ماهم همینطور هستش و مثلا شما ممکنه یه کتاب ۱۰۰۰ صفحه ای رو بخونید و بعدش تو ذهن شما یه سامری یا خلاصه ای تو ذهن شما میمونه و شما بعد ها زمانی که بازگو میکنید میتونید اون خلوص داستان رو با طبع ایجاد variation بازگو کنید.



As the mental scaffolding of human cognition, concepts enable efficient interpretation, generalization
from sparse data, and rich communication. For LLMs to transcend surface-level mimicry and achieve
more human-like understanding, it is critical to investigate how their internal representations navigate
the crucial trade-off between information compression and the preservation of semantic meaning. Do
LLMs develop conceptual structures mirroring the efficiency and richness of human thought, or do
they employ fundamentally different representational strategies?



حتما این مقاله رو بخونید ‌:)



🔗 https://arxiv.org/pdf/2505.17117v2

@css_nlp
Please open Telegram to view this post
VIEW IN TELEGRAM
#مقاله زیر که با همکاری متا، گوگل و انویدیا به بررسی میزان حافظه‌برداری مدل‌های زبانی بزرگ از داده‌های آموزشی می‌پردازد. نویسندگان با معرفی روشی جدید، حافظه‌برداری را به دو بخش مجزا تقسیم می‌کنند:

1. حافظه‌برداری ناخواسته (Unintended Memorization): اطلاعاتی که مدل به‌طور خاص از داده‌های آموزشی حفظ کرده است.

2. تعمیم (Generalization): توانایی مدل در یادگیری و تعمیم از فرآیند تولید داده‌های واقعی.

با حذف تأثیر تعمیم، نویسندگان توانستند میزان حافظه‌برداری ناخواسته را اندازه‌گیری کرده و ظرفیت حافظه‌ای مدل‌ها را تخمین بزنند. برای مدل‌های خانواده GPT، این ظرفیت تقریباً ۳٫۶ بیت به ازای هر پارامتر برآورد شده است.

این تحقیق با آموزش صدها مدل ترنسفورمر و تحلیل رفتار آن‌ها، قوانین مقیاس‌پذیری جدیدی را ارائه می‌دهد که رابطه بین ظرفیت مدل، اندازه داده‌ها و احتمال شناسایی عضویت داده‌ها در مجموعه آموزشی را توضیح می‌دهد.

▪️ How much do language models memorize?

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
This media is not supported in your browser
VIEW IN TELEGRAM
"We are not going to get to human level AI by just scaling up MLMs. This is just not going to happen. There's no way. Okay, absolutely no way. And whatever you can hear from some of my uh more adventurous colleagues, it's not going to happen within the next two years.

▪️ Yann LeCun: We Won't Reach AGI By Scaling Up LLMS

#پادکست

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
OpenAI Deep Research now connects with sources beyond the web.

Integrations include Gmail, Google Calendar, HubSpot, GDrive, Linear, etc.
محققان الگوریتم خودآموز قدرتمندی به نام Absolute Zero را ساخته‌اند که به هیچ داده انسانی نیاز ندارد. این الگوریتم وظایف خود را می‌سازد، آنها را با استفاده از روش‌های استدلال مختلف حل می‌کند و از طریق خودبازی درست مانند آموزش از صفر به خودش پیشرفت می‌کند.

این الگوریتم که Absolute Zero Reasoner (AZR) نام دارد، در #کدنویسی و #ریاضی نمرات بالایی کسب کرد و حتی مدل‌هایی را که با کمک متخصصان آموزش دیده بودند، شکست داد. این الگوریتم تغییر بزرگی را در Al نشان می‌دهد از نیاز به انسان برای یادگیری، به رشد کامل به تنهایی چگونه شدنی هست!

▪️ Absolute Zero: Reinforced Self-play Reasoning with Zero Data

#مقاله #ایده_جذاب #یادگیری_تقویتی #مدل_استدلالی #هوش_مصنوعی

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
DeepMind AI Expert
الهه حسین نژاد کجاست؟ روز چهارم خرداد ماه 1404، الهه حسین‌ نژاد مانند هر روز، پس از پایان ساعت کاری‌ اش از محل کار خود در میدان آزادی تهران راهی خانه شد. مقصد او اسلامشهر بود. خانواده می‌گویند در آخرین تماس تلفنی، الهه اعلام کرده بود که در مسیر بازگشت است.…
به فرزندان خودتون امنیت یاد بدیم تو خیابون که میرین امنیت داشته باشید. برای دیگران تز روشنفکری که خودتون فقط قبولش دارید رو نزنید تو ماشین می شینید بر ای کنار دستیتون امن باشید تو مترو میرید به دیگران حریم امنیت بدیم تو فضای مجازی به دیگران حریم امنیت بدیم و خیلی چیزایی که ارامش و امنیت روحی و روانی دیگران روبهم نریزیم و برای دیگران پناه باشیم


خورشیدِ این خطه
تاول می‌نشاند بر پوستِ آفتابگردان‌ها
می‌سوزیم
خیره به دودِ قلیانِ قله‌ی این دیار
پُک می‌زند پیر و می‌خندد
به گریستنِ جوانیِ ما

بادکنک‌ها مگر برای تزیینِ آغاز نبودند؟
چگونه پس به میوه‌هایی بدل شدند
که جنازه‌ات رشدشان داد؟
باد مگر با عطرِ گیسو نسبت نداشت؟
حال چرا تنها
بوی جنازه‌ی یک طوفان را می‌آورد؟

این مرز
امتدادِ خونِ رفته‌ا‌ی‌ست
آرش!
تیری که رها کردی عاقبت
بر قلب کسی فرود آمد
علیرضا قاسمیان

برای الهه حسین نژاد 🖤
Forwarded from Ali's Notes
تویت جالب اندرو کارپاسی درمورد

LLMs and code generation


https://x.com/karpathy/status/1930305209747812559




You could see it as there being two modes in creation. Borrowing GAN terminology:
1) generation and
2) discrimination.
e.g. painting - you make a brush stroke (1) and then you look for a while to see if you improved the painting (2). these two stages are interspersed in pretty much all creative work.

Second point. Discrimination can be computationally very hard.
- images are by far the easiest. e.g. image generator teams can create giant grids of results to decide if one image is better than the other. thank you to the giant GPU in your brain built for processing images very fast.
- text is much harder. it is skimmable, but you have to read, it is semantic, discrete and precise so you also have to reason (esp in e.g. code).
- audio is maybe even harder still imo, because it force a time axis so it's not even skimmable. you're forced to spend serial compute and can't parallelize it at all.

You could say that in coding LLMs have collapsed (1) to ~instant, but have done very little to address (2). A person still has to stare at the results and discriminate if they are good. This is my major criticism of LLM coding in that they casually spit out *way* too much code per query at arbitrary complexity, pretending there is no stage 2. Getting that much code is bad and scary. Instead, the LLM has to actively work with you to break down problems into little incremental steps, each more easily verifiable. It has to anticipate the computational work of (2) and reduce it as much as possible. It has to really care.

This leads me to probably the biggest misunderstanding non-coders have about coding. They think that coding is about writing the code (1). It's not. It's about staring at the code (2). Click Me Load More it all into your working memory. Pacing back and forth. Thinking through all the edge cases. If you catch me at a random point while I'm "programming", I'm probably just staring at the screen and, if interrupted, really mad because it is so computationally strenuous. If we only get much faster 1, but we don't also reduce 2 (which is most of the time!), then clearly the overall speed of coding won't improve (see Amdahl's law).






@css_nlp
کتاب #جبرخطی

▪️ Linear Algebra

#کتاب #ریاضی

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
This media is not supported in your browser
VIEW IN TELEGRAM
موقعی که سوار ماشین میشین چه اسنپ چه تپسی و مشابه پشت صندلی شاگرد نشینید
Finetune Qwen3, Llama 4, Gemma 3, Phi-4 & Mistral 2x faster with 80% less VRAM!

▪️ Finetune for Free

#منابع #مقاله

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
dots.llm1 is a large-scale MoE system activating 14B out of 142B parameters, matching state-of-the-art performance such as Qwen2.5-72B after pretraining on 11.2T high-quality, non-synthetic tokens, with open-sourced checkpoints every trillion tokens to support research into LLM learning dynamics.

https://huggingface.co/rednote-hilab/dots.llm1.inst
2025/06/30 19:09:40
Back to Top
HTML Embed Code: