شرکت چینی Kuaishou از نسخه 2.1 ابزار هوش مصنوعی ویدیوساز خود به نام Kling رونمایی کرد؛ ابزاری که با هدف کاهش زمان و هزینه تولید ویدیوهای کوتاه توسعه یافته است. Kling 2.1 میتواند ویدیوهایی با کیفیت 1080p در کمتر از یک دقیقه تولید کند و عملکرد حرکتی و شبیهسازی فیزیکی آن بهطور محسوسی بهبود یافته است. کاربران کافی است تصویری آپلود کرده یا دستور متنی (پرامپت) وارد کنند تا ویدیویی متحرک و واقعگرایانه دریافت کنند. هزینه تولید یک ویدیوی 1080p با جزئیات بالا برابر(تقریباً 1.5 دلار)، و نسخههای سادهتر یا با وضوح 720p نیز با هزینه کمتر در دسترس هست.
این بهروزرسانی همزمان با رشد ۶ درصدی ارزش سهام Kuaishou در بورس هنگکنگ منتشر شد، اتفاقی که نشاندهنده استقبال بازار از پیشرفتهای این شرکت است. رقابت در دنیای #هوش_مصنوعی چینی نیز وارد مرحله داغتری شده، چراکه شرکت تنسنت همزمان ابزار تصویر به ویدیو متنباز خود را معرفی کرده و از سوی دیگر، گوگل نیز با انتشار Veo 3 وارد این میدان شده است. Kling 2.1 حالا یکی از قدرتمندترین ابزارهای تولید ویدیو با هوش مصنوعی در سطح جهانی محسوب میشود.
✅ @AI_DeepMind
🔸 @AI_Person
این بهروزرسانی همزمان با رشد ۶ درصدی ارزش سهام Kuaishou در بورس هنگکنگ منتشر شد، اتفاقی که نشاندهنده استقبال بازار از پیشرفتهای این شرکت است. رقابت در دنیای #هوش_مصنوعی چینی نیز وارد مرحله داغتری شده، چراکه شرکت تنسنت همزمان ابزار تصویر به ویدیو متنباز خود را معرفی کرده و از سوی دیگر، گوگل نیز با انتشار Veo 3 وارد این میدان شده است. Kling 2.1 حالا یکی از قدرتمندترین ابزارهای تولید ویدیو با هوش مصنوعی در سطح جهانی محسوب میشود.
✅ @AI_DeepMind
🔸 @AI_Person
In gradient descent, what happens if the learning rate is too high?
Anonymous Poll
4%
Convergence is faster and accurate
13%
Model underfits the data
80%
May overshoot and fail to converge
4%
Gradient becomes zero
What is the purpose of the activation function in a neural network?
Anonymous Poll
13%
To normalize the output
67%
To introduce non-linearity
6%
To reduce overfitting
14%
To initialize weights
الهه حسین نژاد کجاست؟
روز چهارم خرداد ماه 1404، الهه حسین نژاد مانند هر روز، پس از پایان ساعت کاری اش از محل کار خود در میدان آزادی تهران راهی خانه شد. مقصد او اسلامشهر بود. خانواده میگویند در آخرین تماس تلفنی، الهه اعلام کرده بود که در مسیر بازگشت است. اما آن تماس، به طرز مشکوکی آخرین نشانه از او بود. تلفن همراه خاموش شد و اثری از او باقی نماند.
اکنون بیش از 7 روز از این اتفاق میگذرد، اما هیچ سرنخ مشخصی در دست نیست. خانواده او در دلشوره و اضطراب دست و پا می زنند.
برای پیدا شدن الهه بازنشر کنید
روز چهارم خرداد ماه 1404، الهه حسین نژاد مانند هر روز، پس از پایان ساعت کاری اش از محل کار خود در میدان آزادی تهران راهی خانه شد. مقصد او اسلامشهر بود. خانواده میگویند در آخرین تماس تلفنی، الهه اعلام کرده بود که در مسیر بازگشت است. اما آن تماس، به طرز مشکوکی آخرین نشانه از او بود. تلفن همراه خاموش شد و اثری از او باقی نماند.
اکنون بیش از 7 روز از این اتفاق میگذرد، اما هیچ سرنخ مشخصی در دست نیست. خانواده او در دلشوره و اضطراب دست و پا می زنند.
برای پیدا شدن الهه بازنشر کنید
In decision trees, what criterion is commonly used to split nodes in classification tasks?
Anonymous Poll
8%
Mean Squared Error
72%
Entropy or Gini Index
9%
Euclidean Distance
11%
Log Likelihood
Forwarded from DeepMind AI Expert (Farzad 🦅)
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Ali's Notes
From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning
این یکی از باحال ترین مقاله هایی هستش که ژورافسکی و یان لکون که نام های آشنایی هستن بیرون دادن.
تو این مقاله سعی کردن تفاوت بین LLM ها و سیستم زبانی انسان ها رو مشخص کنن.
و نتیجه های باحالی به دست اوردن.
مدل های زبانی به صورت اگرسیو طور کامپرس میکنن مفاهیم رو و اونقدر که دیگه با مفاهیم ما انسان ها تفاوت ایجاد میشه.
قضیه اینکه این مدل ها در اصل یه عالمه دیتا رو که بخوردشون میدیم کامپرس میکنن اطلاعات رو و بعد چون کامپرس شدن (فضای کمتری میگیرن تو فضا) و بعد زمان تولید یا جنریشن این اطلاعات کامپرس شده دیکود میشن.
مغز ماهم همینطور هستش و مثلا شما ممکنه یه کتاب ۱۰۰۰ صفحه ای رو بخونید و بعدش تو ذهن شما یه سامری یا خلاصه ای تو ذهن شما میمونه و شما بعد ها زمانی که بازگو میکنید میتونید اون خلوص داستان رو با طبع ایجاد variation بازگو کنید.
As the mental scaffolding of human cognition, concepts enable efficient interpretation, generalization
from sparse data, and rich communication. For LLMs to transcend surface-level mimicry and achieve
more human-like understanding, it is critical to investigate how their internal representations navigate
the crucial trade-off between information compression and the preservation of semantic meaning. Do
LLMs develop conceptual structures mirroring the efficiency and richness of human thought, or do
they employ fundamentally different representational strategies?
حتما این مقاله رو بخونید :)
@css_nlp
Please open Telegram to view this post
VIEW IN TELEGRAM
#مقاله زیر که با همکاری متا، گوگل و انویدیا به بررسی میزان حافظهبرداری مدلهای زبانی بزرگ از دادههای آموزشی میپردازد. نویسندگان با معرفی روشی جدید، حافظهبرداری را به دو بخش مجزا تقسیم میکنند:
1. حافظهبرداری ناخواسته (Unintended Memorization): اطلاعاتی که مدل بهطور خاص از دادههای آموزشی حفظ کرده است.
2. تعمیم (Generalization): توانایی مدل در یادگیری و تعمیم از فرآیند تولید دادههای واقعی.
با حذف تأثیر تعمیم، نویسندگان توانستند میزان حافظهبرداری ناخواسته را اندازهگیری کرده و ظرفیت حافظهای مدلها را تخمین بزنند. برای مدلهای خانواده GPT، این ظرفیت تقریباً ۳٫۶ بیت به ازای هر پارامتر برآورد شده است.
این تحقیق با آموزش صدها مدل ترنسفورمر و تحلیل رفتار آنها، قوانین مقیاسپذیری جدیدی را ارائه میدهد که رابطه بین ظرفیت مدل، اندازه دادهها و احتمال شناسایی عضویت دادهها در مجموعه آموزشی را توضیح میدهد.
▪️ How much do language models memorize?
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
1. حافظهبرداری ناخواسته (Unintended Memorization): اطلاعاتی که مدل بهطور خاص از دادههای آموزشی حفظ کرده است.
2. تعمیم (Generalization): توانایی مدل در یادگیری و تعمیم از فرآیند تولید دادههای واقعی.
با حذف تأثیر تعمیم، نویسندگان توانستند میزان حافظهبرداری ناخواسته را اندازهگیری کرده و ظرفیت حافظهای مدلها را تخمین بزنند. برای مدلهای خانواده GPT، این ظرفیت تقریباً ۳٫۶ بیت به ازای هر پارامتر برآورد شده است.
این تحقیق با آموزش صدها مدل ترنسفورمر و تحلیل رفتار آنها، قوانین مقیاسپذیری جدیدی را ارائه میدهد که رابطه بین ظرفیت مدل، اندازه دادهها و احتمال شناسایی عضویت دادهها در مجموعه آموزشی را توضیح میدهد.
▪️ How much do language models memorize?
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
This media is not supported in your browser
VIEW IN TELEGRAM
"We are not going to get to human level AI by just scaling up MLMs. This is just not going to happen. There's no way. Okay, absolutely no way. And whatever you can hear from some of my uh more adventurous colleagues, it's not going to happen within the next two years.
▪️ Yann LeCun: We Won't Reach AGI By Scaling Up LLMS
#پادکست
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
▪️ Yann LeCun: We Won't Reach AGI By Scaling Up LLMS
#پادکست
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
محققان الگوریتم خودآموز قدرتمندی به نام Absolute Zero را ساختهاند که به هیچ داده انسانی نیاز ندارد. این الگوریتم وظایف خود را میسازد، آنها را با استفاده از روشهای استدلال مختلف حل میکند و از طریق خودبازی درست مانند آموزش از صفر به خودش پیشرفت میکند.
این الگوریتم که Absolute Zero Reasoner (AZR) نام دارد، در #کدنویسی و #ریاضی نمرات بالایی کسب کرد و حتی مدلهایی را که با کمک متخصصان آموزش دیده بودند، شکست داد. این الگوریتم تغییر بزرگی را در Al نشان میدهد از نیاز به انسان برای یادگیری، به رشد کامل به تنهایی چگونه شدنی هست!
▪️ Absolute Zero: Reinforced Self-play Reasoning with Zero Data
#مقاله #ایده_جذاب #یادگیری_تقویتی #مدل_استدلالی #هوش_مصنوعی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
این الگوریتم که Absolute Zero Reasoner (AZR) نام دارد، در #کدنویسی و #ریاضی نمرات بالایی کسب کرد و حتی مدلهایی را که با کمک متخصصان آموزش دیده بودند، شکست داد. این الگوریتم تغییر بزرگی را در Al نشان میدهد از نیاز به انسان برای یادگیری، به رشد کامل به تنهایی چگونه شدنی هست!
▪️ Absolute Zero: Reinforced Self-play Reasoning with Zero Data
#مقاله #ایده_جذاب #یادگیری_تقویتی #مدل_استدلالی #هوش_مصنوعی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
DeepMind AI Expert
الهه حسین نژاد کجاست؟ روز چهارم خرداد ماه 1404، الهه حسین نژاد مانند هر روز، پس از پایان ساعت کاری اش از محل کار خود در میدان آزادی تهران راهی خانه شد. مقصد او اسلامشهر بود. خانواده میگویند در آخرین تماس تلفنی، الهه اعلام کرده بود که در مسیر بازگشت است.…
به فرزندان خودتون امنیت یاد بدیم تو خیابون که میرین امنیت داشته باشید. برای دیگران تز روشنفکری که خودتون فقط قبولش دارید رو نزنید تو ماشین می شینید بر ای کنار دستیتون امن باشید تو مترو میرید به دیگران حریم امنیت بدیم تو فضای مجازی به دیگران حریم امنیت بدیم و خیلی چیزایی که ارامش و امنیت روحی و روانی دیگران روبهم نریزیم و برای دیگران پناه باشیم
خورشیدِ این خطه
تاول مینشاند بر پوستِ آفتابگردانها
میسوزیم
خیره به دودِ قلیانِ قلهی این دیار
پُک میزند پیر و میخندد
به گریستنِ جوانیِ ما
بادکنکها مگر برای تزیینِ آغاز نبودند؟
چگونه پس به میوههایی بدل شدند
که جنازهات رشدشان داد؟
باد مگر با عطرِ گیسو نسبت نداشت؟
حال چرا تنها
بوی جنازهی یک طوفان را میآورد؟
این مرز
امتدادِ خونِ رفتهایست
آرش!
تیری که رها کردی عاقبت
بر قلب کسی فرود آمد
علیرضا قاسمیان
برای الهه حسین نژاد 🖤
خورشیدِ این خطه
تاول مینشاند بر پوستِ آفتابگردانها
میسوزیم
خیره به دودِ قلیانِ قلهی این دیار
پُک میزند پیر و میخندد
به گریستنِ جوانیِ ما
بادکنکها مگر برای تزیینِ آغاز نبودند؟
چگونه پس به میوههایی بدل شدند
که جنازهات رشدشان داد؟
باد مگر با عطرِ گیسو نسبت نداشت؟
حال چرا تنها
بوی جنازهی یک طوفان را میآورد؟
این مرز
امتدادِ خونِ رفتهایست
آرش!
تیری که رها کردی عاقبت
بر قلب کسی فرود آمد
علیرضا قاسمیان
برای الهه حسین نژاد 🖤
Forwarded from Ali's Notes
تویت جالب اندرو کارپاسی درمورد
LLMs and code generation
https://x.com/karpathy/status/1930305209747812559
@css_nlp
LLMs and code generation
https://x.com/karpathy/status/1930305209747812559
You could see it as there being two modes in creation. Borrowing GAN terminology:
1) generation and
2) discrimination.
e.g. painting - you make a brush stroke (1) and then you look for a while to see if you improved the painting (2). these two stages are interspersed in pretty much all creative work.
Second point. Discrimination can be computationally very hard.
- images are by far the easiest. e.g. image generator teams can create giant grids of results to decide if one image is better than the other. thank you to the giant GPU in your brain built for processing images very fast.
- text is much harder. it is skimmable, but you have to read, it is semantic, discrete and precise so you also have to reason (esp in e.g. code).
- audio is maybe even harder still imo, because it force a time axis so it's not even skimmable. you're forced to spend serial compute and can't parallelize it at all.
You could say that in coding LLMs have collapsed (1) to ~instant, but have done very little to address (2). A person still has to stare at the results and discriminate if they are good. This is my major criticism of LLM coding in that they casually spit out *way* too much code per query at arbitrary complexity, pretending there is no stage 2. Getting that much code is bad and scary. Instead, the LLM has to actively work with you to break down problems into little incremental steps, each more easily verifiable. It has to anticipate the computational work of (2) and reduce it as much as possible. It has to really care.
This leads me to probably the biggest misunderstanding non-coders have about coding. They think that coding is about writing the code (1). It's not. It's about staring at the code (2). Click Me Load More it all into your working memory. Pacing back and forth. Thinking through all the edge cases. If you catch me at a random point while I'm "programming", I'm probably just staring at the screen and, if interrupted, really mad because it is so computationally strenuous. If we only get much faster 1, but we don't also reduce 2 (which is most of the time!), then clearly the overall speed of coding won't improve (see Amdahl's law).
@css_nlp
This media is not supported in your browser
VIEW IN TELEGRAM
موقعی که سوار ماشین میشین چه اسنپ چه تپسی و مشابه پشت صندلی شاگرد نشینید
#کتاب #علم_داده #یادگیری_ماشین
▪️ Data Science and Machine Learning
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
▪️ Data Science and Machine Learning
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
Finetune Qwen3, Llama 4, Gemma 3, Phi-4 & Mistral 2x faster with 80% less VRAM!
▪️ Finetune for Free
#منابع #مقاله
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
▪️ Finetune for Free
#منابع #مقاله
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
dots.llm1 is a large-scale MoE system activating 14B out of 142B parameters, matching state-of-the-art performance such as Qwen2.5-72B after pretraining on 11.2T high-quality, non-synthetic tokens, with open-sourced checkpoints every trillion tokens to support research into LLM learning dynamics.
https://huggingface.co/rednote-hilab/dots.llm1.inst
https://huggingface.co/rednote-hilab/dots.llm1.inst