Telegram Web Link
Imbalanced dataset and the problem of using Accuracy metric in such datasets!

@Ai_Events
دیتاستِ مالتی‌لینگوال مسیو مولتی‌تسک لنگویج آندرستندینگ (MMMLU)
😅
شرکت Openai یه دیتاست بسیار ارزشمند منتشر کرده که تو لینک زیر قابل دسترسی هست:
https://huggingface.co/datasets/openai/MMMLU

دیتاست MMMLU یکی از دیتاست‌های مناسب برای ارزیابی دانش عمومی مدل‌های هوش مصنوعیه. این معیار موضوعات مختلفی رو از ۵۷ دسته پوشش میده، از سطح ابتدایی گرفته تا موضوعات تخصصی پیشرفته مثل حقوق، فیزیک، تاریخ و علوم کامپیوتر.

شرکت openai مجموعه تست MMMLU رو با استفاده از مترجم‌های حرفه‌ای به ۱۴ زبان مختلف ترجمه کرده. استفاده از مترجم‌های انسانی برای این ارزیابی باعث میشه اعتماد بیشتری به دقت ترجمه‌ها داشته باشیم، مخصوصاً برای زبان‌هایی که منابع کمی دارن. این شرکت اعلام کرده ترجمه‌های انسانی حرفه‌ای و کدی که برای اجرای این ارزیابی‌ها استفاده کرده رو منتشر خواهد کرد.

این تلاش نشون‌دهنده تعهد این شرکت به بهبود توانایی‌های چندزبانه مدل‌های هوش مصنوعیه تا اطمینان حاصل بشه که این مدل‌ها به درستی توی زبان‌های مختلف عمل می‌کنن، به خصوص برای جوامعی که کمتر نمایندگی می‌شن. شرکت openai اعلام کرده که با اولویت دادن به ترجمه‌های باکیفیت، قصد داره فناوری هوش مصنوعی رو برای کاربران در سراسر دنیا فراگیرتر و مؤثرتر کنه.

@Ai_Events
Apple Shared Its First Public AI-Generated Image. It’s Craig Federighi’s Dog

Apple's iOS 18 introduces Image Playground, a new AI feature that generates cartoonlike illustrations based on text prompts. Check out the first-ever example created by Apple's senior VP Craig Federighi for his wife's birthday!

Source | @Ai_Events
ما در ایران هنوز تکلیفمان با «هوش طبیعی» هم معلوم نیست! چه رسد به «هوش مصنوعی»!

اگر شرایط ایران مانند همه‌‌ کشورهای دیگر باشد، قاعدتا چند و چون بهره‌برداری از هوش‌مصنوعی نیز کار ساده‌‌‌ای است.

ولی ما در ایران و در مواجهه با هوش‌مصنوعی، با وضعیتی بسیار متفاوت روبه‌رو هستیم.

شاید به این دلیل که اولا حکمرانی و جامعه‌‌ ما، هنوز تکلیفشان را با هوش طبیعی هم روشن نکرده‌‌‌اند و مشخص نیست که مرز آزادی اندیشه و بیان برای نخبگان تا کجاست و تا چه اندازه حق مشارکت و ابراز نظر دارند!

دوم؛ حتی در فاز ابتدایی استفاده از اینترنت و فضای مجازی، مشکلات بسیاری داریم و دسترسی و سرعت، در حد بسیار پایینی است.

شاید بیان همین جمله کفایت کند تا به این جمع‌بندی اولیه‌‌‌ برسیم: تا زمانی که ادراک روشن و مستدلی از مفاهیم مدرنیته و توسعه پیدا نکنیم و معرفت‌شناسی مشترکی درباره‌‌ «سنت»، «تجدد» و «خود» نداشته باشیم، در سطوح اولیه‌‌ بحث رگولاتوری، بر سر ابتدایی‌‌‌ترین مفاهیم، دچار نزاع و جدل خواهیم شد و «صیانت» به جای «رگولاتوری» قالب خواهد شد!

ما در کشور، با نوعی از حکمرانی طرف هستیم که می‌‌‌خواهد یک‌تنه به مصاف همه‌‌ موانع و حتی اسباب و علل برود.

حکمرانی بی‌‌‌نیاز از مالیات و برخوردار از موهبت نفت، براساس استقلال مالی، می‌‌‌خواهد برای همه‌‌‌ تعیین‌تکلیف کند.

این رویکرد سخت و توام با اخم و اُرد، با نفس آزادی مرزهای دانش و اطلاعات همخوان نیست. ساده‌‌‌ترین نمونه‌‌ تبعات تلخ این رویکرد، همانا ابزار قفل و فیلترینگ است.

اگر این موضوعات بدیهی روشن نشوند، مبحث غامض هوش‌مصنوعی نیز تاریک خواهد ماند.

دنیای هوش‌مصنوعی و داده، سیاست خارجی را نیز درگیر می‌کند. به خاطر تحریم‌‌‌های بین‌المللی، دسترسی فعالان این عرصه به بسیاری از داده‌‌‌ها، کلیدها و مجموعه‌‌‌ها ممکن نیست.

اما حتی اگر این موانع برداشته شوند، مشخص نیست که مرزهای دسترسی کدامند. مانند بسیاری از امور دیگر، در صدور مجوز دسترسی به داده‌‌‌ها، با تبعیض و ویژه‌خواری و ویژه‌داری روبه‌رو هستیم.

مساله این است که دستگاه سیاست و امنیت، در این عرصه دست به تقسیمات خودی و دیگری نزند.

در ایران امروز ما، نهاد دانش، قدرت و جایگاه خاصی ندارد که حتی برای اداره‌‌ امور خودش تصمیم بگیرد؛ چه رسد به مشارکت در امر مهم سیاستگذاری.

دستگاه مقننه هم یکی از نهادهای مرتبط با رگولاتوری است. سطح مطالب مطرح‌شده در سخنان نمایندگان مجلس و مواضع آنان، اثبات می‌کند که متاسفانه دغدغه‌‌‌های نمایندگان، نسبتی با مسائل بنیادین رگولاتوری دانش و هوش‌مصنوعی ندارد. در پژوهشکده‌‌‌ها و اندیشکده‌‌‌ها نیز چنین وضعیتی داریم.

Source | @Ai_Events
مجموعه جلسات «گذر»

عنوان:
"Probabilistic Programming for Machine Learning"

ارائه‌دهنده:
امیرعباس اسدی

توضیحات:
Bayesian Learning provides a natural framework for approaching Machine Learning problems. For a long time, due to the significant computational cost of Bayesian inference, this framework was limited to simple models and problems with a small amount of data. Probabilistic Programming is the fruit of many years of research in approximate Bayesian inference aiming to address these limitations. This presentation is a friendly introduction to Probabilistic Programming. We will explore how modern inference methods and recent advances in Differentiable Programming can help us unlock the full potential of Bayesian Machine Learning.

پیشنیاز های علمی:  آمار و احتمال مقدماتی، آشنایی با Deep Learning


فرم ثبت‌نام

مهلت ثبت‌نام : ۱۵ مهر
زمان: چهارشنبه ۱۸ مهر - ساعت ۱۶:۰۰
مکان: به صورت هیبرید - کلاس ۱۰۹ دانشکده ریاضی
@Gozar_SUT
@hamband_sut

@Ai_Events
در یک سیستم RAG، ما سوال رو از کاربر می‌گیریم و به وکتور دیتابیس ارسال می‌کنیم تا رکوردهای مربوط به اون رو بازیابی کنیم.

در کل وکتوردیتابیس ما یک معیار مشابهت (مثلا cousin similarity)‌ محاسبه می‌کنه و بر اساس اون خروجی رو برمی‌گردونه.
تا اینجا ما یک سری رکورد رو تونستیم بازیابی کنیم که بیشترین تشابه رو با وکتور سوال کاربر دارند!

حالا مشکل چیه؟ مشکل اینه که شاید دیتابیس صد هزار رکورد مشابه رو از بین میلیون‌ها رکورد برگردونه، کدوم top k رکورد رو باید بدیم LLM تا برامون خروجی رو تولید کنه؟
تو پست بعد سعی می‌کنم جواب این سوال رو براتون توضیح بدم.

بخوانید: RAG چیست؟

بخوانید: LLM چیست؟

اصلاح: جواب پرسش را در این پست مطالعه کنید.

@Ai_Events
Ai Events️
در یک سیستم RAG، ما سوال رو از کاربر می‌گیریم و به وکتور دیتابیس ارسال می‌کنیم تا رکوردهای مربوط به اون رو بازیابی کنیم. در کل وکتوردیتابیس ما یک معیار مشابهت (مثلا cousin similarity)‌ محاسبه می‌کنه و بر اساس اون خروجی رو برمی‌گردونه. تا اینجا ما یک سری…
موردی که دوستان مطرح کردند اینه که ما بیایم کل رکوردهایی که از دیتابیس برگردوندیم رو بفرستیم تا مدل LLM خودش تصمیم بگیره از کدوم استفاده کنه، این کار به دو دلیل فنی قابل انجام نیست:

ااول اینکه ما محدودیت در ورود محتوی به مدل (LLM Context Limitation) داریم. معمولا مدل‌ها با محدودیت ورودی مواجه هستند، در حالت معمول تعداد ورودی مدل حدود 2048 توکن هست

مشکل دوم هم تاثیر منفی در LLM Recall Performance هست، به این معنی که اگر تعداد ورودی مدل رو بیشتر کنیم،‌ باعث تاثیر منفی در توانایی بازیابی اطلاعات توسط مدل میشه.

عبارت LLM Recall به معنای توانایی مدل در بازیابی اطلاعات هست.

این دو اشکال رو می‌تونید به صورت جزیی‌تر در مقاله زیر مطالعه کنید.
https://arxiv.org/pdf/2307.03172.pdf

@Ai_Events
Ai Events️
در یک سیستم RAG، ما سوال رو از کاربر می‌گیریم و به وکتور دیتابیس ارسال می‌کنیم تا رکوردهای مربوط به اون رو بازیابی کنیم. در کل وکتوردیتابیس ما یک معیار مشابهت (مثلا cousin similarity)‌ محاسبه می‌کنه و بر اساس اون خروجی رو برمی‌گردونه. تا اینجا ما یک سری…
.
برای رفع مشکل مطرح شده در این پست، یک مرحله‌ پس از بازیابی وکتورها از دیتابیس اضافه می‌کنیم که به آن رنکینگ مجدد (re-ranking) می‌گویند.

الگوریتم رنکینگ مجدد، نوعی مدل است که برای هر جفت سوال و سند، یک نمره انطباق محاسبه می‌کند. این نمره می‌تواند برای مرتب‌سازی نتایج جستجوی وکتور استفاده شود و اطمینان حاصل کند که نتایج مرتبط‌تر در بالای لیست قرار می‌گیرند.

به طور خلاصه، گام اولیه شامل بازیابی وکتورهای مرتبط با سوال کاربر از وکتور دیتابیس است. پس از به دست آوردن این اسناد مرتبط، رنکینگ مجدد اعمال می‌شود تا بهترین و مرتبط‌ترین نتایج در صدر لیست قرار بگیرند. این اسناد رده‌بالا که با سوال کاربر بیشترین همخوانی را دارند، سپس به LLM ارسال می‌شوند تا دقت و صحت نتایج را بهبود ببخشند.

در نظر داشته باشید که که مدل‌های رنکر معمولاً کند هستند، به همین دلیل، این مدل‌ها در مرحله اولیه جستجوی وکتورهای مشابه با سوال کاربر، استفاده نمی‌شه.
استفاده از این الگوریتم شما رو در برابر trade-off سرعت-کیفیت قرار میده.

تو پست‌های بعدی کانال، به تفصیل درباره روش‌های مختلف رنکینگ مجدد و تأثیر آن بر کارایی سیستم می‌پردازم.

@Ai_Events
دومین کنفرانس بین المللی هوش مصنوعی و مهندسی نرم افزار


@Ai_Events
Amazon partners with Anthropic to enhance Alexa

Amazon is set to launch a revamped version of its Alexa voice assistant, powered by Anthropic's Claude AI models. The update will offer advanced generative AI to handle complex queries and is expected to be available this October.

Source | @Ai_Events
اولین کنفرانس بین المللی یادگیری ماشین و کشف دانش

mlkd.aut.ac.ir

@Ai_Events
خروجی کد زیر چیست؟ (append vs extend in Python list)‌
a= [0, 1, 2]

b = []
b.append(a)

c=[]
c.extend(a)

print(b, c)

@Ai_Events
دوره‌ی Building Applications with Vector Databases تو کورسرا به شما آموزش می‌ده که چطور از وکتوردیتابیس Pinecone برای بحث‌های
Semantic Search
RAG
Recommender Systems
Hybrid Search
Facial Similarity Search
Anamoly Detection
استفاده کنید. این دوره کمتر از دو ساعت زمان شما رو می‌گیره و بهتون دید بسیار خوبی در مورد بحث‌های ذکر شده میده.

لینک دوره


@Ai_Events
World's first fully robotic heart transplant performed

A groundbreaking achievement in medical technology has been made at King Faisal Specialist Hospital and Research Centre in Riyadh, Saudi Arabia, where the world’s first fully robotic heart transplant was successfully performed. The operation, lasting about two and a half hours, was conducted on a 16-year-old patient suffering from end-stage heart failure, who specifically requested that his chest remain unopened during the procedure.

This landmark surgery not only showcases the capabilities of robotic technology in medicine but also sets a precedent for future procedures. It represents a major step forward in cardiac care, offering hope for improved outcomes in patients requiring heart transplants.

Source | @Ai_Events
Table For Two
Abel Korzeniowski
.
جایی که تو دستت نمی‌رسد؛
خدا شاخه‌ها را پایین می‌آورد.
من این صحنه را بارها دیده‌ام!

@Ai_Events
.
تو مطالعاتی که این مدت روی وکتوردیتابیس‌ها داشتم، به یه جمع بندی کلی در ویژگی‌هاشون رسیدم که تو این تصویر از جدول مقایسه آوردم‌شون.

اگر به دنبال انتخاب یک دیتابیس برداری (vector database) هستید، این جدول می‌تونه به شما کمک کنه تا تفاوت‌های اصلی بین گزینه‌های مختلف را درک کنید.

بعضی از دیتابیس‌ها مثل Pinecone فقط در فضای ابری ارائه می‌شن و برخی دیگر مانند Milvus و Weaviate قابلیت اجرا در محیط‌های لوکال و ابری دارن.

از نظر مقیاس‌پذیری، همه به‌جز Faiss از مقیاس‌پذیری افقی و عمودی پشتیبانی می‌کنند. از لحاظ امنیت، Pinecone، Milvus، Weaviate و Elasticsearch امکانات رمزنگاری و احراز هویت دارند، در حالی که Faiss فاقد این امکانات است.

انتخاب درست دیتابیس بستگی به نیاز شما از مقیاس‌پذیری، امنیت و پشتیبانی داره و باید جنبه‌های مختلف دیگه‌ای هم بررسی بشه.

تو جامعه فارسی، من تعریف Milvus رو زیاد شنیدم، اما هنوز کامیونیتی کاملی براش تشکیل نشده که تو اوایل شروع به‌کار یه ابزار طبیعیه.

@Ai_Events
🎈🎊🎉🎁

The Nobel Prize in Physics was awarded to John Hopfield and Geoffrey Hinton (AKA the Godfather of AI) for their contribution to the field with their ML and AI research.

@Ai_Events
کلاس آنلاین ریاضیات هوش مصنوعی

استاد: دکتر بهروز نصیحت‌کن، استادیار دانشگاه خواجه نصیر

https://meet.kntu.ac.ir/b/rooms/x7k-o5t-uoq-lvk/join


@Ai_Events
دومین همایش هوش مصنوعی فرهنگستان علوم


ias.ac.ir

@Ai_Events
2025/07/01 18:12:54
Back to Top
HTML Embed Code: