LLM берет золото на олимпиаде по астрофизике

Исследователи проверили, как современные большие языковые модели (LLM) справятся с задачами Международной олимпиады по астрономии и астрофизике (IOAA) за 2022–2025 годы.
Результаты впечатляют.

🧠 Тестировались модели:
GPT-5, OpenAI o3, Gemini 2.5 Pro, Claude 4.1 Opus и Claude 4 Sonnet.

📊 Что показали:
- GPT-5 и Gemini 2.5 Pro набрали 85–88 % - это уровень золотой медали .
- Остальные модели показали результат в диапазоне 48–76 %.
- Особенно сильны GPT-5 в анализе данных и Gemini в теории.

💡 Почему это важно:
- LLM впервые достигли уровня лучших олимпиадников по астрофизике.
- Это демонстрирует, что модели уже решают не только текстовые, но и научные, количественные и логические задачи.
- Потенциал таких систем — помощь в научных исследованиях, автоматическом анализе данных и обучении.

⚠️ Ограничения:
- Олимпиадные задачи не охватывают весь спектр реальной астрофизики.
- Возможны «угадывания» и шаблонные решения.
- Неясно, насколько стабильно поведение моделей при реальных данных с шумом и погрешностями.

🟢Подробности: arxiv.org/abs/2510.05016
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍3
Привет! Приходите на первый ML reading club от Авито.

Ярослав Хрипков, DS-инженер из команды LLM проведёт эфир, где вместе со зрителями будет разбирать статью про новую версию известной модели: Qwen3-Next: Towards Ultimate Training & Inference Efficiency.

Узнаете:
— Что классного в обновлённой версии модели от Alibaba.
— Из-за чего выросло её качество.
— Как gated attention и gated delta блоки улучшили эффективность модели.

Для контекста Ярослав заглянет ещё и в другие статьи:
Gated Delta Networks: Improving Mamba2 with Delta Rule
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

📌 Встречаемся 14 октября в телеграм-канале «Доска AI-объявлений».

⌚️Начинаем в 18:00 мск — ссылка появится в канале за час до начала.

Нюанс: если эфир будет плохо работать, попробуйте использовать сторонние сервисы и приложения, чтобы подключиться с другого IP 😉
4😁1
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ RAG - как GPT перестал галлюцинировать и научился думать с источниками

Классические LLM ограничены собственным контекстом: они выдают только то, что успели "запомнить" при обучении.
RAG (Retrieval-Augmented Generation) ломает эту границу — модель получает доступ к внешним данным и способна подгружать нужные факты *в момент запроса*.

Механика проста, но мощна:
LLM → делает эмбеддинг запроса → ищет близкие документы в векторном хранилище → получает top-k контексты → формирует ответ на их основе.
В итоге модель не "вспоминает", а всегда рассуждает на свежих данных.

Где это реально работает:
- в Copilot для кода, когда модель тянет сниппеты из корпоративных репозиториев;
- в внутренних чатах компаний - поиск по Confluence, Notion, Jira и документации;
- в R&D и науке - динамическая генерация отчётов с ссылками на реальные статьи;
- в юридических и медтех-системах, где каждый ответ должен быть подтверждён источником.

RAG - это уже не просто “надстройка над GPT”.
Это новая архитектура, где память отделена от рассуждения, и ИИ получает навык работы с контекстом, как человек с поисковиком.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52👏2🔥1
Твой шанс прокачаться в ИТ, заявить о себе на всю страну и побороться за призовой фонд 10 250 000 рублей 💰 Успей зарегистрироваться до 20 октября.

МТС приглашает на True Tech Champ — всероссийский чемпионат по программированию. Выбирай трек по душе или участвуй сразу в двух, чтобы увеличить шансы на победу.

Трек 1. Алгоритмический. Индивидуальный зачет
Работай со структурами данных, решай алгоритмические задачи и сражайся в лайв-кодинге с сильнейшими.

Трек 2. Программирование роботов. Командный формат
Сначала проведи робота по виртуальному лабиринту, затем управляй им дистанционно на офлайн-полигоне, а в финале — пройди испытания на реальной площадке и выбей соперников с платформы.

🎁 Организаторы отправят командам финалистов по одному роботу Waveshare Cobra Flex для кастомизации. После соревнований они останутся у участников в качестве подарка.

Тебя ждет:
— Зрелищный шоу-финал с искусственным интеллектом, цифровыми аватарами и другими технологиями.
— Конференция с лидерами индустрии, кодерские челленджи и возможность прокачать ИТ-навыки.
— Шанс лично пообщаться с HR-специалистами МТС и получить карьерный буст.

📍Шоу-финал пройдет 21 ноября в МТС Live Холл.
Успей зарегистрироваться до 20 октября
1
Elementary.Linear.Algebra.pdf
12.4 MB
Elementary Linear Algebra (Eng ver)
Авторы: Howard Anton, Anton Kaul (2019)

Авторы предоставляют простое изложение линейной алгебры, которое подходит для студентов первого курса бакалавриата. Цель учебника состоит в том, чтобы как можно более подробно объяснить основы линейной алгебры. Знания матанализа не являются обязательным условием для начала чтения, но есть четко обозначенные упражнения и примеры для студентов, изучавших математический анализ.
🔥105🥰1
📄 Nanonets-OCR2-3B - новая модель для интеллектуального OCR

Модель от Nanonets на базе Qwen2.5-VL-3B умеет не просто распознавать текст, а превращать изображение документа в структурированный Markdown: с таблицами, формулами, подписями и даже схемами.

🔍 Что умеет

- Распознаёт формулы и преобразует их в LaTeX
- Понимает таблицы и сохраняет структуру в Markdown или HTML
- Выделяет чекбоксы и радиокнопки (☐ / / ☒)
- Распознаёт подписи, водяные знаки, изображения
- Может описать картинки внутри документа с помощью <img>
-Поддерживает рукописные тексты и разные языки
- Для схем и блок-схем генерирует Mermaid-код
- Умеет отвечать на вопросы по документу (Visual QA)

👉 huggingface.co/nanonets/Nanonets-OCR2-3B
👍75
🧠 Могут ли мультимодальные модели действительно понимать инструменты?

Новая работа проверяет, способны ли модели действительно понимать физические инструменты, а не просто узнавать их по картинке.

📷 В задаче модели показывают фото и просят выбрать нужный инструмент с номером.
Датасет включает 1 000 пар изображение + текст и три уровня сложности:
1. Базовое распознавание инструмента;
2. Понимание ограничений (например, работает ли он, цел ли);
3. Конструирование инструмента из других предметов.

🧩 Условия:
- Можно использовать только предметы на фото;
- Ответ - номер инструмента или None.

👨‍🔬 Результаты:
- Люди: ~90 %
- Топ-модели: ~63 %
- Внутренние бэкенды Vision-Language-Action моделей — < 15 %.

Типичные ошибки:
- Считают сломанный инструмент рабочим;
- Путают похожие кабели и порты.

🔧 Немного помогает масштаб — примерно с 10 B параметров появляется базовое “чувство инструмента”.
Метод chain-of-thought даёт небольшой прирост,
а vision-centric пайплайн (распознавание объектов + рассуждение по вырезкам) улучшает самые трудные случаи.

💡 Главное открытие: современные мультимодальные модели знают названия предметов,
но не понимают, как инструменты работают.
Этот бенчмарк даёт чёткий ориентир, где они пока “проваливаются”.

📘 Cтатья: https://arxiv.org/abs/2510.09507
🔥53👏3
Залетай в новый поток курса «Практическая ML-инженерия: MLOps и разработка проектов» от AI Talent Hub, ИТМО если хочешь:

1️⃣ Освоить стек MLOps: DVC, Airflow, MLflow, ClearML, W&B, FastAPI, PyTest, Docker, GitLab CI — ключевые инструменты для выведения ML-модели в продакшен.

2️⃣ Вырасти в грейде: обновить скилсет и перейти в практический ML

3️⃣ Пройти весь путь создания ML-продукта от идеи до релиза с поддержкой практиков из AI Talent Hub

4️⃣ Получить диплом ДПО ИТМО

Продолжительность: 5 месяцев

Формат: онлайн

Цена: 150 000 ₽.

➡️ Изучи программу и успей зарегистрироваться до 31 октября!

AI Talent Hub — лучший просветительский проект в GenAI по версии Generation AI Awards 2025

Реклама. Университет ИТМО ИНН:7813045547
🥴1
2025/10/21 10:05:41
Back to Top
HTML Embed Code: