LLM берет золото на олимпиаде по астрофизике
Исследователи проверили, как современные большие языковые модели (LLM) справятся с задачами Международной олимпиады по астрономии и астрофизике (IOAA) за 2022–2025 годы.
Результаты впечатляют.
🧠 Тестировались модели:
GPT-5, OpenAI o3, Gemini 2.5 Pro, Claude 4.1 Opus и Claude 4 Sonnet.
📊 Что показали:
- GPT-5 и Gemini 2.5 Pro набрали 85–88 % - это уровень золотой медали .
- Остальные модели показали результат в диапазоне 48–76 %.
- Особенно сильны GPT-5 в анализе данных и Gemini в теории.
💡 Почему это важно:
- LLM впервые достигли уровня лучших олимпиадников по астрофизике.
- Это демонстрирует, что модели уже решают не только текстовые, но и научные, количественные и логические задачи.
- Потенциал таких систем — помощь в научных исследованиях, автоматическом анализе данных и обучении.
⚠️ Ограничения:
- Олимпиадные задачи не охватывают весь спектр реальной астрофизики.
- Возможны «угадывания» и шаблонные решения.
- Неясно, насколько стабильно поведение моделей при реальных данных с шумом и погрешностями.
🟢 Подробности: arxiv.org/abs/2510.05016
Исследователи проверили, как современные большие языковые модели (LLM) справятся с задачами Международной олимпиады по астрономии и астрофизике (IOAA) за 2022–2025 годы.
Результаты впечатляют.
🧠 Тестировались модели:
GPT-5, OpenAI o3, Gemini 2.5 Pro, Claude 4.1 Opus и Claude 4 Sonnet.
📊 Что показали:
- GPT-5 и Gemini 2.5 Pro набрали 85–88 % - это уровень золотой медали .
- Остальные модели показали результат в диапазоне 48–76 %.
- Особенно сильны GPT-5 в анализе данных и Gemini в теории.
💡 Почему это важно:
- LLM впервые достигли уровня лучших олимпиадников по астрофизике.
- Это демонстрирует, что модели уже решают не только текстовые, но и научные, количественные и логические задачи.
- Потенциал таких систем — помощь в научных исследованиях, автоматическом анализе данных и обучении.
⚠️ Ограничения:
- Олимпиадные задачи не охватывают весь спектр реальной астрофизики.
- Возможны «угадывания» и шаблонные решения.
- Неясно, насколько стабильно поведение моделей при реальных данных с шумом и погрешностями.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3
Привет! Приходите на первый ML reading club от Авито.
Ярослав Хрипков, DS-инженер из команды LLM проведёт эфир, где вместе со зрителями будет разбирать статью про новую версию известной модели: Qwen3-Next: Towards Ultimate Training & Inference Efficiency.
Узнаете:
— Что классного в обновлённой версии модели от Alibaba.
— Из-за чего выросло её качество.
— Как gated attention и gated delta блоки улучшили эффективность модели.
Для контекста Ярослав заглянет ещё и в другие статьи:
— Gated Delta Networks: Improving Mamba2 with Delta Rule
— Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
📌 Встречаемся 14 октября в телеграм-канале «Доска AI-объявлений».
⌚️Начинаем в 18:00 мск — ссылка появится в канале за час до начала.
Нюанс: если эфир будет плохо работать, попробуйте использовать сторонние сервисы и приложения, чтобы подключиться с другого IP 😉
Ярослав Хрипков, DS-инженер из команды LLM проведёт эфир, где вместе со зрителями будет разбирать статью про новую версию известной модели: Qwen3-Next: Towards Ultimate Training & Inference Efficiency.
Узнаете:
— Что классного в обновлённой версии модели от Alibaba.
— Из-за чего выросло её качество.
— Как gated attention и gated delta блоки улучшили эффективность модели.
Для контекста Ярослав заглянет ещё и в другие статьи:
— Gated Delta Networks: Improving Mamba2 with Delta Rule
— Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
📌 Встречаемся 14 октября в телеграм-канале «Доска AI-объявлений».
⌚️Начинаем в 18:00 мск — ссылка появится в канале за час до начала.
Нюанс: если эфир будет плохо работать, попробуйте использовать сторонние сервисы и приложения, чтобы подключиться с другого IP 😉
❤4😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Классические LLM ограничены собственным контекстом: они выдают только то, что успели "запомнить" при обучении.
RAG (Retrieval-Augmented Generation) ломает эту границу — модель получает доступ к внешним данным и способна подгружать нужные факты *в момент запроса*.
Механика проста, но мощна:
LLM → делает эмбеддинг запроса → ищет близкие документы в векторном хранилище → получает top-k контексты → формирует ответ на их основе.
В итоге модель не "вспоминает", а всегда рассуждает на свежих данных.
Где это реально работает:
- в Copilot для кода, когда модель тянет сниппеты из корпоративных репозиториев;
- в внутренних чатах компаний - поиск по Confluence, Notion, Jira и документации;
- в R&D и науке - динамическая генерация отчётов с ссылками на реальные статьи;
- в юридических и медтех-системах, где каждый ответ должен быть подтверждён источником.
RAG - это уже не просто “надстройка над GPT”.
Это новая архитектура, где память отделена от рассуждения, и ИИ получает навык работы с контекстом, как человек с поисковиком.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2👏2🔥1
Твой шанс прокачаться в ИТ, заявить о себе на всю страну и побороться за призовой фонд 10 250 000 рублей 💰 Успей зарегистрироваться до 20 октября.
МТС приглашает на True Tech Champ — всероссийский чемпионат по программированию. Выбирай трек по душе или участвуй сразу в двух, чтобы увеличить шансы на победу.
Трек 1. Алгоритмический. Индивидуальный зачет
Работай со структурами данных, решай алгоритмические задачи и сражайся в лайв-кодинге с сильнейшими.
Трек 2. Программирование роботов. Командный формат
Сначала проведи робота по виртуальному лабиринту, затем управляй им дистанционно на офлайн-полигоне, а в финале — пройди испытания на реальной площадке и выбей соперников с платформы.
🎁 Организаторы отправят командам финалистов по одному роботу Waveshare Cobra Flex для кастомизации. После соревнований они останутся у участников в качестве подарка.
Тебя ждет:
— Зрелищный шоу-финал с искусственным интеллектом, цифровыми аватарами и другими технологиями.
— Конференция с лидерами индустрии, кодерские челленджи и возможность прокачать ИТ-навыки.
— Шанс лично пообщаться с HR-специалистами МТС и получить карьерный буст.
📍Шоу-финал пройдет 21 ноября в МТС Live Холл.
⏰ Успей зарегистрироваться до 20 октября
МТС приглашает на True Tech Champ — всероссийский чемпионат по программированию. Выбирай трек по душе или участвуй сразу в двух, чтобы увеличить шансы на победу.
Трек 1. Алгоритмический. Индивидуальный зачет
Работай со структурами данных, решай алгоритмические задачи и сражайся в лайв-кодинге с сильнейшими.
Трек 2. Программирование роботов. Командный формат
Сначала проведи робота по виртуальному лабиринту, затем управляй им дистанционно на офлайн-полигоне, а в финале — пройди испытания на реальной площадке и выбей соперников с платформы.
🎁 Организаторы отправят командам финалистов по одному роботу Waveshare Cobra Flex для кастомизации. После соревнований они останутся у участников в качестве подарка.
Тебя ждет:
— Зрелищный шоу-финал с искусственным интеллектом, цифровыми аватарами и другими технологиями.
— Конференция с лидерами индустрии, кодерские челленджи и возможность прокачать ИТ-навыки.
— Шанс лично пообщаться с HR-специалистами МТС и получить карьерный буст.
📍Шоу-финал пройдет 21 ноября в МТС Live Холл.
⏰ Успей зарегистрироваться до 20 октября
❤1
Elementary.Linear.Algebra.pdf
12.4 MB
Elementary Linear Algebra (Eng ver)
Авторы: Howard Anton, Anton Kaul (2019)
Авторы предоставляют простое изложение линейной алгебры, которое подходит для студентов первого курса бакалавриата. Цель учебника состоит в том, чтобы как можно более подробно объяснить основы линейной алгебры. Знания матанализа не являются обязательным условием для начала чтения, но есть четко обозначенные упражнения и примеры для студентов, изучавших математический анализ.
Авторы: Howard Anton, Anton Kaul (2019)
Авторы предоставляют простое изложение линейной алгебры, которое подходит для студентов первого курса бакалавриата. Цель учебника состоит в том, чтобы как можно более подробно объяснить основы линейной алгебры. Знания матанализа не являются обязательным условием для начала чтения, но есть четко обозначенные упражнения и примеры для студентов, изучавших математический анализ.
🔥10❤5🥰1
📄 Nanonets-OCR2-3B - новая модель для интеллектуального OCR
Модель от Nanonets на базе Qwen2.5-VL-3B умеет не просто распознавать текст, а превращать изображение документа в структурированный Markdown: с таблицами, формулами, подписями и даже схемами.
🔍 Что умеет
- Распознаёт формулы и преобразует их в LaTeX
- Понимает таблицы и сохраняет структуру в Markdown или HTML
- Выделяет чекбоксы и радиокнопки (☐ / ☑ / ☒)
- Распознаёт подписи, водяные знаки, изображения
- Может описать картинки внутри документа с помощью <img>
-Поддерживает рукописные тексты и разные языки
- Для схем и блок-схем генерирует Mermaid-код
- Умеет отвечать на вопросы по документу (Visual QA)
👉 huggingface.co/nanonets/Nanonets-OCR2-3B
Модель от Nanonets на базе Qwen2.5-VL-3B умеет не просто распознавать текст, а превращать изображение документа в структурированный Markdown: с таблицами, формулами, подписями и даже схемами.
🔍 Что умеет
- Распознаёт формулы и преобразует их в LaTeX
- Понимает таблицы и сохраняет структуру в Markdown или HTML
- Выделяет чекбоксы и радиокнопки (☐ / ☑ / ☒)
- Распознаёт подписи, водяные знаки, изображения
- Может описать картинки внутри документа с помощью <img>
-Поддерживает рукописные тексты и разные языки
- Для схем и блок-схем генерирует Mermaid-код
- Умеет отвечать на вопросы по документу (Visual QA)
👉 huggingface.co/nanonets/Nanonets-OCR2-3B
👍7❤5
🧠 Могут ли мультимодальные модели действительно понимать инструменты?
Новая работа проверяет, способны ли модели действительно понимать физические инструменты, а не просто узнавать их по картинке.
📷 В задаче модели показывают фото и просят выбрать нужный инструмент с номером.
Датасет включает 1 000 пар изображение + текст и три уровня сложности:
1. Базовое распознавание инструмента;
2. Понимание ограничений (например, работает ли он, цел ли);
3. Конструирование инструмента из других предметов.
🧩 Условия:
- Можно использовать только предметы на фото;
- Ответ - номер инструмента или None.
👨🔬 Результаты:
- Люди: ~90 %
- Топ-модели: ~63 %
- Внутренние бэкенды Vision-Language-Action моделей — < 15 %.
Типичные ошибки:
- Считают сломанный инструмент рабочим;
- Путают похожие кабели и порты.
🔧 Немного помогает масштаб — примерно с 10 B параметров появляется базовое “чувство инструмента”.
Метод chain-of-thought даёт небольшой прирост,
а vision-centric пайплайн (распознавание объектов + рассуждение по вырезкам) улучшает самые трудные случаи.
💡 Главное открытие: современные мультимодальные модели знают названия предметов,
но не понимают, как инструменты работают.
Этот бенчмарк даёт чёткий ориентир, где они пока “проваливаются”.
📘 Cтатья: https://arxiv.org/abs/2510.09507
Новая работа проверяет, способны ли модели действительно понимать физические инструменты, а не просто узнавать их по картинке.
📷 В задаче модели показывают фото и просят выбрать нужный инструмент с номером.
Датасет включает 1 000 пар изображение + текст и три уровня сложности:
1. Базовое распознавание инструмента;
2. Понимание ограничений (например, работает ли он, цел ли);
3. Конструирование инструмента из других предметов.
🧩 Условия:
- Можно использовать только предметы на фото;
- Ответ - номер инструмента или None.
👨🔬 Результаты:
- Люди: ~90 %
- Топ-модели: ~63 %
- Внутренние бэкенды Vision-Language-Action моделей — < 15 %.
Типичные ошибки:
- Считают сломанный инструмент рабочим;
- Путают похожие кабели и порты.
🔧 Немного помогает масштаб — примерно с 10 B параметров появляется базовое “чувство инструмента”.
Метод chain-of-thought даёт небольшой прирост,
а vision-centric пайплайн (распознавание объектов + рассуждение по вырезкам) улучшает самые трудные случаи.
💡 Главное открытие: современные мультимодальные модели знают названия предметов,
но не понимают, как инструменты работают.
Этот бенчмарк даёт чёткий ориентир, где они пока “проваливаются”.
📘 Cтатья: https://arxiv.org/abs/2510.09507
🔥5❤3👏3
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
❤7🔥5👍1🥰1
Залетай в новый поток курса «Практическая ML-инженерия: MLOps и разработка проектов» от AI Talent Hub, ИТМО если хочешь:
1️⃣ Освоить стек MLOps: DVC, Airflow, MLflow, ClearML, W&B, FastAPI, PyTest, Docker, GitLab CI — ключевые инструменты для выведения ML-модели в продакшен.
2️⃣ Вырасти в грейде: обновить скилсет и перейти в практический ML
3️⃣ Пройти весь путь создания ML-продукта от идеи до релиза с поддержкой практиков из AI Talent Hub
4️⃣ Получить диплом ДПО ИТМО
Продолжительность: 5 месяцев
Формат: онлайн
Цена: 150 000 ₽.
➡️ Изучи программу и успей зарегистрироваться до 31 октября!
AI Talent Hub — лучший просветительский проект в GenAI по версии Generation AI Awards 2025
Реклама. Университет ИТМО ИНН:7813045547
1️⃣ Освоить стек MLOps: DVC, Airflow, MLflow, ClearML, W&B, FastAPI, PyTest, Docker, GitLab CI — ключевые инструменты для выведения ML-модели в продакшен.
2️⃣ Вырасти в грейде: обновить скилсет и перейти в практический ML
3️⃣ Пройти весь путь создания ML-продукта от идеи до релиза с поддержкой практиков из AI Talent Hub
4️⃣ Получить диплом ДПО ИТМО
Продолжительность: 5 месяцев
Формат: онлайн
Цена: 150 000 ₽.
➡️ Изучи программу и успей зарегистрироваться до 31 октября!
AI Talent Hub — лучший просветительский проект в GenAI по версии Generation AI Awards 2025
Реклама. Университет ИТМО ИНН:7813045547
🥴1