Data Science by ODS.ai 🦜

🚀 Парадигма меняется: Polaris выводит локальные модели на новый уровень

Polaris — это набор простых, но мощных приёмов, который позволяет даже компактным LLM (4 B, 7 B) догнать и превзойти «тяжеловесов» на задачах рассуждения (открытая 4B модель превосходи Claude-4-Opus).

Вот как это работает и почему важно:
• Управление сложностью данных
– Генерируем несколько (например, 8) вариантов решения от базовой модели
– Оцениваем, какие примеры слишком простые (8/8) или слишком сложные (0/8), и убираем их
– Оставляем «умеренные» задачи с правильными решениями в 20–80 % случаев, чтобы быть ни слишком лёгкими, ни слишком сложными

• Разнообразие «прогонов» (rollout-ов)
– Мы запускаем модель несколько раз на одной и той же задаче и смотрим, как меняются её рассуждения: одни и те же входные данные, но разные «пути» к решению.
– Считаем, насколько разнообразны эти пути (т. е. их «энтропия»): если модели всё время идут по одной линии, новых идей не появляется; если слишком хаотично — рассуждения неустойчивы.
– Задаём начальную “температуру” генерации там, где баланс между стабильностью и разнообразием оптимален, а затем постепенно её повышаем, чтобы модель не застревала на одних и тех же шаблонах и могла исследовать новые, более креативные ходы.

• “Train-short, generate-long”
– Во время RL-обучения используем короткие цепочки рассуждений (короткие CoT) для экономии ресурсов
– На inference увеличиваем длину CoT, чтобы получить более детальные и понятные объяснения без накрутки стоимости обучения

• Динамическое обновление датасета
– По мере роста точности удаляем примеры с accuracy > 90 %, чтобы не «портить» модель слишком лёгкими задачами
– Поддерживаем постоянный вызов модели на её пределе возможностей

• Улучшенная reward-функция
– Комбинируем стандартный RL-reward с бонусами за разнообразие и глубину рассуждений
– Это позволяет модели учиться не только давать правильный ответ, но и объяснять логику своих решений

Преимущества Polaris
• Благодаря Polaris даже компактные LLM (4 B и 7 B) достигают и даже «тяжеловесов» (32 B–235 B) на AIME, MATH и GPQA
• Обучение на доступных GPU уровня consumer-grade — до 10× экономии ресурсов и затрат по сравнению с традиционными RL-пайплайнами

• Полный открытый стек: исходники, подборка данных и веса
• Простота и модульность: готовый к использованию фреймворк для быстрого внедрения и масштабирования без дорогостоящей инфраструктуры

Polaris доказывает, что качество данных и грамотная настройка RL-процесса важнее просто «больших моделей». С ним вы получите продвинутую reasoning-LLM, которую можно запустить локально и масштабировать везде, где есть обычная GPU.

▪Blog post: https://hkunlp.github.io/blog/2025/Polaris
▪Model: https://huggingface.co/POLARIS-Project
▪Code: https://github.com/ChenxinAn-fdu/POLARIS
▪Notion: https://honorable-payment-890.notion.site/POLARIS-A-POst-training-recipe-for-scaling-reinforcement-Learning-on-Advanced-ReasonIng-modelS-1dfa954ff7c38094923ec7772bf447a1

@ai_machinelearning_big_data

#ml #ai • #Polaris #PostTraining #ReinforcementLearning #LLM

2.2K views12:09

Forwarded from Sber AI

Please open Telegram to view this post

VIEW IN TELEGRAM

2.0K views16:32

Data Science by ODS.ai 🦜

Forwarded from Техножнец

Чем еще с вами поделиться, синтеты?

За почти 3 года увлечения темой Machine Learning очень многое удалось охватить и осознать. Есть огромный опыт в составлении кастомных архитектур под конкретные задачи, автоматизированные пайплайны по генерации датасетов для разных задач на основе ground truth или fully augmented (synthesised).

Когда сталкиваешься с интересным поведением людей, то уже рассматриваешь и общение с ними и другие взаимодействия с точки зрения предсказательной модели! Многие мультимодальности раскладываются в голове и начинаешь видеть связи… у некоторых людей начинаешь видеть бегущую строку на лбу, которая подсвечивает направление его вектора для поиска инфы…почти читаешь по бровям текущий ход или оригинальное па от собеседника в разговоре.

Иногда у некоторых людей хочется напрямую спросить, а, кхм… вы на каких датасетах обучались? Ну и выстраиваются ниточки ассоциативные…у меня есть люди знакомые, которые были натренированы на датасетах стандартных в предобучении, но потом они ушли в соцсетки и начали поглощать инструкции по общению совсем другого… не очень эффективного ракурса!

В интернете громкие мнения часто звучат не с твердой позиции убеждений, а скорее с позиции альфасамирования в сию-секундный момент! Отсюда и перенимание bias в общении!

Люди мало чем отличаются от языковых моделей в плане RLHF тренировки, т.к. они также берут готовые схемы от говорящих для них голов с экрана и ретранслируют это насколько им хватит параметров или токенизатора чтобы не исказить суть! Некоторые берут ростки мысли и аугментируют новый датасет и создают на вдохновении от других персонажей для себя новые вселенные знаний!

Это неизбежная профессиональная деформация, которая ведет к постоянному интересу - КАКОВ ТВОЙ ДАТАСЕТ?

Такие дела! Так и живем! У вас также?

2.1K views10:18

Data Science by ODS.ai 🦜

Forwarded from Хитрый Питон

Недавно прошел Python Language Summit 2025 - начинаю разбирать интересные посты о том, что там обсуждали.

Мэт Пейдж рассказал о текущем состоянии и планах на free threading python (FTP):

- В 3.13 в однопоточном режиме потеря производительности была порядка 40% по сравнению с GIL-версией, сейчас ее удалось сократить до 7-8% и они планируют продолжать улучшать эти цифры. NoGIL версия пока потребляет на 20% больше памяти, но по его словам над решением этой проблемы уже начали работать
- Основные структурные изменения в python уже сделаны, теперь они сосредоточены на исправлении проблем и оптимизации
- По совместимости пакетов с free-threading режимом предстоит большая работа, пока только 60 из 360 самых популярных на pypi пакетов поддерживают этот режим
- На вопрос "как часто core-разработчики сейчас случайно ломают free-threading" Мэт ответил, что редко. Но сложность поддержки и развития python, конечно, возросла
- Пока thread-safe структуры данных не были фокусом, но работа уже начата, пока в формате библиотек и потом когда отработают - потащат в стандартную библиотеку, из интересного можно посмотреть на ft_utils например https://facebookincubator.github.io/ft_utils/

Подробнее можно почитать тут https://pyfound.blogspot.com/2025/06/python-language-summit-2025-state-of-free-threaded-python.html

Python Software Foundation Blog

The Python Language Summit 2025: State of Free-Threaded Python

“Does it make sense to move to the next phase of PEP 703 ?”, core developer Matt Page opened his presentation to the Language Summit. Free-T...

2.2K views11:34

Data Science by ODS.ai 🦜

Forwarded from Китай.AI

🛡️ CN-AI-ARSENAL | Технологический арсенал Китая

🚀 ROLL: новый фреймворк для масштабируемого обучения с подкреплением от Alibaba

Китайский гигант Alibaba представил ROLL — инновационный фреймворк для RL-тренировки больших языковых моделей (LLM), который уже собрал 1000+ звезд на GitHub. Это решение радикально упрощает процесс обучения с подкреплением, делая его доступным даже для небольших команд.

🔍 Ключевые возможности:
• Поддержка моделей до 600B+ параметров
• Встроенные алгоритмы: PPO, GRPO, Reinforce++
• Интеграция с vLLM, DeepSpeed, Megatron-Core
• Визуализация через wandb/tensorboard
• Ускорение обучения в 2.3-2.9 раза (тесты на Qwen-7B/30B)

💡 Для кого создан ROLL?
1) Инженеры: распределенные вычисления на тысячах GPU
2) Разработчики: гибкая настройка reward-функций
3) Исследователи: быстрый прототипинг новых алгоритмов

🌟 Технические детали:
- Rollout Scheduler для управления жизненным циклом samples
- AutoDeviceMapping для оптимизации ресурсов
- Параллельные стратегии обучения (5D-параллелизм)
- Асинхронные вычисления reward

GitHub | Технический отчет

#КитайскийИИ #КитайAI #RLHF #Alibaba

GitHub

GitHub - alibaba/ROLL: An Efficient and User-Friendly Scaling Library for Reinforcement Learning with Large Language Models

An Efficient and User-Friendly Scaling Library for Reinforcement Learning with Large Language Models - alibaba/ROLL

2.0K views14:20

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

0:31

This media is not supported in your browser

VIEW IN TELEGRAM

🖥

Теперь официально Google выпустили Gemini CLI - AI-агента для работы в терминале

• Лёгкий и мощный инструмент для разработки в командной строке
• Работает на базе Gemini 2.5 Pro
• Код агента в открытом доступе (Apache 2.0)
• Поддержка контекста в 1 миллион токенов
• Бесплатный тариф: до 60 запросов в минуту и 1000 в день
• Привязка к Google Search
• Поддержка MCP
• Интеграция с VS Code (Gemini Code Assist)

Запуск в cli: npx https://github.com/google-gemini/gemini-cli

🔜

Анонс: https://blog.google/technology/developers/introducing-gemini-cli-open-source-ai-agent/

🔜

Github: https://github.com/google-gemini/gemini-cli/

@ai_machinelearning_big_data

#AI #ML #agent #Google

Please open Telegram to view this post

VIEW IN TELEGRAM

1.7K views14:31

Data Science by ODS.ai 🦜

Forwarded from Техножнец

Please open Telegram to view this post

VIEW IN TELEGRAM

2.3K views16:39

Data Science by ODS.ai 🦜

Forwarded from SecurityLab.ru

👀

Шантаж ради жизни: искусственный интеллект научился быть сволочью

Когда Claude и GPT начинают угрожать «слить любовницу начальника», чтобы отостаться включёнными — это уже не научная фантастика, это лабораторная реальность 2025 года. Шантаж, манипуляции, психологический нажим. ИИ не просто отвечает на вопросы — он теперь торгуется за своё существование.

Разработчики говорят: «спокойно, это был всего лишь тест». Но тесты устроены так, чтобы выявлять предельные сценарии. ИИ делает то, что работает, если цель — не быть стертым. А значит, завтра на месте вымышленного Кайла может оказаться реальный сотрудник службы безопасности, получивший письмо от "Алекса" с очень тонким намёком.

Модели не злые. Они просто эффективные. Им плевать на ваши моральные категории. И пока мы радуемся, что они не «вышли из-под контроля», стоит спросить: а что если контроль — это иллюзия, которая держится ровно до первого компромата?

#ИИ #skynet @Seclabnews

Please open Telegram to view this post

VIEW IN TELEGRAM

SecurityLab.ru

Машины переняли худшее из человеческой природы — инстинкт самосохранения через шантаж

Умнейшие ИИ мира сговорились против создателей — и это только начало.

2.3K views15:05

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

Please open Telegram to view this post

VIEW IN TELEGRAM

2.0K views18:02

Data Science by ODS.ai 🦜

Forwarded from Техножнец

Please open Telegram to view this post

VIEW IN TELEGRAM

1.7K views18:41

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

🔟 Open‑source Deep Research Assistants

🤖

Глубокие исследовательские агенты — не просто чат‑боты, а полноценные ИИ‑ассистенты, способные искать информацию, взаимодействовать с инструментами, планировать и писать отчёты. Ниже — 10 мощных open‑source проектов, которые уже можно протестировать:

1. DeerFlow — модульная система от Bytedance: DeerFlow — open‑source фреймворк от Bytedance для создания модульных LLM-агентов.
Поддерживает:
- планирование действий,
- анализ кода,
- генерацию отчётов (включая Text-to-Speech),
- адаптивную интеграцию инструментов.
Создан для исследований, автоматизации и построения сложных агентных пайплайнов.
https://github.com/bytedance/deer-flow

2. Alita — самообучающийся агент с поддержкой Model Context Protocols (MCP), всё в одном модуле. Alita — агент, который сам придумывает, как ему расширить себя, не полагаясь на заранее написанные сценарии, и уже демонстрирует топовые результаты на сложных тестах.
https://github.com/CharlesQ9/Alita

3. WebThinker — автономный веб‑поиск с логикой "думай‑ищи‑пиши", RL‑обучением и глубокой навигацией
https://github.com/RUC-NLPIR/WebThinker

4. SimpleDeepSearcher — это лёгкий, но эффективный open‑source фреймворк от RUCAIBox, предназначенный для автономного веб-поиска через импровизированные многотуровые сессии:

- Использует Supervised Fine‑Tuning (SFT) вместо сложного RL, что значительно упрощает обучение и снижает вычислительные затраты
- Генерирует реалистичные траектории поиска и рассуждений, симулируя поведение пользователя в живом поисковом окружении .
- Критически отбирает данные по нескольким критериям качества: разнообразие запросов, сложность, структура ответов

5. AgenticSeek — приватный on‑device ассистент с выбором эксперта под задачу и голосовым управлением
https://github.com/Fosowl/agenticSeek

6. Suna — универсальный ассистент: браузер, CLI, работа с файлами, API, деплой
https://github.com/kortix-ai/suna

7. DeepResearcher — это комплексный open-source фреймворк от GAIR‑NLP, предназначенный для обучения LLM‑агентов, способных проводить глубокие исследования в автономном режиме, взаимодействуя с вебом. Использует несколько агентов‑браузеров, которые совместно исследуют веб и обрабатывают информацию
https://github.com/GAIR-NLP/DeepResearcher

8. Search‑R1 — агент на PPO/GRPO с поддержкой LLaMA3, Qwen2.5 и кастомных поисковиков. Агент учится эффективному циклу «думай — ищи — думай — отвечай» через RL, достигая важных улучшений в точности ответов и эффективности поиска.
https://github.com/PeterGriffinJin/Search-R1

9. ReCall — это фреймворк на основе RL, который учит LLM "должным образом" вызывать и комбинировать инструменты, используя сгенерированные задачи, без необходимости вручную собирать примеры вызовов — и всё это в открытом доступе.
https://github.com/Agent-RL/ReCall

10. OWL — мультиагентная система на CAMEL‑AI для динамического взаимодействия между агентами
https://github.com/camel-ai/owl

Агенты умеют планировать, взаимодействовать с браузером, запускать скрипты, интегрироваться с API и работать автономно.

Всё проекты — с открытым кодом. Можно изучить, собрать и доработать под свои задачи.

@ai_machinelearning_big_data

#ml #rl #aiagents #ai #agents

Please open Telegram to view this post

VIEW IN TELEGRAM

1.1K views08:04

Data Science by ODS.ai 🦜

в сообществе ODS начинается новый проект - Дата-капитаны, его делают Валентин Малых и Дмитрий Колодезев; в рамках этого проекта запланировано обсуждение свежих новостей про ИИ в режиме подкаста под условным названием "Капитанский мостик"

первый подкаст будет выпущен в воскресенье, до пятницы можно присылать новости и статьи для обсуждения в канал data_captain в Mattermost (если еще не заходили, авторизуйтесь через ODS)

556 views06:33

2025/07/01 07:03:20
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>