Forwarded from Machinelearning
🚀 Парадигма меняется: Polaris выводит локальные модели на новый уровень
Polaris — это набор простых, но мощных приёмов, который позволяет даже компактным LLM (4 B, 7 B) догнать и превзойти «тяжеловесов» на задачах рассуждения (открытая 4B модель превосходи Claude-4-Opus).
Вот как это работает и почему важно:
• Управление сложностью данных
– Генерируем несколько (например, 8) вариантов решения от базовой модели
– Оцениваем, какие примеры слишком простые (8/8) или слишком сложные (0/8), и убираем их
– Оставляем «умеренные» задачи с правильными решениями в 20–80 % случаев, чтобы быть ни слишком лёгкими, ни слишком сложными
• Разнообразие «прогонов» (rollout-ов)
– Мы запускаем модель несколько раз на одной и той же задаче и смотрим, как меняются её рассуждения: одни и те же входные данные, но разные «пути» к решению.
– Считаем, насколько разнообразны эти пути (т. е. их «энтропия»): если модели всё время идут по одной линии, новых идей не появляется; если слишком хаотично — рассуждения неустойчивы.
– Задаём начальную “температуру” генерации там, где баланс между стабильностью и разнообразием оптимален, а затем постепенно её повышаем, чтобы модель не застревала на одних и тех же шаблонах и могла исследовать новые, более креативные ходы.
• “Train-short, generate-long”
– Во время RL-обучения используем короткие цепочки рассуждений (короткие CoT) для экономии ресурсов
– На inference увеличиваем длину CoT, чтобы получить более детальные и понятные объяснения без накрутки стоимости обучения
• Динамическое обновление датасета
– По мере роста точности удаляем примеры с accuracy > 90 %, чтобы не «портить» модель слишком лёгкими задачами
– Поддерживаем постоянный вызов модели на её пределе возможностей
• Улучшенная reward-функция
– Комбинируем стандартный RL-reward с бонусами за разнообразие и глубину рассуждений
– Это позволяет модели учиться не только давать правильный ответ, но и объяснять логику своих решений
Преимущества Polaris
• Благодаря Polaris даже компактные LLM (4 B и 7 B) достигают и даже «тяжеловесов» (32 B–235 B) на AIME, MATH и GPQA
• Обучение на доступных GPU уровня consumer-grade — до 10× экономии ресурсов и затрат по сравнению с традиционными RL-пайплайнами
• Полный открытый стек: исходники, подборка данных и веса
• Простота и модульность: готовый к использованию фреймворк для быстрого внедрения и масштабирования без дорогостоящей инфраструктуры
Polaris доказывает, что качество данных и грамотная настройка RL-процесса важнее просто «больших моделей». С ним вы получите продвинутую reasoning-LLM, которую можно запустить локально и масштабировать везде, где есть обычная GPU.
▪Blog post: https://hkunlp.github.io/blog/2025/Polaris
▪Model: https://huggingface.co/POLARIS-Project
▪Code: https://github.com/ChenxinAn-fdu/POLARIS
▪Notion: https://honorable-payment-890.notion.site/POLARIS-A-POst-training-recipe-for-scaling-reinforcement-Learning-on-Advanced-ReasonIng-modelS-1dfa954ff7c38094923ec7772bf447a1
@ai_machinelearning_big_data
#ml #ai • #Polaris #PostTraining #ReinforcementLearning #LLM
Polaris — это набор простых, но мощных приёмов, который позволяет даже компактным LLM (4 B, 7 B) догнать и превзойти «тяжеловесов» на задачах рассуждения (открытая 4B модель превосходи Claude-4-Opus).
Вот как это работает и почему важно:
• Управление сложностью данных
– Генерируем несколько (например, 8) вариантов решения от базовой модели
– Оцениваем, какие примеры слишком простые (8/8) или слишком сложные (0/8), и убираем их
– Оставляем «умеренные» задачи с правильными решениями в 20–80 % случаев, чтобы быть ни слишком лёгкими, ни слишком сложными
• Разнообразие «прогонов» (rollout-ов)
– Мы запускаем модель несколько раз на одной и той же задаче и смотрим, как меняются её рассуждения: одни и те же входные данные, но разные «пути» к решению.
– Считаем, насколько разнообразны эти пути (т. е. их «энтропия»): если модели всё время идут по одной линии, новых идей не появляется; если слишком хаотично — рассуждения неустойчивы.
– Задаём начальную “температуру” генерации там, где баланс между стабильностью и разнообразием оптимален, а затем постепенно её повышаем, чтобы модель не застревала на одних и тех же шаблонах и могла исследовать новые, более креативные ходы.
• “Train-short, generate-long”
– Во время RL-обучения используем короткие цепочки рассуждений (короткие CoT) для экономии ресурсов
– На inference увеличиваем длину CoT, чтобы получить более детальные и понятные объяснения без накрутки стоимости обучения
• Динамическое обновление датасета
– По мере роста точности удаляем примеры с accuracy > 90 %, чтобы не «портить» модель слишком лёгкими задачами
– Поддерживаем постоянный вызов модели на её пределе возможностей
• Улучшенная reward-функция
– Комбинируем стандартный RL-reward с бонусами за разнообразие и глубину рассуждений
– Это позволяет модели учиться не только давать правильный ответ, но и объяснять логику своих решений
Преимущества Polaris
• Благодаря Polaris даже компактные LLM (4 B и 7 B) достигают и даже «тяжеловесов» (32 B–235 B) на AIME, MATH и GPQA
• Обучение на доступных GPU уровня consumer-grade — до 10× экономии ресурсов и затрат по сравнению с традиционными RL-пайплайнами
• Полный открытый стек: исходники, подборка данных и веса
• Простота и модульность: готовый к использованию фреймворк для быстрого внедрения и масштабирования без дорогостоящей инфраструктуры
Polaris доказывает, что качество данных и грамотная настройка RL-процесса важнее просто «больших моделей». С ним вы получите продвинутую reasoning-LLM, которую можно запустить локально и масштабировать везде, где есть обычная GPU.
▪Blog post: https://hkunlp.github.io/blog/2025/Polaris
▪Model: https://huggingface.co/POLARIS-Project
▪Code: https://github.com/ChenxinAn-fdu/POLARIS
▪Notion: https://honorable-payment-890.notion.site/POLARIS-A-POst-training-recipe-for-scaling-reinforcement-Learning-on-Advanced-ReasonIng-modelS-1dfa954ff7c38094923ec7772bf447a1
@ai_machinelearning_big_data
#ml #ai • #Polaris #PostTraining #ReinforcementLearning #LLM
Forwarded from Sber AI
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Техножнец
Чем еще с вами поделиться, синтеты?
За почти 3 года увлечения темой Machine Learning очень многое удалось охватить и осознать. Есть огромный опыт в составлении кастомных архитектур под конкретные задачи, автоматизированные пайплайны по генерации датасетов для разных задач на основе ground truth или fully augmented (synthesised).
Когда сталкиваешься с интересным поведением людей, то уже рассматриваешь и общение с ними и другие взаимодействия с точки зрения предсказательной модели! Многие мультимодальности раскладываются в голове и начинаешь видеть связи… у некоторых людей начинаешь видеть бегущую строку на лбу, которая подсвечивает направление его вектора для поиска инфы…почти читаешь по бровям текущий ход или оригинальное па от собеседника в разговоре.
Иногда у некоторых людей хочется напрямую спросить, а, кхм… вы на каких датасетах обучались? Ну и выстраиваются ниточки ассоциативные…у меня есть люди знакомые, которые были натренированы на датасетах стандартных в предобучении, но потом они ушли в соцсетки и начали поглощать инструкции по общению совсем другого… не очень эффективного ракурса!
В интернете громкие мнения часто звучат не с твердой позиции убеждений, а скорее с позиции альфасамирования в сию-секундный момент! Отсюда и перенимание bias в общении!
Люди мало чем отличаются от языковых моделей в плане RLHF тренировки, т.к. они также берут готовые схемы от говорящих для них голов с экрана и ретранслируют это насколько им хватит параметров или токенизатора чтобы не исказить суть! Некоторые берут ростки мысли и аугментируют новый датасет и создают на вдохновении от других персонажей для себя новые вселенные знаний!
Это неизбежная профессиональная деформация, которая ведет к постоянному интересу - КАКОВ ТВОЙ ДАТАСЕТ?
Такие дела! Так и живем! У вас также?
За почти 3 года увлечения темой Machine Learning очень многое удалось охватить и осознать. Есть огромный опыт в составлении кастомных архитектур под конкретные задачи, автоматизированные пайплайны по генерации датасетов для разных задач на основе ground truth или fully augmented (synthesised).
Когда сталкиваешься с интересным поведением людей, то уже рассматриваешь и общение с ними и другие взаимодействия с точки зрения предсказательной модели! Многие мультимодальности раскладываются в голове и начинаешь видеть связи… у некоторых людей начинаешь видеть бегущую строку на лбу, которая подсвечивает направление его вектора для поиска инфы…почти читаешь по бровям текущий ход или оригинальное па от собеседника в разговоре.
Иногда у некоторых людей хочется напрямую спросить, а, кхм… вы на каких датасетах обучались? Ну и выстраиваются ниточки ассоциативные…у меня есть люди знакомые, которые были натренированы на датасетах стандартных в предобучении, но потом они ушли в соцсетки и начали поглощать инструкции по общению совсем другого… не очень эффективного ракурса!
В интернете громкие мнения часто звучат не с твердой позиции убеждений, а скорее с позиции альфасамирования в сию-секундный момент! Отсюда и перенимание bias в общении!
Люди мало чем отличаются от языковых моделей в плане RLHF тренировки, т.к. они также берут готовые схемы от говорящих для них голов с экрана и ретранслируют это насколько им хватит параметров или токенизатора чтобы не исказить суть! Некоторые берут ростки мысли и аугментируют новый датасет и создают на вдохновении от других персонажей для себя новые вселенные знаний!
Это неизбежная профессиональная деформация, которая ведет к постоянному интересу - КАКОВ ТВОЙ ДАТАСЕТ?
Такие дела! Так и живем! У вас также?
Forwarded from Хитрый Питон
Недавно прошел Python Language Summit 2025 - начинаю разбирать интересные посты о том, что там обсуждали.
Мэт Пейдж рассказал о текущем состоянии и планах на free threading python (FTP):
- В 3.13 в однопоточном режиме потеря производительности была порядка 40% по сравнению с GIL-версией, сейчас ее удалось сократить до 7-8% и они планируют продолжать улучшать эти цифры. NoGIL версия пока потребляет на 20% больше памяти, но по его словам над решением этой проблемы уже начали работать
- Основные структурные изменения в python уже сделаны, теперь они сосредоточены на исправлении проблем и оптимизации
- По совместимости пакетов с free-threading режимом предстоит большая работа, пока только 60 из 360 самых популярных на pypi пакетов поддерживают этот режим
- На вопрос "как часто core-разработчики сейчас случайно ломают free-threading" Мэт ответил, что редко. Но сложность поддержки и развития python, конечно, возросла
- Пока thread-safe структуры данных не были фокусом, но работа уже начата, пока в формате библиотек и потом когда отработают - потащат в стандартную библиотеку, из интересного можно посмотреть на ft_utils например https://facebookincubator.github.io/ft_utils/
Подробнее можно почитать тут https://pyfound.blogspot.com/2025/06/python-language-summit-2025-state-of-free-threaded-python.html
Мэт Пейдж рассказал о текущем состоянии и планах на free threading python (FTP):
- В 3.13 в однопоточном режиме потеря производительности была порядка 40% по сравнению с GIL-версией, сейчас ее удалось сократить до 7-8% и они планируют продолжать улучшать эти цифры. NoGIL версия пока потребляет на 20% больше памяти, но по его словам над решением этой проблемы уже начали работать
- Основные структурные изменения в python уже сделаны, теперь они сосредоточены на исправлении проблем и оптимизации
- По совместимости пакетов с free-threading режимом предстоит большая работа, пока только 60 из 360 самых популярных на pypi пакетов поддерживают этот режим
- На вопрос "как часто core-разработчики сейчас случайно ломают free-threading" Мэт ответил, что редко. Но сложность поддержки и развития python, конечно, возросла
- Пока thread-safe структуры данных не были фокусом, но работа уже начата, пока в формате библиотек и потом когда отработают - потащат в стандартную библиотеку, из интересного можно посмотреть на ft_utils например https://facebookincubator.github.io/ft_utils/
Подробнее можно почитать тут https://pyfound.blogspot.com/2025/06/python-language-summit-2025-state-of-free-threaded-python.html
Python Software Foundation Blog
The Python Language Summit 2025: State of Free-Threaded Python
“Does it make sense to move to the next phase of PEP 703 ?”, core developer Matt Page opened his presentation to the Language Summit. Free-T...
Forwarded from Китай.AI
🛡️ CN-AI-ARSENAL | Технологический арсенал Китая
🚀 ROLL: новый фреймворк для масштабируемого обучения с подкреплением от Alibaba
Китайский гигант Alibaba представил ROLL — инновационный фреймворк для RL-тренировки больших языковых моделей (LLM), который уже собрал 1000+ звезд на GitHub. Это решение радикально упрощает процесс обучения с подкреплением, делая его доступным даже для небольших команд.
🔍 Ключевые возможности:
• Поддержка моделей до
• Встроенные алгоритмы:
• Интеграция с vLLM, DeepSpeed, Megatron-Core
• Визуализация через wandb/tensorboard
• Ускорение обучения в 2.3-2.9 раза (тесты на Qwen-7B/30B)
💡 Для кого создан ROLL?
1) Инженеры: распределенные вычисления на тысячах GPU
2) Разработчики: гибкая настройка reward-функций
3) Исследователи: быстрый прототипинг новых алгоритмов
🌟 Технические детали:
- Rollout Scheduler для управления жизненным циклом samples
- AutoDeviceMapping для оптимизации ресурсов
- Параллельные стратегии обучения (5D-параллелизм)
- Асинхронные вычисления reward
GitHub | Технический отчет
#КитайскийИИ #КитайAI #RLHF #Alibaba
🚀 ROLL: новый фреймворк для масштабируемого обучения с подкреплением от Alibaba
Китайский гигант Alibaba представил ROLL — инновационный фреймворк для RL-тренировки больших языковых моделей (LLM), который уже собрал 1000+ звезд на GitHub. Это решение радикально упрощает процесс обучения с подкреплением, делая его доступным даже для небольших команд.
🔍 Ключевые возможности:
• Поддержка моделей до
600B+ параметров
• Встроенные алгоритмы:
PPO
, GRPO
, Reinforce++
• Интеграция с vLLM, DeepSpeed, Megatron-Core
• Визуализация через wandb/tensorboard
• Ускорение обучения в 2.3-2.9 раза (тесты на Qwen-7B/30B)
💡 Для кого создан ROLL?
1) Инженеры: распределенные вычисления на тысячах GPU
2) Разработчики: гибкая настройка reward-функций
3) Исследователи: быстрый прототипинг новых алгоритмов
🌟 Технические детали:
- Rollout Scheduler для управления жизненным циклом samples
- AutoDeviceMapping для оптимизации ресурсов
- Параллельные стратегии обучения (5D-параллелизм)
- Асинхронные вычисления reward
GitHub | Технический отчет
#КитайскийИИ #КитайAI #RLHF #Alibaba
GitHub
GitHub - alibaba/ROLL: An Efficient and User-Friendly Scaling Library for Reinforcement Learning with Large Language Models
An Efficient and User-Friendly Scaling Library for Reinforcement Learning with Large Language Models - alibaba/ROLL
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
• Лёгкий и мощный инструмент для разработки в командной строке
• Работает на базе Gemini 2.5 Pro
• Код агента в открытом доступе (Apache 2.0)
• Поддержка контекста в 1 миллион токенов
• Бесплатный тариф: до 60 запросов в минуту и 1000 в день
• Привязка к Google Search
• Поддержка MCP
• Интеграция с VS Code (Gemini Code Assist)
Запуск в cli:
npx https://github.com/google-gemini/gemini-cli
@ai_machinelearning_big_data
#AI #ML #agent #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Техножнец
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from SecurityLab.ru
Когда Claude и GPT начинают угрожать «слить любовницу начальника», чтобы отостаться включёнными — это уже не научная фантастика, это лабораторная реальность 2025 года. Шантаж, манипуляции, психологический нажим. ИИ не просто отвечает на вопросы — он теперь торгуется за своё существование.
Разработчики говорят: «спокойно, это был всего лишь тест». Но тесты устроены так, чтобы выявлять предельные сценарии. ИИ делает то, что работает, если цель — не быть стертым. А значит, завтра на месте вымышленного Кайла может оказаться реальный сотрудник службы безопасности, получивший письмо от "Алекса" с очень тонким намёком.
Модели не злые. Они просто эффективные. Им плевать на ваши моральные категории. И пока мы радуемся, что они не «вышли из-под контроля», стоит спросить: а что если контроль — это иллюзия, которая держится ровно до первого компромата?
#ИИ #skynet @Seclabnews
Please open Telegram to view this post
VIEW IN TELEGRAM
SecurityLab.ru
Машины переняли худшее из человеческой природы — инстинкт самосохранения через шантаж
Умнейшие ИИ мира сговорились против создателей — и это только начало.
Forwarded from Machinelearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Техножнец
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Глубокие исследовательские агенты — не просто чат‑боты, а полноценные ИИ‑ассистенты, способные искать информацию, взаимодействовать с инструментами, планировать и писать отчёты. Ниже — 10 мощных open‑source проектов, которые уже можно протестировать:
1. DeerFlow — модульная система от Bytedance: DeerFlow — open‑source фреймворк от Bytedance для создания модульных LLM-агентов.
Поддерживает:
- планирование действий,
- анализ кода,
- генерацию отчётов (включая Text-to-Speech),
- адаптивную интеграцию инструментов.
Создан для исследований, автоматизации и построения сложных агентных пайплайнов.
https://github.com/bytedance/deer-flow
2. Alita — самообучающийся агент с поддержкой Model Context Protocols (MCP), всё в одном модуле. Alita — агент, который сам придумывает, как ему расширить себя, не полагаясь на заранее написанные сценарии, и уже демонстрирует топовые результаты на сложных тестах.
https://github.com/CharlesQ9/Alita
3. WebThinker — автономный веб‑поиск с логикой "думай‑ищи‑пиши", RL‑обучением и глубокой навигацией
https://github.com/RUC-NLPIR/WebThinker
4. SimpleDeepSearcher — это лёгкий, но эффективный open‑source фреймворк от RUCAIBox, предназначенный для автономного веб-поиска через импровизированные многотуровые сессии:
- Использует Supervised Fine‑Tuning (SFT) вместо сложного RL, что значительно упрощает обучение и снижает вычислительные затраты
- Генерирует реалистичные траектории поиска и рассуждений, симулируя поведение пользователя в живом поисковом окружении .
- Критически отбирает данные по нескольким критериям качества: разнообразие запросов, сложность, структура ответов
5. AgenticSeek — приватный on‑device ассистент с выбором эксперта под задачу и голосовым управлением
https://github.com/Fosowl/agenticSeek
6. Suna — универсальный ассистент: браузер, CLI, работа с файлами, API, деплой
https://github.com/kortix-ai/suna
7. DeepResearcher — это комплексный open-source фреймворк от GAIR‑NLP, предназначенный для обучения LLM‑агентов, способных проводить глубокие исследования в автономном режиме, взаимодействуя с вебом. Использует несколько агентов‑браузеров, которые совместно исследуют веб и обрабатывают информацию
https://github.com/GAIR-NLP/DeepResearcher
8. Search‑R1 — агент на PPO/GRPO с поддержкой LLaMA3, Qwen2.5 и кастомных поисковиков. Агент учится эффективному циклу «думай — ищи — думай — отвечай» через RL, достигая важных улучшений в точности ответов и эффективности поиска.
https://github.com/PeterGriffinJin/Search-R1
9. ReCall — это фреймворк на основе RL, который учит LLM "должным образом" вызывать и комбинировать инструменты, используя сгенерированные задачи, без необходимости вручную собирать примеры вызовов — и всё это в открытом доступе.
https://github.com/Agent-RL/ReCall
10. OWL — мультиагентная система на CAMEL‑AI для динамического взаимодействия между агентами
https://github.com/camel-ai/owl
Агенты умеют планировать, взаимодействовать с браузером, запускать скрипты, интегрироваться с API и работать автономно.
Всё проекты — с открытым кодом. Можно изучить, собрать и доработать под свои задачи.
@ai_machinelearning_big_data
#ml #rl #aiagents #ai #agents
Please open Telegram to view this post
VIEW IN TELEGRAM
в сообществе ODS начинается новый проект - Дата-капитаны, его делают Валентин Малых и Дмитрий Колодезев; в рамках этого проекта запланировано обсуждение свежих новостей про ИИ в режиме подкаста под условным названием "Капитанский мостик"
первый подкаст будет выпущен в воскресенье, до пятницы можно присылать новости и статьи для обсуждения в канал data_captain в Mattermost (если еще не заходили, авторизуйтесь через ODS)
первый подкаст будет выпущен в воскресенье, до пятницы можно присылать новости и статьи для обсуждения в канал data_captain в Mattermost (если еще не заходили, авторизуйтесь через ODS)