Forwarded from Machinelearning
🚀 Парадигма меняется: Polaris выводит локальные модели на новый уровень
Polaris — это набор простых, но мощных приёмов, который позволяет даже компактным LLM (4 B, 7 B) догнать и превзойти «тяжеловесов» на задачах рассуждения (открытая 4B модель превосходи Claude-4-Opus).
Вот как это работает и почему важно:
• Управление сложностью данных
– Генерируем несколько (например, 8) вариантов решения от базовой модели
– Оцениваем, какие примеры слишком простые (8/8) или слишком сложные (0/8), и убираем их
– Оставляем «умеренные» задачи с правильными решениями в 20–80 % случаев, чтобы быть ни слишком лёгкими, ни слишком сложными
• Разнообразие «прогонов» (rollout-ов)
– Мы запускаем модель несколько раз на одной и той же задаче и смотрим, как меняются её рассуждения: одни и те же входные данные, но разные «пути» к решению.
– Считаем, насколько разнообразны эти пути (т. е. их «энтропия»): если модели всё время идут по одной линии, новых идей не появляется; если слишком хаотично — рассуждения неустойчивы.
– Задаём начальную “температуру” генерации там, где баланс между стабильностью и разнообразием оптимален, а затем постепенно её повышаем, чтобы модель не застревала на одних и тех же шаблонах и могла исследовать новые, более креативные ходы.
• “Train-short, generate-long”
– Во время RL-обучения используем короткие цепочки рассуждений (короткие CoT) для экономии ресурсов
– На inference увеличиваем длину CoT, чтобы получить более детальные и понятные объяснения без накрутки стоимости обучения
• Динамическое обновление датасета
– По мере роста точности удаляем примеры с accuracy > 90 %, чтобы не «портить» модель слишком лёгкими задачами
– Поддерживаем постоянный вызов модели на её пределе возможностей
• Улучшенная reward-функция
– Комбинируем стандартный RL-reward с бонусами за разнообразие и глубину рассуждений
– Это позволяет модели учиться не только давать правильный ответ, но и объяснять логику своих решений
Преимущества Polaris
• Благодаря Polaris даже компактные LLM (4 B и 7 B) достигают и даже «тяжеловесов» (32 B–235 B) на AIME, MATH и GPQA
• Обучение на доступных GPU уровня consumer-grade — до 10× экономии ресурсов и затрат по сравнению с традиционными RL-пайплайнами
• Полный открытый стек: исходники, подборка данных и веса
• Простота и модульность: готовый к использованию фреймворк для быстрого внедрения и масштабирования без дорогостоящей инфраструктуры
Polaris доказывает, что качество данных и грамотная настройка RL-процесса важнее просто «больших моделей». С ним вы получите продвинутую reasoning-LLM, которую можно запустить локально и масштабировать везде, где есть обычная GPU.
▪Blog post: https://hkunlp.github.io/blog/2025/Polaris
▪Model: https://huggingface.co/POLARIS-Project
▪Code: https://github.com/ChenxinAn-fdu/POLARIS
▪Notion: https://honorable-payment-890.notion.site/POLARIS-A-POst-training-recipe-for-scaling-reinforcement-Learning-on-Advanced-ReasonIng-modelS-1dfa954ff7c38094923ec7772bf447a1
@ai_machinelearning_big_data
#ml #ai • #Polaris #PostTraining #ReinforcementLearning #LLM
Polaris — это набор простых, но мощных приёмов, который позволяет даже компактным LLM (4 B, 7 B) догнать и превзойти «тяжеловесов» на задачах рассуждения (открытая 4B модель превосходи Claude-4-Opus).
Вот как это работает и почему важно:
• Управление сложностью данных
– Генерируем несколько (например, 8) вариантов решения от базовой модели
– Оцениваем, какие примеры слишком простые (8/8) или слишком сложные (0/8), и убираем их
– Оставляем «умеренные» задачи с правильными решениями в 20–80 % случаев, чтобы быть ни слишком лёгкими, ни слишком сложными
• Разнообразие «прогонов» (rollout-ов)
– Мы запускаем модель несколько раз на одной и той же задаче и смотрим, как меняются её рассуждения: одни и те же входные данные, но разные «пути» к решению.
– Считаем, насколько разнообразны эти пути (т. е. их «энтропия»): если модели всё время идут по одной линии, новых идей не появляется; если слишком хаотично — рассуждения неустойчивы.
– Задаём начальную “температуру” генерации там, где баланс между стабильностью и разнообразием оптимален, а затем постепенно её повышаем, чтобы модель не застревала на одних и тех же шаблонах и могла исследовать новые, более креативные ходы.
• “Train-short, generate-long”
– Во время RL-обучения используем короткие цепочки рассуждений (короткие CoT) для экономии ресурсов
– На inference увеличиваем длину CoT, чтобы получить более детальные и понятные объяснения без накрутки стоимости обучения
• Динамическое обновление датасета
– По мере роста точности удаляем примеры с accuracy > 90 %, чтобы не «портить» модель слишком лёгкими задачами
– Поддерживаем постоянный вызов модели на её пределе возможностей
• Улучшенная reward-функция
– Комбинируем стандартный RL-reward с бонусами за разнообразие и глубину рассуждений
– Это позволяет модели учиться не только давать правильный ответ, но и объяснять логику своих решений
Преимущества Polaris
• Благодаря Polaris даже компактные LLM (4 B и 7 B) достигают и даже «тяжеловесов» (32 B–235 B) на AIME, MATH и GPQA
• Обучение на доступных GPU уровня consumer-grade — до 10× экономии ресурсов и затрат по сравнению с традиционными RL-пайплайнами
• Полный открытый стек: исходники, подборка данных и веса
• Простота и модульность: готовый к использованию фреймворк для быстрого внедрения и масштабирования без дорогостоящей инфраструктуры
Polaris доказывает, что качество данных и грамотная настройка RL-процесса важнее просто «больших моделей». С ним вы получите продвинутую reasoning-LLM, которую можно запустить локально и масштабировать везде, где есть обычная GPU.
▪Blog post: https://hkunlp.github.io/blog/2025/Polaris
▪Model: https://huggingface.co/POLARIS-Project
▪Code: https://github.com/ChenxinAn-fdu/POLARIS
▪Notion: https://honorable-payment-890.notion.site/POLARIS-A-POst-training-recipe-for-scaling-reinforcement-Learning-on-Advanced-ReasonIng-modelS-1dfa954ff7c38094923ec7772bf447a1
@ai_machinelearning_big_data
#ml #ai • #Polaris #PostTraining #ReinforcementLearning #LLM
Accuracy — это ещё не значит, что модель работает.
Красивые графики и высокие метрики — это только начало. После релиза начинается самое интересное: данные дрейфуют, пользователи ведут себя не так, как ожидалось, а бизнес требует объяснений.
На вебинаре от karpov courses — «ML на практике» Ирина Дворянинова (руководит ML-сервисами) и Фёдор Пахуров (ML-специалист в проде) из ecom tech расскажут, как устроен процесс внедрения моделей, какие подводные камни ждут новичков и почему A/B-тесты — это не просто «запустил и забыл».
Узнайте, как выглядит реальная работа ML-инженера — и что нужно уметь, чтобы в ней остаться на бесплатном онлайн-вебинаре 26 июня 19:00: https://clc.to/erid_2W5zFG7wuRJ
Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627. erid: 2W5zFG7wuRJ
Красивые графики и высокие метрики — это только начало. После релиза начинается самое интересное: данные дрейфуют, пользователи ведут себя не так, как ожидалось, а бизнес требует объяснений.
На вебинаре от karpov courses — «ML на практике» Ирина Дворянинова (руководит ML-сервисами) и Фёдор Пахуров (ML-специалист в проде) из ecom tech расскажут, как устроен процесс внедрения моделей, какие подводные камни ждут новичков и почему A/B-тесты — это не просто «запустил и забыл».
Узнайте, как выглядит реальная работа ML-инженера — и что нужно уметь, чтобы в ней остаться на бесплатном онлайн-вебинаре 26 июня 19:00: https://clc.to/erid_2W5zFG7wuRJ
Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627. erid: 2W5zFG7wuRJ
📊 PyTracking — универсальный фреймворк для визуального трекинга на Python. Этот проект объединяет под одной крышей передовые алгоритмы отслеживания объектов в видео, от классических подходов до трансформерных архитектур.
Инструмент имеет поддержку сразу нескольких трекеров — TaMOs для одновременного отслеживания множества объектов, RTS с сегментацией вместо bounding box’ов и ToMP с предсказанием на основе Transformer. Хотя код написан на PyTorch и требует GPU для тренировки моделей, разработчики постарались сделать инфраструктуру максимально модульной. Здесь есть всё: от готовых датасетов до инструментов для оценки точности.
🤖 GitHub
@machinelearning_ru
Инструмент имеет поддержку сразу нескольких трекеров — TaMOs для одновременного отслеживания множества объектов, RTS с сегментацией вместо bounding box’ов и ToMP с предсказанием на основе Transformer. Хотя код написан на PyTorch и требует GPU для тренировки моделей, разработчики постарались сделать инфраструктуру максимально модульной. Здесь есть всё: от готовых датасетов до инструментов для оценки точности.
🤖 GitHub
@machinelearning_ru
😅 Google случайно опубликовали блог о Gemini CLI, но пост уже удалён — теперь там 404. Что удалось узнать до удаления:
🔓 Open-source CLI для Gemini 2.5 Pro
🧠 Поддержка контекста в 1 миллион токенов
💸 Бесплатный тариф: до 60 запросов в минуту и 1000 в день
🔍 Привязка к Google Search для актуальных ответов
🧩 Поддержка плагинов и скриптов
🧑💻 Интеграция с VS Code (Gemini Code Assist)
👀 Похоже, Google готовит серьёзный ответ OpenAI — с фокусом на разработчиков и расширяемость прямо из терминала.
Вот ссылка на блог (сейчас выдаёт 404):
https://blog.google/technology/developers/introducing-gemini-cli/
🔓 Open-source CLI для Gemini 2.5 Pro
🧠 Поддержка контекста в 1 миллион токенов
💸 Бесплатный тариф: до 60 запросов в минуту и 1000 в день
🔍 Привязка к Google Search для актуальных ответов
🧩 Поддержка плагинов и скриптов
🧑💻 Интеграция с VS Code (Gemini Code Assist)
👀 Похоже, Google готовит серьёзный ответ OpenAI — с фокусом на разработчиков и расширяемость прямо из терминала.
Вот ссылка на блог (сейчас выдаёт 404):
https://blog.google/technology/developers/introducing-gemini-cli/
🚀 RoboArena: платформа для реального оценивания robot policies
RoboArena — первая в своём роде платформа для масштабируемого и воспроизводимого оценивания роботов, основанных на политике управления (robot policies). Это прямой аналог Chatbot Arena, но для роботов, позволяющий исследователям сравнивать и ранжировать решения в реальных условиях.
Задача и мотивация:
• Реальное тестирование роботов дорого и зачастую не воспроизводимо.
• Традиционные симуляторы часто не отражают реальные физические условия.
RoboArena устраняет эти ограничения, предоставляя инфраструктуру для распределённого и стандартизированного оценивания политик на реальных роботах.
Ключевые компоненты платформы:
• Evaluation client — Python-скрипт (Python 3.7+), позволяющий запустить серию оценочных прогонов на вашей аппаратуре. Настраивается через YAML-конфиг для указания камер, названия института и параметров логирования.
• Централизованный logging server — собирает метрики успеха, телеметрию и оценки, обеспечивая единое хранилище данных и построение рейтингов.
• Веб-интерфейс — статический сайт, доступный по адресу robo-arena.github.io, где публикуются данные о политиках, динамически обновляемые графики и сравнительный рейтинг.
Рабочий процесс:
1. Настроить YAML-файл (например, my_institution.yaml) с параметрами камер и логирования.
2. Запустить команду:
```bash
python evaluate.py --config my_institution.yaml
3. Открыть веб-интерфейс в браузере по адресу robo-arena.github.io и просмотреть результаты.
Планы развития:
• Интеграция с world-model платформами (SIMPLER, WPE) для сравнения симуляционного и реального оценивания.
• Полный открытый исходный код client, server и web UI к концу 2025.
• Добавление поддержки новых сенсоров и разных типов роботов.
github.com/pranavatreya/real_eval
RoboArena — первая в своём роде платформа для масштабируемого и воспроизводимого оценивания роботов, основанных на политике управления (robot policies). Это прямой аналог Chatbot Arena, но для роботов, позволяющий исследователям сравнивать и ранжировать решения в реальных условиях.
Задача и мотивация:
• Реальное тестирование роботов дорого и зачастую не воспроизводимо.
• Традиционные симуляторы часто не отражают реальные физические условия.
RoboArena устраняет эти ограничения, предоставляя инфраструктуру для распределённого и стандартизированного оценивания политик на реальных роботах.
Ключевые компоненты платформы:
• Evaluation client — Python-скрипт (Python 3.7+), позволяющий запустить серию оценочных прогонов на вашей аппаратуре. Настраивается через YAML-конфиг для указания камер, названия института и параметров логирования.
• Централизованный logging server — собирает метрики успеха, телеметрию и оценки, обеспечивая единое хранилище данных и построение рейтингов.
• Веб-интерфейс — статический сайт, доступный по адресу robo-arena.github.io, где публикуются данные о политиках, динамически обновляемые графики и сравнительный рейтинг.
Рабочий процесс:
1. Настроить YAML-файл (например, my_institution.yaml) с параметрами камер и логирования.
2. Запустить команду:
```bash
python evaluate.py --config my_institution.yaml
3. Открыть веб-интерфейс в браузере по адресу robo-arena.github.io и просмотреть результаты.
Планы развития:
• Интеграция с world-model платформами (SIMPLER, WPE) для сравнения симуляционного и реального оценивания.
• Полный открытый исходный код client, server и web UI к концу 2025.
• Добавление поддержки новых сенсоров и разных типов роботов.
github.com/pranavatreya/real_eval
Forwarded from Machinelearning
💡 Особенности:
• 13 млрд параметров
• Поддержка длинного контекста — до 32,000 токенов
• Заточена на диалоги, код и reasoning
• Использует архитектуру SwiGLU, Multi-Query Attention, RoPE и другие современные оптимизации
📌 Хорошие показатели на бенчмарках:
📉 Модель слаба на:
Модель Hunyuan-A13B-Instruct:
Лицензия: Hunyuan Community License Agreement
🔗 Модель доступна на Hugging Face: https://huggingface.co/tencent/Hunyuan-A13B-Instruct
@ai_machinelearning_big_data
#ml #ai #Hunyuan #tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
📸 Unsplash Dataset — уникальная коллекция данных для исследований в области компьютерного зрения и машинного обучения. Включает два варианта:
— Lite (25k фото + 1M поисковых запросов) доступен для коммерческого использования
— Full (6.5M+ фото + 160M запросов) доступен только для некоммерческих целей
Данные собирались с платформы Unsplash, где фотографы со всего мира загружают изображения по свободной лицензии. Набор особенно ценен разнообразием контекстов — от пейзажей до абстрактных композиций.
🤖 GitHub
@machinelearning_ru
— Lite (25k фото + 1M поисковых запросов) доступен для коммерческого использования
— Full (6.5M+ фото + 160M запросов) доступен только для некоммерческих целей
Данные собирались с платформы Unsplash, где фотографы со всего мира загружают изображения по свободной лицензии. Набор особенно ценен разнообразием контекстов — от пейзажей до абстрактных композиций.
🤖 GitHub
@machinelearning_ru
Forwarded from Machinelearning
Глубокие исследовательские агенты — не просто чат‑боты, а полноценные ИИ‑ассистенты, способные искать информацию, взаимодействовать с инструментами, планировать и писать отчёты. Ниже — 10 мощных open‑source проектов, которые уже можно протестировать:
1. DeerFlow — модульная система от Bytedance: DeerFlow — open‑source фреймворк от Bytedance для создания модульных LLM-агентов.
Поддерживает:
- планирование действий,
- анализ кода,
- генерацию отчётов (включая Text-to-Speech),
- адаптивную интеграцию инструментов.
Создан для исследований, автоматизации и построения сложных агентных пайплайнов.
https://github.com/bytedance/deer-flow
2. Alita — самообучающийся агент с поддержкой Model Context Protocols (MCP), всё в одном модуле. Alita — агент, который сам придумывает, как ему расширить себя, не полагаясь на заранее написанные сценарии, и уже демонстрирует топовые результаты на сложных тестах.
https://github.com/CharlesQ9/Alita
3. WebThinker — автономный веб‑поиск с логикой "думай‑ищи‑пиши", RL‑обучением и глубокой навигацией
https://github.com/RUC-NLPIR/WebThinker
4. SimpleDeepSearcher — это лёгкий, но эффективный open‑source фреймворк от RUCAIBox, предназначенный для автономного веб-поиска через импровизированные многотуровые сессии:
- Использует Supervised Fine‑Tuning (SFT) вместо сложного RL, что значительно упрощает обучение и снижает вычислительные затраты
- Генерирует реалистичные траектории поиска и рассуждений, симулируя поведение пользователя в живом поисковом окружении .
- Критически отбирает данные по нескольким критериям качества: разнообразие запросов, сложность, структура ответов
5. AgenticSeek — приватный on‑device ассистент с выбором эксперта под задачу и голосовым управлением
https://github.com/Fosowl/agenticSeek
6. Suna — универсальный ассистент: браузер, CLI, работа с файлами, API, деплой
https://github.com/kortix-ai/suna
7. DeepResearcher — это комплексный open-source фреймворк от GAIR‑NLP, предназначенный для обучения LLM‑агентов, способных проводить глубокие исследования в автономном режиме, взаимодействуя с вебом. Использует несколько агентов‑браузеров, которые совместно исследуют веб и обрабатывают информацию
https://github.com/GAIR-NLP/DeepResearcher
8. Search‑R1 — агент на PPO/GRPO с поддержкой LLaMA3, Qwen2.5 и кастомных поисковиков. Агент учится эффективному циклу «думай — ищи — думай — отвечай» через RL, достигая важных улучшений в точности ответов и эффективности поиска.
https://github.com/PeterGriffinJin/Search-R1
9. ReCall — это фреймворк на основе RL, который учит LLM "должным образом" вызывать и комбинировать инструменты, используя сгенерированные задачи, без необходимости вручную собирать примеры вызовов — и всё это в открытом доступе.
https://github.com/Agent-RL/ReCall
10. OWL — мультиагентная система на CAMEL‑AI для динамического взаимодействия между агентами
https://github.com/camel-ai/owl
Агенты умеют планировать, взаимодействовать с браузером, запускать скрипты, интегрироваться с API и работать автономно.
Всё проекты — с открытым кодом. Можно изучить, собрать и доработать под свои задачи.
@ai_machinelearning_big_data
#ml #rl #aiagents #ai #agents
Please open Telegram to view this post
VIEW IN TELEGRAM
В этом гайде мы создадим Telegram-бота-репетитора на Python, который проводит адаптивные мини-экзамены по темам Python, Data Science, AI и ML.
Бот сохраняет результаты в SQLite и даёт рекомендации по обучению.
Развернём его в облаке immers.cloud — сервисе с GPU-серверами для задач от 3D и гейминга до машинного обучения и генерации контента.
Почему мы выбрали immers.cloud:
- Быстрый старт: нужный сервер поднимается за пару минут.
- Посекундная тарификация — платишь только за время работы сервера
- Большой ассортимент GPU: 11 моделей NVIDIA RTX и Tesla, включая высокопроизводительные модели, H100 (мой фаворит) и A100 с 80 ГБ видеопамяти с поддержкой GPUDirect и NVLink технологий.
- Образы с предустановленным окружением для ML задач, чтобы не тратить время на настройку.
- Поддержка 24/7 и стабильная производительность
🔍 Что делает бот:
- Проводит адаптивные мини‑экзамены по темам: Python, Data Science, AI, ML.
- Подстраивает уровень сложности вопросов под уровень пользователя.
- Сохраняет и анализирует результаты обучения.
🛠️ Технологии и подход:
- Написано на Python с использованием библиотеки для Telegram‑ботов.
- Используется БД для хранения прогресса и статистики.
- Простой архитектурный шаблон: команда → вопрос → ответ → оценка.
🚀 Цели проекта:
- Практическая подготовка к IT‑сертификациям.
- Обратная связь и отслеживание прогресса.
- Возможность добавить новые темы и адаптивную логику.
📌 Кому будет полезен:
- Тем, кто готовится к сертификациям (например, Python, ML).
- Тем, кто хочет автоматизировать обучение через чат.
- Программистам, желающим усилить навыки работы с Telegram‑ботами.
📌 Подробнее
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🎥🔥 VideoPrism от GoogleDeepMind — универсальный видеоэнкодер нового поколения
Модель легко подключается к LLM или текстовому энкодеру, превращая видео в источник контекста.
🧠 Как работает:
• Сначала обучают CLIP-подобную video-text модель
• Затем дистиллируют видеоэнкодер в VideoPrism
• Получается компактный, но гибкий видеоэнкодер, готовый к интеграции в мультимодальные модели
Все модели доступны под лицензией A2.0
Установка:
• Github: https://github.com/google-deepmind/videoprism
• HF: https://huggingface.co/google/videoprism#model-description
• Arxiv: https://arxiv.org/pdf/2402.13217
• Blogpost: https://research.google/blog/videoprism-a-foundational-visual-encoder-for-video-understanding/
#AI #VideoAI #DeepLearning #GoogleDeepMind #LLM #multimodal
Модель легко подключается к LLM или текстовому энкодеру, превращая видео в источник контекста.
🧠 Как работает:
• Сначала обучают CLIP-подобную video-text модель
• Затем дистиллируют видеоэнкодер в VideoPrism
• Получается компактный, но гибкий видеоэнкодер, готовый к интеграции в мультимодальные модели
Все модели доступны под лицензией A2.0
Установка:
$ git clone https://github.com/google-deepmind/videoprism.git
$ cd videoprism
$ pip install .
• Github: https://github.com/google-deepmind/videoprism
• HF: https://huggingface.co/google/videoprism#model-description
• Arxiv: https://arxiv.org/pdf/2402.13217
• Blogpost: https://research.google/blog/videoprism-a-foundational-visual-encoder-for-video-understanding/
#AI #VideoAI #DeepLearning #GoogleDeepMind #LLM #multimodal
NVIDIA NeMo Retriever занял первое место на huggingface ViDoRe: The Visual Document Retrieval Benchmark!
“llama-nemoretriever-colembed-3b-v1” стал топ-моделью, дообученной для сопоставления текстовых и визуальных запросов с документами.
• 🔎 Извлечение данных из PDF в 15× быстрее аналогов
• 📊 Точность на 50% выше
• 💾 Эффективность хранения на 35× лучше
Идеально подходит для мультимодальных RAG-систем с текстом, графиками, таблицами и инфографикой.
Модель выдаёт ColBERT-style мультивекторные представления запросов и документов.
https://huggingface.co/spaces/vidore/vidore-leaderboard
“llama-nemoretriever-colembed-3b-v1” стал топ-моделью, дообученной для сопоставления текстовых и визуальных запросов с документами.
• 🔎 Извлечение данных из PDF в 15× быстрее аналогов
• 📊 Точность на 50% выше
• 💾 Эффективность хранения на 35× лучше
Идеально подходит для мультимодальных RAG-систем с текстом, графиками, таблицами и инфографикой.
Модель выдаёт ColBERT-style мультивекторные представления запросов и документов.
https://huggingface.co/spaces/vidore/vidore-leaderboard
Forwarded from Machinelearning
FlexTok - метод токенизации изображений, который преобразует 2D-изображения в упорядоченные 1D-последовательности переменной длины.
Его цель - сократить объем данных, необходимых для обучения генеративных моделей, и при этом оставить достаточную информацию для качественной реконструкции и генерации.
В отличие от традиционных подходов, где число токенов фиксировано и зависит только от размера изображения, FlexTok подстраивается под сложность контента: простейшая сцена может кодироваться несколькими токенами, а сложная - десятками и сотнями .
FlexTok, это по сути, пайплайн из 3 компонентов: ViT‑энкодер, квантование регистров и маскирование внимания:
ViT‑энкодер с набором «регистровых» токенов читает латентные представления VAE‑GAN и конденсирует их в 1D-последовательность до 256 регистров .
Затем, с помощью FSQ‑квантования, каждый регистр дискретизируется в код из заранее определенного словаря размером ~64 000.
На этом этапе применяется "nested dropout": во время обучения случайно обрезаются последние токены, чтобы модель научилась упорядочивать информацию от грубых форм к деталям.
Параллельно применяется авторегрессионная маска внимания: каждый токен в цепочке видит только те, что были до него, и не знает о тех, что идут после. Это заставляет модель генерировать изображения шаг за шагом, от первого токена к последнему, и упрощает ей задачу прогнозирования следующих элементов.
Декодер в FlexTok - это модель rectified flow, которая на вход берет укороченные токены и слегка зашумленные латенты VAE и учится предсказывать тот шум, который нужно убрать, чтобы вернуть исходное представление.
Чтобы обучение шло быстрее и давало более точные результаты, добавляют REPA‑Loss: он сравнивает промежуточные признаки с векторами из DINOv2‑L. Благодаря этому даже при очень жесткой компрессии (от 1 до 256 токенов), FlexTok успешно восстанавливает детали изображения.
FlexTok легко встраивается в текстово‑ориентированные модели и может улучшить соответствие изображения описанию, даже если число токенов меняется. К тому же его адаптивная токенизация применима не только к картинкам, но и к аудио или видео.
@ai_machinelearning_big_data
#AI #ML #Tokenizer #Flextok #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
DeepSWE 🤖 — полностью открытый SOTA-агент для кодинга на базе Qwen3-32B
- Обучен исключительно с помощью RL через фреймворк rLLM
- Результат 59% на SWEBench-Verified с тест-тайм масштабированием (42.2% Pass@1) — лидер среди моделей с открытыми весами
- В открытом доступе: модель, код rLLM, датасет R2EGym и рецепты обучения для полной воспроизводимости
🤗 Model: https://huggingface.co/agentica-org/DeepSWE-Preview
📄 DeepSWE blog: https://pretty-radio-b75.notion.site/DeepSWE-Training-a-Fully-Open-sourced-State-of-the-Art[%E2%80%A6]-by-Scaling-RL-22281902c1468193aabbe9a8c59bbe33
📄 rLLM blog:
https://pretty-radio-b75.notion.site/rLLM-A-Framework-for-Post-Training-Language-Agents-21b81902c146819db63cd98a54ba5f31
💻 Github (rLLM): https://github.com/agentica-project/rllm
- Обучен исключительно с помощью RL через фреймворк rLLM
- Результат 59% на SWEBench-Verified с тест-тайм масштабированием (42.2% Pass@1) — лидер среди моделей с открытыми весами
- В открытом доступе: модель, код rLLM, датасет R2EGym и рецепты обучения для полной воспроизводимости
🤗 Model: https://huggingface.co/agentica-org/DeepSWE-Preview
📄 DeepSWE blog: https://pretty-radio-b75.notion.site/DeepSWE-Training-a-Fully-Open-sourced-State-of-the-Art[%E2%80%A6]-by-Scaling-RL-22281902c1468193aabbe9a8c59bbe33
📄 rLLM blog:
https://pretty-radio-b75.notion.site/rLLM-A-Framework-for-Post-Training-Language-Agents-21b81902c146819db63cd98a54ba5f31
💻 Github (rLLM): https://github.com/agentica-project/rllm
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Вышел подкаст от издания N + 1 с инженером рекомендательных систем Яндекса Николаем Савушкиным. В нём обсудили, можно ли применять рекомендательные системы на длинной дистанции и смогут ли они построить дерево вариантов для будущей жизни и карьеры пользователя.
Некоторые компании уже пытались сделать из рекомендательной системы агента, который поможет человеку оптимизировать свою жизнь как в краткосрочном, так и в долгосрочном периоде. Но рекомендации всё ещё живут в парадигме дискриминативных систем и лишь угадывают реакцию пользователя на действие вместо того, чтобы сгенерировать осмысленную цепочку действий.
@machinelearning_ru
Некоторые компании уже пытались сделать из рекомендательной системы агента, который поможет человеку оптимизировать свою жизнь как в краткосрочном, так и в долгосрочном периоде. Но рекомендации всё ещё живут в парадигме дискриминативных систем и лишь угадывают реакцию пользователя на действие вместо того, чтобы сгенерировать осмысленную цепочку действий.
@machinelearning_ru
This media is not supported in your browser
VIEW IN TELEGRAM
Wondera AI ии, который генерирует полноценные треки за минуту и заметно обходит конкурентов по качеству.
Вы можете создавать, редактировать и выпускать музыку бесплатно, а нейронка подскажет, как лучше составить промт для трека.
Пользуемся тут.
Вы можете создавать, редактировать и выпускать музыку бесплатно, а нейронка подскажет, как лучше составить промт для трека.
Пользуемся тут.