Forwarded from Machinelearning
FlexTok - метод токенизации изображений, который преобразует 2D-изображения в упорядоченные 1D-последовательности переменной длины.
Его цель - сократить объем данных, необходимых для обучения генеративных моделей, и при этом оставить достаточную информацию для качественной реконструкции и генерации.
В отличие от традиционных подходов, где число токенов фиксировано и зависит только от размера изображения, FlexTok подстраивается под сложность контента: простейшая сцена может кодироваться несколькими токенами, а сложная - десятками и сотнями .
FlexTok, это по сути, пайплайн из 3 компонентов: ViT‑энкодер, квантование регистров и маскирование внимания:
ViT‑энкодер с набором «регистровых» токенов читает латентные представления VAE‑GAN и конденсирует их в 1D-последовательность до 256 регистров .
Затем, с помощью FSQ‑квантования, каждый регистр дискретизируется в код из заранее определенного словаря размером ~64 000.
На этом этапе применяется "nested dropout": во время обучения случайно обрезаются последние токены, чтобы модель научилась упорядочивать информацию от грубых форм к деталям.
Параллельно применяется авторегрессионная маска внимания: каждый токен в цепочке видит только те, что были до него, и не знает о тех, что идут после. Это заставляет модель генерировать изображения шаг за шагом, от первого токена к последнему, и упрощает ей задачу прогнозирования следующих элементов.
Декодер в FlexTok - это модель rectified flow, которая на вход берет укороченные токены и слегка зашумленные латенты VAE и учится предсказывать тот шум, который нужно убрать, чтобы вернуть исходное представление.
Чтобы обучение шло быстрее и давало более точные результаты, добавляют REPA‑Loss: он сравнивает промежуточные признаки с векторами из DINOv2‑L. Благодаря этому даже при очень жесткой компрессии (от 1 до 256 токенов), FlexTok успешно восстанавливает детали изображения.
FlexTok легко встраивается в текстово‑ориентированные модели и может улучшить соответствие изображения описанию, даже если число токенов меняется. К тому же его адаптивная токенизация применима не только к картинкам, но и к аудио или видео.
@ai_machinelearning_big_data
#AI #ML #Tokenizer #Flextok #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
DeepSWE 🤖 — полностью открытый SOTA-агент для кодинга на базе Qwen3-32B
- Обучен исключительно с помощью RL через фреймворк rLLM
- Результат 59% на SWEBench-Verified с тест-тайм масштабированием (42.2% Pass@1) — лидер среди моделей с открытыми весами
- В открытом доступе: модель, код rLLM, датасет R2EGym и рецепты обучения для полной воспроизводимости
🤗 Model: https://huggingface.co/agentica-org/DeepSWE-Preview
📄 DeepSWE blog: https://pretty-radio-b75.notion.site/DeepSWE-Training-a-Fully-Open-sourced-State-of-the-Art[%E2%80%A6]-by-Scaling-RL-22281902c1468193aabbe9a8c59bbe33
📄 rLLM blog:
https://pretty-radio-b75.notion.site/rLLM-A-Framework-for-Post-Training-Language-Agents-21b81902c146819db63cd98a54ba5f31
💻 Github (rLLM): https://github.com/agentica-project/rllm
- Обучен исключительно с помощью RL через фреймворк rLLM
- Результат 59% на SWEBench-Verified с тест-тайм масштабированием (42.2% Pass@1) — лидер среди моделей с открытыми весами
- В открытом доступе: модель, код rLLM, датасет R2EGym и рецепты обучения для полной воспроизводимости
🤗 Model: https://huggingface.co/agentica-org/DeepSWE-Preview
📄 DeepSWE blog: https://pretty-radio-b75.notion.site/DeepSWE-Training-a-Fully-Open-sourced-State-of-the-Art[%E2%80%A6]-by-Scaling-RL-22281902c1468193aabbe9a8c59bbe33
📄 rLLM blog:
https://pretty-radio-b75.notion.site/rLLM-A-Framework-for-Post-Training-Language-Agents-21b81902c146819db63cd98a54ba5f31
💻 Github (rLLM): https://github.com/agentica-project/rllm
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Вышел подкаст от издания N + 1 с инженером рекомендательных систем Яндекса Николаем Савушкиным. В нём обсудили, можно ли применять рекомендательные системы на длинной дистанции и смогут ли они построить дерево вариантов для будущей жизни и карьеры пользователя.
Некоторые компании уже пытались сделать из рекомендательной системы агента, который поможет человеку оптимизировать свою жизнь как в краткосрочном, так и в долгосрочном периоде. Но рекомендации всё ещё живут в парадигме дискриминативных систем и лишь угадывают реакцию пользователя на действие вместо того, чтобы сгенерировать осмысленную цепочку действий.
@machinelearning_ru
Некоторые компании уже пытались сделать из рекомендательной системы агента, который поможет человеку оптимизировать свою жизнь как в краткосрочном, так и в долгосрочном периоде. Но рекомендации всё ещё живут в парадигме дискриминативных систем и лишь угадывают реакцию пользователя на действие вместо того, чтобы сгенерировать осмысленную цепочку действий.
@machinelearning_ru
This media is not supported in your browser
VIEW IN TELEGRAM
Wondera AI ии, который генерирует полноценные треки за минуту и заметно обходит конкурентов по качеству.
Вы можете создавать, редактировать и выпускать музыку бесплатно, а нейронка подскажет, как лучше составить промт для трека.
Пользуемся тут.
Вы можете создавать, редактировать и выпускать музыку бесплатно, а нейронка подскажет, как лучше составить промт для трека.
Пользуемся тут.
This media is not supported in your browser
VIEW IN TELEGRAM
Из окон офисов VK — самые красивые закаты. А в самих офисах обитают самые любимые коллеги!
Ребята не только делают сервисы VK быстрее и удобнее, но и любят делиться знаниями. Совсем скоро они проведут открытый Java AI-митап и расскажут о том, как мы масштабируем процессы, а ещё поделятся фишками, которые стоят за сервисами VK.
Откликайтесь, если откликается!
Ребята не только делают сервисы VK быстрее и удобнее, но и любят делиться знаниями. Совсем скоро они проведут открытый Java AI-митап и расскажут о том, как мы масштабируем процессы, а ещё поделятся фишками, которые стоят за сервисами VK.
Откликайтесь, если откликается!
🔐 FATE — промышленный фреймворк для федеративного обучения. Этот проект под эгидой Linux Foundation позволяет компаниям совместно обучать ML-модели, не объединяя исходные данные. В основе — комбинация гомоморфного шифрования и MPC-протоколов, обеспечивающие безопасность на уровне промышленных стандартов.
Фреймворк обладает большим разнообразием сценариев: от классических алгоритмов вроде логистической регрессии до трансферного обучения и работы с LLM. Модульная архитектура делает решение гибким для разных инфраструктур.
🤖 GitHub
@machinelearning_ru
Фреймворк обладает большим разнообразием сценариев: от классических алгоритмов вроде логистической регрессии до трансферного обучения и работы с LLM. Модульная архитектура делает решение гибким для разных инфраструктур.
🤖 GitHub
@machinelearning_ru
⚡️ Почему лучшие разработчики всегда на шаг впереди?
Потому что они знают, где брать настоящие инсайд!
Оставь “программирование в вакууме” в прошлом, выбирай свой стек — подпишись и погружайся в поток идей, лайфхаков и знаний, которые не найдёшь в открытом доступе.
ИИ: www.tg-me.com/ai_machinelearning_big_data
Python: www.tg-me.com/pro_python_code
Linux: www.tg-me.com/linuxacademiya
Devops: www.tg-me.com/DevOPSitsec
Базы данных: www.tg-me.com/sqlhub
Мл собес www.tg-me.com/machinelearning_interview
C++ www.tg-me.com/cpluspluc
Docker: www.tg-me.com/DevopsDocker
Хакинг: www.tg-me.com/linuxkalii
МЛ: www.tg-me.com/machinelearning_ru
Data Science: www.tg-me.com/data_analysis_ml
Javascript: www.tg-me.com/javascriptv
C#: www.tg-me.com/csharp_ci
Java: www.tg-me.com/java_library
Python собеседования: www.tg-me.com/python_job_interview
Мобильная разработка: www.tg-me.com/mobdevelop
Golang: www.tg-me.com/Golang_google
React: www.tg-me.com/react_tg
Rust: www.tg-me.com/rust_code
ИИ: www.tg-me.com/vistehno
PHP: www.tg-me.com/phpshka
Android: www.tg-me.com/android_its
Frontend: www.tg-me.com/front
Big Data: www.tg-me.com/bigdatai
МАТЕМАТИКА: www.tg-me.com/data_math
Kubernets: www.tg-me.com/kubernetc
Разработка игр: https://www.tg-me.com/gamedev
Физика: www.tg-me.com/fizmat
SQL: www.tg-me.com/databases_tg
Папка Go разработчика: www.tg-me.com/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: www.tg-me.com/addlist/eEPya-HF6mkxMGIy
Папка ML: https://www.tg-me.com/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://www.tg-me.com/addlist/mzMMG3RPZhY2M2Iy
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
😆ИТ-Мемы: www.tg-me.com/memes_prog
🇬🇧Английский: www.tg-me.com/english_forprogrammers
🧠ИИ: www.tg-me.com/vistehno
🖥 Chatgpt для кода в тг: @Chatgpturbobot -
📕Ит-книги: https://www.tg-me.com/addlist/BkskQciUW_FhNjEy
💼ИТ-вакансии www.tg-me.com/addlist/_zyy_jQ_QUsyM2Vi
Подпишись, чтобы всегда знать, куда двигаться дальше!
Потому что они знают, где брать настоящие инсайд!
Оставь “программирование в вакууме” в прошлом, выбирай свой стек — подпишись и погружайся в поток идей, лайфхаков и знаний, которые не найдёшь в открытом доступе.
ИИ: www.tg-me.com/ai_machinelearning_big_data
Python: www.tg-me.com/pro_python_code
Linux: www.tg-me.com/linuxacademiya
Devops: www.tg-me.com/DevOPSitsec
Базы данных: www.tg-me.com/sqlhub
Мл собес www.tg-me.com/machinelearning_interview
C++ www.tg-me.com/cpluspluc
Docker: www.tg-me.com/DevopsDocker
Хакинг: www.tg-me.com/linuxkalii
МЛ: www.tg-me.com/machinelearning_ru
Data Science: www.tg-me.com/data_analysis_ml
Javascript: www.tg-me.com/javascriptv
C#: www.tg-me.com/csharp_ci
Java: www.tg-me.com/java_library
Python собеседования: www.tg-me.com/python_job_interview
Мобильная разработка: www.tg-me.com/mobdevelop
Golang: www.tg-me.com/Golang_google
React: www.tg-me.com/react_tg
Rust: www.tg-me.com/rust_code
ИИ: www.tg-me.com/vistehno
PHP: www.tg-me.com/phpshka
Android: www.tg-me.com/android_its
Frontend: www.tg-me.com/front
Big Data: www.tg-me.com/bigdatai
МАТЕМАТИКА: www.tg-me.com/data_math
Kubernets: www.tg-me.com/kubernetc
Разработка игр: https://www.tg-me.com/gamedev
Физика: www.tg-me.com/fizmat
SQL: www.tg-me.com/databases_tg
Папка Go разработчика: www.tg-me.com/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: www.tg-me.com/addlist/eEPya-HF6mkxMGIy
Папка ML: https://www.tg-me.com/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://www.tg-me.com/addlist/mzMMG3RPZhY2M2Iy
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
😆ИТ-Мемы: www.tg-me.com/memes_prog
🇬🇧Английский: www.tg-me.com/english_forprogrammers
🧠ИИ: www.tg-me.com/vistehno
📕Ит-книги: https://www.tg-me.com/addlist/BkskQciUW_FhNjEy
💼ИТ-вакансии www.tg-me.com/addlist/_zyy_jQ_QUsyM2Vi
Подпишись, чтобы всегда знать, куда двигаться дальше!
Please open Telegram to view this post
VIEW IN TELEGRAM
👾 GREMLLM — теперь у ваших багов есть сознание
GREMLLM — это необычный Python-класс, в котором все методы и свойства создаются динамически с помощью LLM. Вы описываете, *что за объект вы хотите*, и дальше GREMLLM сам решает, что должно происходить при вызове методов или обращении к полям.
📦 Установка:
🔧 Пример:
🧩 Возможности:
– Динамическое поведение: всё определяется "на лету" с помощью LLM
– Поддержка OpenAI, Claude, Gemini, и локальных моделей
– Wet Mode: можно строить цепочки вызовов (методы возвращают объекты)
– Verbose Mode: выводит, какой код был сгенерирован
– Умная обработка ошибок и настройка через наследование
⚠️ Это экспериментальный инструмент. Не для продакшена. Но очень интересен для изучения LLM-интеграций в Python-код.
🔗 Репозиторий: https://github.com/ur-whitelab/gremllm
GREMLLM — это необычный Python-класс, в котором все методы и свойства создаются динамически с помощью LLM. Вы описываете, *что за объект вы хотите*, и дальше GREMLLM сам решает, что должно происходить при вызове методов или обращении к полям.
📦 Установка:
pip install gremllm
🔧 Пример:
from gremllm import Gremllm
counter = Gremllm('counter')
counter.value = 5
counter.increment()
print(counter.value) # → 6?
print(counter.to_roman_numerals()) # → VI?
🧩 Возможности:
– Динамическое поведение: всё определяется "на лету" с помощью LLM
– Поддержка OpenAI, Claude, Gemini, и локальных моделей
– Wet Mode: можно строить цепочки вызовов (методы возвращают объекты)
– Verbose Mode: выводит, какой код был сгенерирован
– Умная обработка ошибок и настройка через наследование
⚠️ Это экспериментальный инструмент. Не для продакшена. Но очень интересен для изучения LLM-интеграций в Python-код.
🔗 Репозиторий: https://github.com/ur-whitelab/gremllm