Машинное обучение RU 2758

🌟 FlexTok: адаптивная 1D-токенизация изображений от Apple.

FlexTok - метод токенизации изображений, который преобразует 2D-изображения в упорядоченные 1D-последовательности переменной длины.

Его цель - сократить объем данных, необходимых для обучения генеративных моделей, и при этом оставить достаточную информацию для качественной реконструкции и генерации.

В отличие от традиционных подходов, где число токенов фиксировано и зависит только от размера изображения, FlexTok подстраивается под сложность контента: простейшая сцена может кодироваться несколькими токенами, а сложная - десятками и сотнями .

FlexTok, это по сути, пайплайн из 3 компонентов: ViT‑энкодер, квантование регистров и маскирование внимания:

ViT‑энкодер с набором «регистровых» токенов читает латентные представления VAE‑GAN и конденсирует их в 1D-последовательность до 256 регистров .

Затем, с помощью FSQ‑квантования, каждый регистр дискретизируется в код из заранее определенного словаря размером ~64 000.
На этом этапе применяется "nested dropout": во время обучения случайно обрезаются последние токены, чтобы модель научилась упорядочивать информацию от грубых форм к деталям.

Параллельно применяется авторегрессионная маска внимания: каждый токен в цепочке видит только те, что были до него, и не знает о тех, что идут после. Это заставляет модель генерировать изображения шаг за шагом, от первого токена к последнему, и упрощает ей задачу прогнозирования следующих элементов.

Декодер в FlexTok - это модель rectified flow, которая на вход берет укороченные токены и слегка зашумленные латенты VAE и учится предсказывать тот шум, который нужно убрать, чтобы вернуть исходное представление.

Чтобы обучение шло быстрее и давало более точные результаты, добавляют REPA‑Loss: он сравнивает промежуточные признаки с векторами из DINOv2‑L. Благодаря этому даже при очень жесткой компрессии (от 1 до 256 токенов), FlexTok успешно восстанавливает детали изображения.

FlexTok легко встраивается в текстово‑ориентированные модели и может улучшить соответствие изображения описанию, даже если число токенов меняется. К тому же его адаптивная токенизация применима не только к картинкам, но и к аудио или видео.

▶️

Набор токенизаторов:

🟢

Flextok_d12_d12_in1k - 12\12 слоев энкодер-декодер, датасет IN1K;

🟢

Flextok_d18_d18_in1k - 18\18 слоев энкодер-декодер, датасет IN1K;

🟢

Flextok_d18_d28_in1k - 18\28 слоев энкодер-декодер, датасет IN1K;

🟢

Flextok_d18_d28_dfm - 18\28 слоев энкодер-декодер, датасет DFN.

▶️

VAE:

🟠

Flextok_vae_c4 - 4 каналов латента, коэффициент понижающей дискретизации 8;

🟠

Flextok_vae_c8 - 8 каналов латента, коэффициент понижающей дискретизации 8;

🟠

Flextok_vae_c16 - 16 каналов латента, коэффициент понижающей дискретизации 8.

🟡

🟡

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #Tokenizer #Flextok #Apple

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1.0K views09:06

Машинное обучение RU

DeepSWE 🤖 — полностью открытый SOTA-агент для кодинга на базе Qwen3-32B

- Обучен исключительно с помощью RL через фреймворк rLLM
- Результат 59% на SWEBench-Verified с тест-тайм масштабированием (42.2% Pass@1) — лидер среди моделей с открытыми весами
- В открытом доступе: модель, код rLLM, датасет R2EGym и рецепты обучения для полной воспроизводимости

🤗 Model: https://huggingface.co/agentica-org/DeepSWE-Preview
📄 DeepSWE blog: https://pretty-radio-b75.notion.site/DeepSWE-Training-a-Fully-Open-sourced-State-of-the-Art[%E2%80%A6]-by-Scaling-RL-22281902c1468193aabbe9a8c59bbe33
📄 rLLM blog:
https://pretty-radio-b75.notion.site/rLLM-A-Framework-for-Post-Training-Language-Agents-21b81902c146819db63cd98a54ba5f31
💻 Github (rLLM): https://github.com/agentica-project/rllm

1.2K views07:28

Машинное обучение RU

2:07

This media is not supported in your browser

VIEW IN TELEGRAM

🚀 Вышел подкаст от издания N + 1 с инженером рекомендательных систем Яндекса Николаем Савушкиным. В нём обсудили, можно ли применять рекомендательные системы на длинной дистанции и смогут ли они построить дерево вариантов для будущей жизни и карьеры пользователя.

Некоторые компании уже пытались сделать из рекомендательной системы агента, который поможет человеку оптимизировать свою жизнь как в краткосрочном, так и в долгосрочном периоде. Но рекомендации всё ещё живут в парадигме дискриминативных систем и лишь угадывают реакцию пользователя на действие вместо того, чтобы сгенерировать осмысленную цепочку действий.

@machinelearning_ru

1.2K views11:04

Машинное обучение RU

0:19

This media is not supported in your browser

VIEW IN TELEGRAM

Wondera AI ии, который генерирует полноценные треки за минуту и заметно обходит конкурентов по качеству.

Вы можете создавать, редактировать и выпускать музыку бесплатно, а нейронка подскажет, как лучше составить промт для трека.

Пользуемся тут.

1.3K views13:03

Машинное обучение RU

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

Из окон офисов VK — самые красивые закаты. А в самих офисах обитают самые любимые коллеги!

Ребята не только делают сервисы VK быстрее и удобнее, но и любят делиться знаниями. Совсем скоро они проведут открытый Java AI-митап и расскажут о том, как мы масштабируем процессы, а ещё поделятся фишками, которые стоят за сервисами VK.

Откликайтесь, если откликается!

1.2K views12:55

Машинное обучение RU

🔐 FATE — промышленный фреймворк для федеративного обучения. Этот проект под эгидой Linux Foundation позволяет компаниям совместно обучать ML-модели, не объединяя исходные данные. В основе — комбинация гомоморфного шифрования и MPC-протоколов, обеспечивающие безопасность на уровне промышленных стандартов.

Фреймворк обладает большим разнообразием сценариев: от классических алгоритмов вроде логистической регрессии до трансферного обучения и работы с LLM. Модульная архитектура делает решение гибким для разных инфраструктур.

🤖 GitHub

@machinelearning_ru

1.2K views15:04

Машинное обучение RU

⚡️ Почему лучшие разработчики всегда на шаг впереди?

Потому что они знают, где брать настоящие инсайд!
Оставь “программирование в вакууме” в прошлом, выбирай свой стек — подпишись и погружайся в поток идей, лайфхаков и знаний, которые не найдёшь в открытом доступе.

ИИ: www.tg-me.com/ai_machinelearning_big_data
Python: www.tg-me.com/pro_python_code
Linux: www.tg-me.com/linuxacademiya
Devops: www.tg-me.com/DevOPSitsec
Базы данных: www.tg-me.com/sqlhub
Мл собес www.tg-me.com/machinelearning_interview
C++ www.tg-me.com/cpluspluc
Docker: www.tg-me.com/DevopsDocker
Хакинг: www.tg-me.com/linuxkalii
МЛ: www.tg-me.com/machinelearning_ru
Data Science: www.tg-me.com/data_analysis_ml
Javascript: www.tg-me.com/javascriptv
C#: www.tg-me.com/csharp_ci
Java: www.tg-me.com/java_library
Python собеседования: www.tg-me.com/python_job_interview
Мобильная разработка: www.tg-me.com/mobdevelop
Golang: www.tg-me.com/Golang_google
React: www.tg-me.com/react_tg
Rust: www.tg-me.com/rust_code
ИИ: www.tg-me.com/vistehno
PHP: www.tg-me.com/phpshka
Android: www.tg-me.com/android_its
Frontend: www.tg-me.com/front
Big Data: www.tg-me.com/bigdatai
МАТЕМАТИКА: www.tg-me.com/data_math
Kubernets: www.tg-me.com/kubernetc
Разработка игр: https://www.tg-me.com/gamedev
Физика: www.tg-me.com/fizmat
SQL: www.tg-me.com/databases_tg

Папка Go разработчика: www.tg-me.com/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: www.tg-me.com/addlist/eEPya-HF6mkxMGIy
Папка ML: https://www.tg-me.com/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://www.tg-me.com/addlist/mzMMG3RPZhY2M2Iy

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
😆ИТ-Мемы: www.tg-me.com/memes_prog
🇬🇧Английский: www.tg-me.com/english_forprogrammers
🧠ИИ: www.tg-me.com/vistehno

🖥 Chatgpt для кода в тг: @Chatgpturbobot -

📕Ит-книги: https://www.tg-me.com/addlist/BkskQciUW_FhNjEy
💼ИТ-вакансии www.tg-me.com/addlist/_zyy_jQ_QUsyM2Vi

Подпишись, чтобы всегда знать, куда двигаться дальше!

Please open Telegram to view this post

VIEW IN TELEGRAM

931 views14:53

Машинное обучение RU

👾 GREMLLM — теперь у ваших багов есть сознание

GREMLLM — это необычный Python-класс, в котором все методы и свойства создаются динамически с помощью LLM. Вы описываете, *что за объект вы хотите*, и дальше GREMLLM сам решает, что должно происходить при вызове методов или обращении к полям.

📦 Установка:


pip install gremllm

🔧 Пример:



from gremllm import Gremllm

counter = Gremllm('counter')
counter.value = 5
counter.increment()
print(counter.value)               # → 6?
print(counter.to_roman_numerals())  # → VI?

🧩 Возможности:
– Динамическое поведение: всё определяется "на лету" с помощью LLM
– Поддержка OpenAI, Claude, Gemini, и локальных моделей
– Wet Mode: можно строить цепочки вызовов (методы возвращают объекты)
– Verbose Mode: выводит, какой код был сгенерирован
– Умная обработка ошибок и настройка через наследование

⚠️ Это экспериментальный инструмент. Не для продакшена. Но очень интересен для изучения LLM-интеграций в Python-код.

🔗 Репозиторий: https://github.com/ur-whitelab/gremllm

916 views16:03

2025/07/06 18:05:58
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>