Mechanistic permutability: Match across layers
В современных нейронках одна из ключевых проблем интерпретируемости — полисемантичность, когда отдельные нейроны энкодят сразу несколько разных понятий. Sparse autoencoders (SAE) решают эту проблему, обучаясь реконструировать скрытые состояния модели при условии активации лишь небольшого числа нейронов. Метод SAE Match развивает эту концепцию, предлагая data-free технику сопоставления признаков между различными слоями нейросети — исследователи из T-Bank AI Research могут анализировать, как трансформируются признаки при прохождении через модель, не прогоняя через нее новые данные.
Технически SAE Match работает через сопоставление параметров автоэнкодеров, обученных на разных слоях. Ключевая инновация — техника parameter folding, которая интегрирует пороговые значения активации функции JumpReLU в веса энкодера и декодера. Это позволяет учитывать различия в масштабах скрытых состояний между слоями и находить перестановочные матрицы, которые оптимально выравнивают семантически схожие признаки. Авторы формулируют задачу как поиск матрицы перестановок, минимизирующей среднеквадратичную ошибку между параметрами SAE, что математически соответствует максимизации скалярного произведения Фробениуса.
Исследователи валидировали свой подход на языковой модели Gemma 2, минимизируя среднеквадратичную ошибку между параметрами SAE для поиска оптимальных перестановочных матриц, которые выравнивают семантически похожие признаки. Эксперименты показали, что сопоставление признаков работает оптимально в средних и поздних слоях (после 10-го), с сохранением семантической целостности на протяжении примерно пяти последовательных слоев. Это позволяет отслеживать изменения концептов по мере распространения информации через архитектуру сети.
У метода есть практическое применение и в прунинге — авторы успешно аппроксимируют hidden state при пропуске слоев, через операцию кодирования-перестановки-декодирования. Это фактически позволяет оптимизировать модель без существенного снижения качества.
Методология оценки результатов тоже интересная — авторы использовали внешнюю языковую модель для анализа семантического сходства сопоставленных признаков, классифицируя их как "SAME", "MAYBE" или "DIFFERENT". Это позволило объективно оценить качество сопоставления и подтвердить, что метод действительно работает. Статья едет на ICLR 2025 в конце месяца, что показывает её значимость.
Пейпер
@ai_newz
В современных нейронках одна из ключевых проблем интерпретируемости — полисемантичность, когда отдельные нейроны энкодят сразу несколько разных понятий. Sparse autoencoders (SAE) решают эту проблему, обучаясь реконструировать скрытые состояния модели при условии активации лишь небольшого числа нейронов. Метод SAE Match развивает эту концепцию, предлагая data-free технику сопоставления признаков между различными слоями нейросети — исследователи из T-Bank AI Research могут анализировать, как трансформируются признаки при прохождении через модель, не прогоняя через нее новые данные.
Технически SAE Match работает через сопоставление параметров автоэнкодеров, обученных на разных слоях. Ключевая инновация — техника parameter folding, которая интегрирует пороговые значения активации функции JumpReLU в веса энкодера и декодера. Это позволяет учитывать различия в масштабах скрытых состояний между слоями и находить перестановочные матрицы, которые оптимально выравнивают семантически схожие признаки. Авторы формулируют задачу как поиск матрицы перестановок, минимизирующей среднеквадратичную ошибку между параметрами SAE, что математически соответствует максимизации скалярного произведения Фробениуса.
Исследователи валидировали свой подход на языковой модели Gemma 2, минимизируя среднеквадратичную ошибку между параметрами SAE для поиска оптимальных перестановочных матриц, которые выравнивают семантически похожие признаки. Эксперименты показали, что сопоставление признаков работает оптимально в средних и поздних слоях (после 10-го), с сохранением семантической целостности на протяжении примерно пяти последовательных слоев. Это позволяет отслеживать изменения концептов по мере распространения информации через архитектуру сети.
У метода есть практическое применение и в прунинге — авторы успешно аппроксимируют hidden state при пропуске слоев, через операцию кодирования-перестановки-декодирования. Это фактически позволяет оптимизировать модель без существенного снижения качества.
Методология оценки результатов тоже интересная — авторы использовали внешнюю языковую модель для анализа семантического сходства сопоставленных признаков, классифицируя их как "SAME", "MAYBE" или "DIFFERENT". Это позволило объективно оценить качество сопоставления и подтвердить, что метод действительно работает. Статья едет на ICLR 2025 в конце месяца, что показывает её значимость.
Пейпер
@ai_newz
Для Grok 3 вышло API
Дают доступ к двум моделям — Grok 3 и Grok 3 Mini. Контекст — 131к для обеих моделей. Reasoning (в двух режимах — low и high) есть только у Mini версии — изначально на презентации она с ризонингом была заметно лучше полноценного Grok 3. Тогда сказали что это из-за более долгого обучения Mini модели и что полноценную они ещё дообучат, видимо что-то произошло, если за два месяца это сделать не вышло.
Цена — $3/$15 за миллион токенов для Grok 3 и $0.3/$0.5 за Grok 3 Mini. Но это со стандартной скоростью, есть ещё и fast mode для обеих моделей, где стоимость выше — $5/$25 для Grok 3 и $0.5/$4 для Mini. Самое смешное, что не смотря на высокую цену, fast режим сейчас заметно медленнее (по замерам OpenRouter).
Впечатления какие-то смешанные — с одной стороны Grok 3 Mini очень сильная, при этом заметно дешевле o3 mini. С другой стороны полноценному Grok 3 конкурировать предстоит с Gemini 2.5 Pro, GPT 4.5 и Sonnet 3.7, а это крайне сильные конкуренты, у каждого из которых есть что-то, что Grok 3 дать не в состоянии.
x.ai/api
@ai_newz
Дают доступ к двум моделям — Grok 3 и Grok 3 Mini. Контекст — 131к для обеих моделей. Reasoning (в двух режимах — low и high) есть только у Mini версии — изначально на презентации она с ризонингом была заметно лучше полноценного Grok 3. Тогда сказали что это из-за более долгого обучения Mini модели и что полноценную они ещё дообучат, видимо что-то произошло, если за два месяца это сделать не вышло.
Цена — $3/$15 за миллион токенов для Grok 3 и $0.3/$0.5 за Grok 3 Mini. Но это со стандартной скоростью, есть ещё и fast mode для обеих моделей, где стоимость выше — $5/$25 для Grok 3 и $0.5/$4 для Mini. Самое смешное, что не смотря на высокую цену, fast режим сейчас заметно медленнее (по замерам OpenRouter).
Впечатления какие-то смешанные — с одной стороны Grok 3 Mini очень сильная, при этом заметно дешевле o3 mini. С другой стороны полноценному Grok 3 конкурировать предстоит с Gemini 2.5 Pro, GPT 4.5 и Sonnet 3.7, а это крайне сильные конкуренты, у каждого из которых есть что-то, что Grok 3 дать не в состоянии.
x.ai/api
@ai_newz
Нейродайджест за неделю (#64)
LLM
- Llama Nemotron — 253B ризонер от Nvidia сделанный на основе Llama 3.1 405B.
- DeepCoder — затюненный под код DeepSeek R1 14B, очень маленький, да удаленький, и полностью открытый, включая датасет с кодом.
- Grok 3 API — $3/$15 за лям токенов, с неработающим fast режимом.
Генеративные модели
- HiDream-I1 — новый опенсорсный MOE-генератор картинок от Китайцев.
- Бесплатный VEO 2 — пробуем СОТА-модельку в Google Cloud.
Прочее
- Зачем что-то опенсорсить? — и почему это не просто благотворительность.
- TPU v7 Ironwood — аналог Nvidia Blackwell от Google.
- SAE Match — решаем проблемы с полисемантичностью при помощи parameter folding.
> Читать дайджест #63
#дайджест
@ai_newz
LLM
- Llama Nemotron — 253B ризонер от Nvidia сделанный на основе Llama 3.1 405B.
- DeepCoder — затюненный под код DeepSeek R1 14B, очень маленький, да удаленький, и полностью открытый, включая датасет с кодом.
- Grok 3 API — $3/$15 за лям токенов, с неработающим fast режимом.
Генеративные модели
- HiDream-I1 — новый опенсорсный MOE-генератор картинок от Китайцев.
- Бесплатный VEO 2 — пробуем СОТА-модельку в Google Cloud.
Прочее
- Зачем что-то опенсорсить? — и почему это не просто благотворительность.
- TPU v7 Ironwood — аналог Nvidia Blackwell от Google.
- SAE Match — решаем проблемы с полисемантичностью при помощи parameter folding.
> Читать дайджест #63
#дайджест
@ai_newz
OpenAI показали GPT-4.1
Идёт в трёх размерах — GPT 4.1, GPT 4.1 Mini и GPT 4.1 Nano. 4.1 и 4.1 mini тестили уже несколько недель на арене и openrouter, под кодовыми названиями Quasar и Optimus. Модели уже доступны в API.
По сравнению с 4o, GPT 4.1 прокачали по всем фронтам — от кодинга до мультимодальности. Но самое главное — 4.1 сильно лучше в следовании инструкций, модель теперь будет меньше забывать инструкции через одно сообщение и газлайтить пользователей.
Все модели поддерживают миллион токенов контекста, по крайней мере в API, причём за более длинный контекст не берут больше денег. Как это будет распространяться на пользователей ChatGPT — непонятно, напоминаю что у подписчиков Plus/Team всё ещё лишь 32к токенов контекста, а у бесплатных пользователей вообще 8к.
Полноценная 4.1 стоит на 20% дешевле за токен чем GPT-4o, а вот 4.1 Mini уже заметно дороже чем 4o-mini, при этом Nano тоже не является полноценной заменой 4o mini, так как она заметно слабее на ряде бенчей. Скидка на закэшированные токены теперь 75%, вместо 50% раньше, что делает 4.1 в среднем на 26% дешевле 4o.
@ai_newz
Идёт в трёх размерах — GPT 4.1, GPT 4.1 Mini и GPT 4.1 Nano. 4.1 и 4.1 mini тестили уже несколько недель на арене и openrouter, под кодовыми названиями Quasar и Optimus. Модели уже доступны в API.
По сравнению с 4o, GPT 4.1 прокачали по всем фронтам — от кодинга до мультимодальности. Но самое главное — 4.1 сильно лучше в следовании инструкций, модель теперь будет меньше забывать инструкции через одно сообщение и газлайтить пользователей.
Все модели поддерживают миллион токенов контекста, по крайней мере в API, причём за более длинный контекст не берут больше денег. Как это будет распространяться на пользователей ChatGPT — непонятно, напоминаю что у подписчиков Plus/Team всё ещё лишь 32к токенов контекста, а у бесплатных пользователей вообще 8к.
Полноценная 4.1 стоит на 20% дешевле за токен чем GPT-4o, а вот 4.1 Mini уже заметно дороже чем 4o-mini, при этом Nano тоже не является полноценной заменой 4o mini, так как она заметно слабее на ряде бенчей. Скидка на закэшированные токены теперь 75%, вместо 50% раньше, что делает 4.1 в среднем на 26% дешевле 4o.
@ai_newz
Яндекс запускает бета-тест YandexGPT 5 с reasoning-режимом
Яндекс начал публичное бета-тестирование YandexGPT 5 с reasoning (режим рассуждений). Новая модель анализирует задачи, выстраивает логические цепочки и показывает пользователю весь процесс рассуждений в реальном времени – это то, что сейчас делают все SOTA-модели.
В техническом плане тренировку модели начинали с SFT чекпоинта YandexGPT 5 Pro — это даёт уверенный warm-start. Далее дообучали в несколько этапов: online-RL GRPO (по аналогии с разработками R1 на реворде с однозначными ответами), потом offline-RL-фаза со сравнением и дообучением на лучших генерациях, а затем RLHF.
Трейн датасет включает не только математические задачи, но и бизнес-сценарии: классификацию, извлечение информации из текстов и суммаризацию. Бенчей пока что нет, но это норма для бета тестов — интересно проследить, что будет на релизе.
В настройках Алисы можно выбрать одну из двух моделей: YandexGPT 5 с рассуждениями или опенсорсную DeepSeek-R1, развернутую на инфраструктуре Яндекса. По дефолту система выбирает между ними случайным образом при каждом запросе, но можно и вручную выбрать конкретную. Выбор из двух моделей сделали, чтобы понять поток запросов на рассуждение и собрать датасет для дообучения модели, а также проверить гипотезу полезности такого продукта для пользователя — все-таки на ru рынке это первый эксперимент с ризонингом. Доступность альтернативы — признак уверенности в своей модели яндексоидов, ведь R1 - это крайне сильная модель. Но ждем бенчмарков!
@ai_newz
Яндекс начал публичное бета-тестирование YandexGPT 5 с reasoning (режим рассуждений). Новая модель анализирует задачи, выстраивает логические цепочки и показывает пользователю весь процесс рассуждений в реальном времени – это то, что сейчас делают все SOTA-модели.
В техническом плане тренировку модели начинали с SFT чекпоинта YandexGPT 5 Pro — это даёт уверенный warm-start. Далее дообучали в несколько этапов: online-RL GRPO (по аналогии с разработками R1 на реворде с однозначными ответами), потом offline-RL-фаза со сравнением и дообучением на лучших генерациях, а затем RLHF.
Трейн датасет включает не только математические задачи, но и бизнес-сценарии: классификацию, извлечение информации из текстов и суммаризацию. Бенчей пока что нет, но это норма для бета тестов — интересно проследить, что будет на релизе.
В настройках Алисы можно выбрать одну из двух моделей: YandexGPT 5 с рассуждениями или опенсорсную DeepSeek-R1, развернутую на инфраструктуре Яндекса. По дефолту система выбирает между ними случайным образом при каждом запросе, но можно и вручную выбрать конкретную. Выбор из двух моделей сделали, чтобы понять поток запросов на рассуждение и собрать датасет для дообучения модели, а также проверить гипотезу полезности такого продукта для пользователя — все-таки на ru рынке это первый эксперимент с ризонингом. Доступность альтернативы — признак уверенности в своей модели яндексоидов, ведь R1 - это крайне сильная модель. Но ждем бенчмарков!
@ai_newz
Microsoft выпустила веса BitNet модели (спустя год)
Я уже писал о BitNet — методе тренировки моделей сразу квантизированными до 1.58 бит, но тогда авторы выложили лишь пару сниппетов кода, без весов. Их новая 2B модель примерно равна Qwen 2.5 1.5B на бенчах, но в два раза быстрее и использует в 12 раз меньше энергии.
Натренировали её всего на 4 триллионах токенов, что хоть и мало для моделей побольше, но нормально в такой весовой категории — ту же Gemma 3 1B натренировали на лишь двух триллионах токенов, а 4B на 4. Но есть здесь и ложка дёгтя — так как модель от Microsoft, то вероятно что модели тренировали на датасетах от Phi моделей, а у них скверная репутация.
Как модель себя ведёт на самом деле — покажет лишь опыт использования. Если хотите попробовать — для инференса рекомендуют использовать майкрософтовский bitnet.cpp, остальной софт для инференса BitNet модели не поддерживает.
Веса
@ai_newz
Я уже писал о BitNet — методе тренировки моделей сразу квантизированными до 1.58 бит, но тогда авторы выложили лишь пару сниппетов кода, без весов. Их новая 2B модель примерно равна Qwen 2.5 1.5B на бенчах, но в два раза быстрее и использует в 12 раз меньше энергии.
Натренировали её всего на 4 триллионах токенов, что хоть и мало для моделей побольше, но нормально в такой весовой категории — ту же Gemma 3 1B натренировали на лишь двух триллионах токенов, а 4B на 4. Но есть здесь и ложка дёгтя — так как модель от Microsoft, то вероятно что модели тренировали на датасетах от Phi моделей, а у них скверная репутация.
Как модель себя ведёт на самом деле — покажет лишь опыт использования. Если хотите попробовать — для инференса рекомендуют использовать майкрософтовский bitnet.cpp, остальной софт для инференса BitNet модели не поддерживает.
Веса
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic запустили бету своего Deep Research
В отличии от конкурентов, он может искать не только по интернету, но и по персональным данным — этому помогают новые интеграции с Google Workspace. Они работают и без Research и уже доступны всем платным юзерам.
А вот Research доступен лишь пользователям в США, Бразилии и Японии на планах Team, Enterprise и Max. Max — это ответ Anthropic на ChatGPT Pro, она даёт увеличенные лимиты использования и стоит либо 100 (за 5x лимиты) либо 200 (за 20x лимиты) долларов. Самое обидное, что за такие деньги не дают даже 500к контекста из энтерпрайз плана😭 .
@ai_newz
В отличии от конкурентов, он может искать не только по интернету, но и по персональным данным — этому помогают новые интеграции с Google Workspace. Они работают и без Research и уже доступны всем платным юзерам.
А вот Research доступен лишь пользователям в США, Бразилии и Японии на планах Team, Enterprise и Max. Max — это ответ Anthropic на ChatGPT Pro, она даёт увеличенные лимиты использования и стоит либо 100 (за 5x лимиты) либо 200 (за 20x лимиты) долларов. Самое обидное, что за такие деньги не дают даже 500к контекста из энтерпрайз плана
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Трамп, конечно, рыночек хорошо колбасит. С такими тарифами американский проект Stargate может тоже под вопрос стать.
@ai_newz
@ai_newz
Telegram
Anastasia.ai – Tech Entrepreneur in🇨🇭
Как связан рынок ИИ с Трампом, пошлинами и торговой войной с Китаем - часть 2.
▶️ [первую часть читайте тут]
Чем пошлины грозят AI индустрии:
Пока Microsoft, Amazon и Google тратят миллиарды на AI, Трамп подкладывает им свинку: Новые пошлины — 145% на…
▶️ [первую часть читайте тут]
Чем пошлины грозят AI индустрии:
Пока Microsoft, Amazon и Google тратят миллиарды на AI, Трамп подкладывает им свинку: Новые пошлины — 145% на…
На лидерборде она делит первое место с GPT-4o – разрыв в 1 ELO поинт.
Выпустили тех репорт в стиле OpenAI с минимумом подробностей. Мы даже не знаем размер модели, но, я думаю, она > 10B параметров. Известно только, что это архитектура MMDiT (как у Flux), генерит хайрез в 2048x2048 и поддерживает китайский и английский языки.
На последней картинке интересно посмотреть, как сильно увеличивается качество генерации после каждого этапа post-train модели.
Весов ждать не стоит, т.к. ТикТок ранее не был замечен в щедрых релизах своих топовых моделей.
Тех репорт
Демо (на китайском)
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM